三等級、六個面向大模型評估報告

全面分析主流大型語言模型的能力,從綜合能力到專業法律應用,為您提供權威參考。

By Dr.Fan, built with Manus
AI模型評估

評估框架介紹

三等級、六個面向評估模型

本評估框架基於個人使用經驗,歸納出一套判斷大語言模型能力的分類方法,從三個等級和六個面向進行全面評估。

三個等級

  • 書僮/陪讀級:基礎能力,可理解簡單指令並提供基本回應
  • 師傅/少傅級:進階能力,具備較強的分析和推理能力
  • 大師/太師級:專家級能力,可處理複雜問題並提供深度見解

六個面向

  • 綜合能力:模型的整體表現和通用任務處理能力
  • 中文能力:處理簡體中文內容的能力
  • 繁體中文能力:處理繁體中文內容的能力
  • 法律能力:處理通用法律問題的能力
  • 中文法律能力:處理中文法律問題的能力
  • 台灣繁體中文法律能力:處理台灣法律問題的能力

評分標準

本評估採用1-10分制,根據模型在各個面向的表現進行評分:

  • 1-3分:書僮/陪讀級
  • 4-7分:師傅/少傅級
  • 8-10分:大師/太師級

評分基於以下因素:

  • 理解能力
  • 分析能力
  • 推理能力
  • 生成能力
  • 專業知識
  • 實用性

模型系列評估

Gemini系列

Google開發的大型語言模型系列,包括Gemini 2.5 Flash、Gemini 2.5 Pro和Gemma 3 27B等版本。

8.5/10 綜合能力
8.0/10 中文能力
7.5/10 繁體中文能力
8.0/10 法律能力
7.5/10 中文法律能力
7.0/10 台灣繁體中文法律能力
大師級

Claude系列

Anthropic開發的大型語言模型系列,包括Claude 3.5 Sonnet和Claude 3.7 Sonnet等版本。

9.0/10 綜合能力
8.5/10 中文能力
8.0/10 繁體中文能力
8.5/10 法律能力
8.0/10 中文法律能力
7.5/10 台灣繁體中文法律能力
大師級

Grok系列

xAI開發的大型語言模型系列,包括Grok 2、Grok 3和SuperGrok等版本。

8.0/10 綜合能力
7.5/10 中文能力
7.0/10 繁體中文能力
7.5/10 法律能力
7.0/10 中文法律能力
6.5/10 台灣繁體中文法律能力
師傅級

DeepSeek系列

DeepSeek開發的大型語言模型系列,包括DeepSeek 3和DeepSeek R1等版本。

8.0/10 綜合能力
8.5/10 中文能力
8.0/10 繁體中文能力
7.5/10 法律能力
8.0/10 中文法律能力
7.5/10 台灣繁體中文法律能力
大師級

Llama系列

Meta開發的大型語言模型系列,包括Llama 3.1、Llama 3.2、Llama 3.3和Llama 4等版本。

8.5/10 綜合能力
7.5/10 中文能力
7.0/10 繁體中文能力
8.0/10 法律能力
7.0/10 中文法律能力
6.5/10 台灣繁體中文法律能力
大師級

數據可視化

綜合能力比較

法律能力比較

自定義圖表

選擇要比較的模型和能力面向,生成自定義圖表。

案例搜索

搜索大模型法律應用案例

搜索結果

案例標題 模型 法律領域 年份 能力等級 操作
Claude 3.7在台灣民法案例分析中的應用 Claude 3.7 Sonnet 民事 2025 大師級
Gemini 2.5 Pro處理智慧財產權糾紛的能力評估 Gemini 2.5 Pro 智慧財產 2025 大師級
DeepSeek R1在台灣行政法規解讀中的表現 DeepSeek R1 行政 2024 大師級
Llama 3.1與Grok 3在刑事案件分析中的比較 Llama 3.1, Grok 3 刑事 2024 師傅級
大型語言模型在商業合約審查中的應用研究 多模型比較 商業 2023 師傅級

討論區

最新討論

Claude 3.7 Sonnet在台灣法律案例分析中的表現如何?

法律科技愛好者 2025-04-18 Claude, 台灣法律

最近使用Claude 3.7 Sonnet處理了幾個台灣的法律案例,感覺它在理解繁體中文法律術語方面有很大進步。想聽聽大家的使用經驗,特別是與其他模型相比,它在台灣法律領域的表現如何?

156 次查看
12 則回覆
24 個讚

DeepSeek R1與Gemini 2.5 Pro的法律能力對比

AI研究員 2025-04-15 DeepSeek, Gemini, 模型比較

我最近對DeepSeek R1和Gemini 2.5 Pro進行了一系列法律任務測試,包括案例分析、法規解讀和合約審查。有些結果出乎意料,特別是在處理繁體中文法律文件時。分享我的測試方法和結果,歡迎討論。

203 次查看
18 則回覆
35 個讚

三等級評估方法的優缺點討論

法律科技研究者 2025-04-10 評測方法, 研究討論

本站採用的「三等級、六個面向」評估方法有其獨特之處,但也有一些局限性。我想討論這種評估方法的優缺點,以及如何進一步改進,使其更客觀、全面地評估大型語言模型在法律領域的能力。

178 次查看
15 則回覆
29 個讚

外部資源連結

裁判家

台灣最大的法律判決資料庫,提供全面的司法判決檢索與分析。

評律網

專業法律評論與案例分析平台,匯集法學專家見解。

司法院法學資料檢索系統

官方法學資料庫,提供法規、判例、解釋等完整法律資源。

全國法規資料庫

台灣法規資料庫,收錄現行有效法規及歷史法規。

台灣法律網

提供法律新聞、法規查詢和法律諮詢服務的綜合平台。

法律人工智能研究中心

專注於法律科技與人工智能在法律領域應用的研究機構。

免責聲明

本網站「三等級、六個面向」大模型評估報告旨在提供大型語言模型能力的評估資訊,僅供參考使用。儘管我們致力於確保內容的準確性和時效性,但不對內容的完整性、準確性、可靠性、適用性或可用性作出任何保證。

本報告中的評估結果基於特定時間點的測試和分析,大型語言模型的能力可能因版本更新、訓練資料變化等因素而有所不同。使用者應理解人工智能技術發展迅速,本報告內容可能無法反映最新狀況。

本網站內容歡迎轉分享,分享時請註明出處並提供本網站連結:https://itrvefvm.manus.space

©️PingLex, All rights reserved.