三等級、六個面向大模型評估報告

評估框架介紹

三等級、六個面向評估模型

本評估框架基於個人使用經驗，歸納出一套判斷大語言模型能力的分類方法，從三個等級和六個面向進行全面評估。

三個等級

書僮/陪讀級：基礎能力，可理解簡單指令並提供基本回應
師傅/少傅級：進階能力，具備較強的分析和推理能力
大師/太師級：專家級能力，可處理複雜問題並提供深度見解

六個面向

綜合能力：模型的整體表現和通用任務處理能力
中文能力：處理簡體中文內容的能力
繁體中文能力：處理繁體中文內容的能力
法律能力：處理通用法律問題的能力
中文法律能力：處理中文法律問題的能力
台灣繁體中文法律能力：處理台灣法律問題的能力

評分標準

本評估採用1-10分制，根據模型在各個面向的表現進行評分：

1-3分：書僮/陪讀級
4-7分：師傅/少傅級
8-10分：大師/太師級

評分基於以下因素：

理解能力
分析能力
推理能力
生成能力
專業知識
實用性

模型系列評估

Gemini系列

Google開發的大型語言模型系列，包括Gemini 2.5 Flash、Gemini 2.5 Pro和Gemma 3 27B等版本。

8.5/10 綜合能力

8.0/10 中文能力

7.5/10 繁體中文能力

8.0/10 法律能力

7.5/10 中文法律能力

7.0/10 台灣繁體中文法律能力

大師級

查看詳細分析

Claude系列

Anthropic開發的大型語言模型系列，包括Claude 3.5 Sonnet和Claude 3.7 Sonnet等版本。

9.0/10 綜合能力

8.5/10 中文能力

8.0/10 繁體中文能力

8.5/10 法律能力

8.0/10 中文法律能力

7.5/10 台灣繁體中文法律能力

大師級

查看詳細分析

Grok系列

xAI開發的大型語言模型系列，包括Grok 2、Grok 3和SuperGrok等版本。

8.0/10 綜合能力

7.5/10 中文能力

7.0/10 繁體中文能力

7.5/10 法律能力

7.0/10 中文法律能力

6.5/10 台灣繁體中文法律能力

師傅級

查看詳細分析

DeepSeek系列

DeepSeek開發的大型語言模型系列，包括DeepSeek 3和DeepSeek R1等版本。

8.0/10 綜合能力

8.5/10 中文能力

8.0/10 繁體中文能力

7.5/10 法律能力

8.0/10 中文法律能力

7.5/10 台灣繁體中文法律能力

大師級

查看詳細分析

Llama系列

Meta開發的大型語言模型系列，包括Llama 3.1、Llama 3.2、Llama 3.3和Llama 4等版本。

8.5/10 綜合能力

7.5/10 中文能力

7.0/10 繁體中文能力

8.0/10 法律能力

7.0/10 中文法律能力

6.5/10 台灣繁體中文法律能力

大師級

查看詳細分析

案例搜索

搜索大模型法律應用案例

關鍵詞

模型類型

法律領域

年份範圍

至

能力等級

排序方式

搜索結果

案例標題	模型	法律領域	年份	能力等級
Claude 3.7在台灣民法案例分析中的應用	Claude 3.7 Sonnet	民事	2025	大師級
Gemini 2.5 Pro處理智慧財產權糾紛的能力評估	Gemini 2.5 Pro	智慧財產	2025	大師級
DeepSeek R1在台灣行政法規解讀中的表現	DeepSeek R1	行政	2024	大師級
Llama 3.1與Grok 3在刑事案件分析中的比較	Llama 3.1, Grok 3	刑事	2024	師傅級
大型語言模型在商業合約審查中的應用研究	多模型比較	商業	2023	師傅級

討論區

討論分類

全部主題模型評測法律應用技術討論使用經驗資源分享

外部資源連結

裁判家

台灣最大的法律判決資料庫，提供全面的司法判決檢索與分析。

訪問網站

評律網

專業法律評論與案例分析平台，匯集法學專家見解。

訪問網站

司法院法學資料檢索系統

官方法學資料庫，提供法規、判例、解釋等完整法律資源。

訪問網站

全國法規資料庫

台灣法規資料庫，收錄現行有效法規及歷史法規。

訪問網站

台灣法律網

提供法律新聞、法規查詢和法律諮詢服務的綜合平台。

訪問網站

法律人工智能研究中心

專注於法律科技與人工智能在法律領域應用的研究機構。

訪問網站

免責聲明

本網站「三等級、六個面向」大模型評估報告旨在提供大型語言模型能力的評估資訊，僅供參考使用。儘管我們致力於確保內容的準確性和時效性，但不對內容的完整性、準確性、可靠性、適用性或可用性作出任何保證。

本報告中的評估結果基於特定時間點的測試和分析，大型語言模型的能力可能因版本更新、訓練資料變化等因素而有所不同。使用者應理解人工智能技術發展迅速，本報告內容可能無法反映最新狀況。

本網站內容歡迎轉分享，分享時請註明出處並提供本網站連結：https://itrvefvm.manus.space

三等級、六個面向大模型評估報告

評估框架介紹

三等級、六個面向評估模型

三個等級

六個面向

評分標準

模型系列評估

Gemini系列

Claude系列

Grok系列

DeepSeek系列

Llama系列

數據可視化

綜合能力比較

法律能力比較

自定義圖表

案例搜索

搜索大模型法律應用案例

搜索結果

討論區

討論分類

熱門標籤

最新討論

Claude 3.7 Sonnet在台灣法律案例分析中的表現如何？

DeepSeek R1與Gemini 2.5 Pro的法律能力對比

三等級評估方法的優缺點討論

外部資源連結

裁判家

評律網

司法院法學資料檢索系統

全國法規資料庫

台灣法律網

法律人工智能研究中心

免責聲明

三等級、六個面向大模型評估報告

評估框架介紹

三等級、六個面向評估模型

三個等級

六個面向

評分標準

模型系列評估

Gemini系列

Claude系列

Grok系列

DeepSeek系列

Llama系列

數據可視化

綜合能力比較

法律能力比較

自定義圖表

案例搜索

搜索大模型法律應用案例

搜索結果

討論區

討論分類

熱門標籤

最新討論

Claude 3.7 Sonnet在台灣法律案例分析中的表現如何？

DeepSeek R1與Gemini 2.5 Pro的法律能力對比

三等級評估方法的優缺點討論

外部資源連結

裁判家

評律網

司法院法學資料檢索系統

全國法規資料庫

台灣法律網

法律人工智能研究中心

免責聲明

會員登入

會員註冊

發表新主題