---
source_url: https://lenz.io/research/llm-disagreement
source_title: "Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks"
source_site: "Lenz"
source_published_at: 2026-05-21
hero_image: https://lenz.io/research/llm-disagreement/og.png
tags: llm-evaluation,fact-checking,ai-disagreement
generated_at: 2026-05-28T16:00:46.519Z
model: claude-haiku-4-5
---
# 最先端LLM5モデル、事実確認の判定で67%が不一致

Lenz の研究では、1,000件の実世界のユーザー提出クレームを5つの最先端 LLM に提示して検証したところ、67% のケースで少なくとも1モデルが多数派の判定から乖離し、モデル間の判定一貫性が限定的であることが明らかになった。

Kosta Jordanov 氏らによる研究では、2月15日以降に Lenz ファクト・チェッキング・プラットフォームに提出された 1,000 件の実世界クレームが、5つの最先端 LLM パネルに提示された。判定には True / Mostly True / Misleading / False の4段階ルーブリックが用いられた。

## 判定の不一致範囲

672 件のクレーム（67%、95% CI: 64–70%）では、少なくとも1モデルが多数派の判定から乖離するか、厳密な多数派が形成されなかった。さらに深刻な乖離は 343 件（34%、95% CI: 31–37%）で観測され、これらは最も意見の分かれたペアで2段階以上のバケット・ギャップを示した。

一方、全5モデルが一致した判定は 328 件（33%）に留まった。興味深いことに、この一致したクレームのうち、Misleading の一致は4件のみで、Mostly True の一致は0件であった。

## モデル間の合意水準

Krippendorff's α（順序尺度）は 0.639 と計算され、5つの評価者による 1,000 項目の信頼性を示した。ピア合意率では、Gemini 3 Pro と Gemini 3 Pro + Search の組み合わせが最高の 75% を達成した。一方、Claude Opus 4.7 × Gemini 3 Pro、Claude Opus 4.7 × Gemini 3 Pro + Search、Gemini 3 Pro × Sonar Pro の3ペアは、いずれも最低の 53% に留まった。

評価対象となった5つのモデルは GPT-5.4（OpenAI）、Claude Opus 4.7（Anthropic）、Gemini 3 Pro（Google）、Gemini 3 Pro + Search（Google）、および Sonar Pro（Perplexity）である。

| モデル | 多数派との一致率 |
|---|---|
| GPT-5.4 | 81%（78–84%） |
| Claude Opus 4.7 | 70%（67–74%） |
| Gemini 3 Pro | 77%（74–80%） |
| Gemini 3 Pro + Search | 76%（73–79%） |
| Sonar Pro | 69%（66–73%） |

## 研究の方法論

クレームは Lenz のフレーミング・ステップを通じて原子的クレームに正規化された後、モデルに提示された。プライベート標示、スタッフアカウント、編集保留中、非表示、近似複製（OpenAI text-embedding-3-small で余弦距離 > 0.2）のクレームは除外された。また、どのモデルも解析不能な判定を返した場合も対象外とした。モデルには Abstain（棄権）オプションが与えられず、全て4段階中1つを選択するよう強制された。

検索機能を持つ Gemini 3 Pro + Search と Sonar Pro は、推論時に検索機能へアクセスできた。

## 判定不一致の解釈

原文では、「パネルの中央部分（True/Mostly True）が極端な判定（True/False）ではなく、ここでルーブリックが割れる」と指摘されている。また、「多数派判定が必ずしも正確であるとは限らず、異議を唱える単一モデルが時に正しい可能性がある」と述べ、多数派を正確さの代替として見なすべきではないと強調している。

*この記事は元記事の事実のみに基づいて自動生成されました。*

## 出典

Lenz, "Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks," 2026年5月21日
https://lenz.io/research/llm-disagreement