
最先端LLM5モデル、事実確認の判定で67%が不一致
Lenz の研究では、1,000件の実世界のユーザー提出クレームを5つの最先端 LLM に提示して検証したところ、67% のケースで少なくとも1モデルが多数派の判定から乖離し、モデル間の判定一貫性が限定的であることが明らかになった。
Kosta Jordanov 氏らによる研究では、2月15日以降に Lenz ファクト・チェッキング・プラットフォームに提出された 1,000 件の実世界クレームが、5つの最先端 LLM パネルに提示された。判定には True / Mostly True / Misleading / False の4段階ルーブリックが用いられた。
判定の不一致範囲
672 件のクレーム(67%、95% CI: 64–70%)では、少なくとも1モデルが多数派の判定から乖離するか、厳密な多数派が形成されなかった。さらに深刻な乖離は 343 件(34%、95% CI: 31–37%)で観測され、これらは最も意見の分かれたペアで2段階以上のバケット・ギャップを示した。
一方、全5モデルが一致した判定は 328 件(33%)に留まった。興味深いことに、この一致したクレームのうち、Misleading の一致は4件のみで、Mostly True の一致は0件であった。
モデル間の合意水準
Krippendorff's α(順序尺度)は 0.639 と計算され、5つの評価者による 1,000 項目の信頼性を示した。ピア合意率では、Gemini 3 Pro と Gemini 3 Pro + Search の組み合わせが最高の 75% を達成した。一方、Claude Opus 4.7 × Gemini 3 Pro、Claude Opus 4.7 × Gemini 3 Pro + Search、Gemini 3 Pro × Sonar Pro の3ペアは、いずれも最低の 53% に留まった。
評価対象となった5つのモデルは GPT-5.4(OpenAI)、Claude Opus 4.7(Anthropic)、Gemini 3 Pro(Google)、Gemini 3 Pro + Search(Google)、および Sonar Pro(Perplexity)である。
| モデル | 多数派との一致率 |
|---|---|
| GPT-5.4 | 81%(78–84%) |
| Claude Opus 4.7 | 70%(67–74%) |
| Gemini 3 Pro | 77%(74–80%) |
| Gemini 3 Pro + Search | 76%(73–79%) |
| Sonar Pro | 69%(66–73%) |
研究の方法論
クレームは Lenz のフレーミング・ステップを通じて原子的クレームに正規化された後、モデルに提示された。プライベート標示、スタッフアカウント、編集保留中、非表示、近似複製(OpenAI text-embedding-3-small で余弦距離 > 0.2)のクレームは除外された。また、どのモデルも解析不能な判定を返した場合も対象外とした。モデルには Abstain(棄権)オプションが与えられず、全て4段階中1つを選択するよう強制された。
検索機能を持つ Gemini 3 Pro + Search と Sonar Pro は、推論時に検索機能へアクセスできた。
判定不一致の解釈
原文では、「パネルの中央部分(True/Mostly True)が極端な判定(True/False)ではなく、ここでルーブリックが割れる」と指摘されている。また、「多数派判定が必ずしも正確であるとは限らず、異議を唱える単一モデルが時に正しい可能性がある」と述べ、多数派を正確さの代替として見なすべきではないと強調している。
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Lenz, "Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks," 2026年5月21日 https://lenz.io/research/llm-disagreement