最先端LLM5モデル、事実確認の判定で67%が不一致

Lenz の研究では、1,000件の実世界のユーザー提出クレームを5つの最先端 LLM に提示して検証したところ、67% のケースで少なくとも1モデルが多数派の判定から乖離し、モデル間の判定一貫性が限定的であることが明らかになった。

Kosta Jordanov 氏らによる研究では、2月15日以降に Lenz ファクト・チェッキング・プラットフォームに提出された 1,000 件の実世界クレームが、5つの最先端 LLM パネルに提示された。判定には True / Mostly True / Misleading / False の4段階ルーブリックが用いられた。

判定の不一致範囲

672 件のクレーム（67%、95% CI: 64–70%）では、少なくとも1モデルが多数派の判定から乖離するか、厳密な多数派が形成されなかった。さらに深刻な乖離は 343 件（34%、95% CI: 31–37%）で観測され、これらは最も意見の分かれたペアで2段階以上のバケット・ギャップを示した。

一方、全5モデルが一致した判定は 328 件（33%）に留まった。興味深いことに、この一致したクレームのうち、Misleading の一致は4件のみで、Mostly True の一致は0件であった。

モデル間の合意水準

Krippendorff's α（順序尺度）は 0.639 と計算され、5つの評価者による 1,000 項目の信頼性を示した。ピア合意率では、Gemini 3 Pro と Gemini 3 Pro + Search の組み合わせが最高の 75% を達成した。一方、Claude Opus 4.7 × Gemini 3 Pro、Claude Opus 4.7 × Gemini 3 Pro + Search、Gemini 3 Pro × Sonar Pro の3ペアは、いずれも最低の 53% に留まった。

評価対象となった5つのモデルは GPT-5.4（OpenAI）、Claude Opus 4.7（Anthropic）、Gemini 3 Pro（Google）、Gemini 3 Pro + Search（Google）、および Sonar Pro（Perplexity）である。

モデル	多数派との一致率
GPT-5.4	81%（78–84%）
Claude Opus 4.7	70%（67–74%）
Gemini 3 Pro	77%（74–80%）
Gemini 3 Pro + Search	76%（73–79%）
Sonar Pro	69%（66–73%）

研究の方法論

クレームは Lenz のフレーミング・ステップを通じて原子的クレームに正規化された後、モデルに提示された。プライベート標示、スタッフアカウント、編集保留中、非表示、近似複製（OpenAI text-embedding-3-small で余弦距離 > 0.2）のクレームは除外された。また、どのモデルも解析不能な判定を返した場合も対象外とした。モデルには Abstain（棄権）オプションが与えられず、全て4段階中1つを選択するよう強制された。

検索機能を持つ Gemini 3 Pro + Search と Sonar Pro は、推論時に検索機能へアクセスできた。

判定不一致の解釈

原文では、「パネルの中央部分（True/Mostly True）が極端な判定（True/False）ではなく、ここでルーブリックが割れる」と指摘されている。また、「多数派判定が必ずしも正確であるとは限らず、異議を唱える単一モデルが時に正しい可能性がある」と述べ、多数派を正確さの代替として見なすべきではないと強調している。

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Lenz, "Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks," 2026年5月21日 https://lenz.io/research/llm-disagreement