it.xnews.jp
出典: Lenz 原文公開: 2026-05-21 生成: 2026-05-28 読了 約 3 分 model: claude-haiku-4-5 原文: https://lenz.io/research/llm-disagreement raw.md

最先端LLM5モデル、事実確認の判定で67%が不一致

Lenz の研究では、1,000件の実世界のユーザー提出クレームを5つの最先端 LLM に提示して検証したところ、67% のケースで少なくとも1モデルが多数派の判定から乖離し、モデル間の判定一貫性が限定的であることが明らかになった。

Kosta Jordanov 氏らによる研究では、2月15日以降に Lenz ファクト・チェッキング・プラットフォームに提出された 1,000 件の実世界クレームが、5つの最先端 LLM パネルに提示された。判定には True / Mostly True / Misleading / False の4段階ルーブリックが用いられた。

判定の不一致範囲

672 件のクレーム(67%、95% CI: 64–70%)では、少なくとも1モデルが多数派の判定から乖離するか、厳密な多数派が形成されなかった。さらに深刻な乖離は 343 件(34%、95% CI: 31–37%)で観測され、これらは最も意見の分かれたペアで2段階以上のバケット・ギャップを示した。

一方、全5モデルが一致した判定は 328 件(33%)に留まった。興味深いことに、この一致したクレームのうち、Misleading の一致は4件のみで、Mostly True の一致は0件であった。

モデル間の合意水準

Krippendorff's α(順序尺度)は 0.639 と計算され、5つの評価者による 1,000 項目の信頼性を示した。ピア合意率では、Gemini 3 Pro と Gemini 3 Pro + Search の組み合わせが最高の 75% を達成した。一方、Claude Opus 4.7 × Gemini 3 Pro、Claude Opus 4.7 × Gemini 3 Pro + Search、Gemini 3 Pro × Sonar Pro の3ペアは、いずれも最低の 53% に留まった。

評価対象となった5つのモデルは GPT-5.4(OpenAI)、Claude Opus 4.7(Anthropic)、Gemini 3 Pro(Google)、Gemini 3 Pro + Search(Google)、および Sonar Pro(Perplexity)である。

モデル多数派との一致率
GPT-5.481%(78–84%)
Claude Opus 4.770%(67–74%)
Gemini 3 Pro77%(74–80%)
Gemini 3 Pro + Search76%(73–79%)
Sonar Pro69%(66–73%)

研究の方法論

クレームは Lenz のフレーミング・ステップを通じて原子的クレームに正規化された後、モデルに提示された。プライベート標示、スタッフアカウント、編集保留中、非表示、近似複製(OpenAI text-embedding-3-small で余弦距離 > 0.2)のクレームは除外された。また、どのモデルも解析不能な判定を返した場合も対象外とした。モデルには Abstain(棄権)オプションが与えられず、全て4段階中1つを選択するよう強制された。

検索機能を持つ Gemini 3 Pro + Search と Sonar Pro は、推論時に検索機能へアクセスできた。

判定不一致の解釈

原文では、「パネルの中央部分(True/Mostly True)が極端な判定(True/False)ではなく、ここでルーブリックが割れる」と指摘されている。また、「多数派判定が必ずしも正確であるとは限らず、異議を唱える単一モデルが時に正しい可能性がある」と述べ、多数派を正確さの代替として見なすべきではないと強調している。

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Lenz, "Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks," 2026年5月21日 https://lenz.io/research/llm-disagreement

この記事をシェア