AIが生成したコード量の発表相次ぐ、実際の生産性向上は不確かなまま

AIベンダーと大手IT企業が膨大なコード生成量を誇示する一方で、実際の開発者生産性向上を示す証拠は混在したままだ。一部企業はAIによる生産性向上を理由に大規模なレイオフを実施している。

GoogleはAIが新規コードの75%を生成していると主張し、Anthropicは「Claude」によるマージ済み本番コードが~80%、四半期あたりエンジニアが出荷するコードが8倍になったと述べている。OpenAIも~80%、Cursorは1日100M+行のエンタープライズコードを生成していると主張している。これらはすべてコード量に基づいた指標である。一方、GitHubの当初の主張は開発者がCopilotを使用して「55%高速にタスクを完了できた」というものだった。

実態はより複雑だ。Cui et al.の研究は約5,000人の開発者を対象に実施し、「26%のタスク完了率向上」を検出した。しかしNBER調査では約6,000人の経営者のうち69%が積極的にAIを使用していると報告しながらも、約9割が「測定可能な生産性向上がない」と答えている。GitClearのデータは「Copilot採用が深化するにつれ、コード変更率が上昇し、リファクタリングが崩壊している」ことを示唆している。

研究結果と実測値の乖離

METRの研究では、経験豊富なオープンソース開発者が自身のコードベースではAI使用時に19%遅くなった一方、自分たちは「20%高速化した」と信じていたことが判明した。2026年2月のMETRの追跡調査では、別のスピードアップ推定値が示されている。

Carnegie MellonのSEIとAccentureが立ち上げたAI導入成熟度モデルでは、95%の組織が「リターンなし」と報告されている。横断的な研究コンセンサスは約10%の組織的利益に留まっている。AugmentがAI関連のスキルについてエンジニアリング・リーダー219人に調査したところ、「219種類の異なる回答が得られた」とされる。

Anthropicが発表したランダム化比較試験では、AI支援開発者が出荷したコードの理解度において17%低いスコアを記録し、統計的に有意な生産性向上は検出されなかった。

レイオフと生産性主張の並行

Jack Dorseyは「ブロック」の40%以上（4,000人以上）のスタッフをカットしており、AIが明示的な根拠とされている。Dorseyは「より小さなチーム、我々が構築しているツールを使用することで、より多くを、そしてより良くできる」と述べた。同社の事業は好調で粗利益が成長していた時点での発表だった。

Atlassianは約1,600人（従業員数の10%）を削減した。同社は「AI導入によって必要なスキルの組み合わせや必要な職務数が変わることは、本当のことではないふりをするのは不誠実だ」と述べている。

スパイダーマン・ポイント・ミーム

測定方法の転換

業界全体は「開発者速度向上」のような成果ベースの指標から「AIが書いたコード率」や「生成コード行数」といった量ベース指標への報告にシフトしている。この転換により、実際の生産性向上の証拠が混在したままでも、大規模な主張が提示可能になっているとみられる。

この記事は元記事の事実のみに基づいて自動生成されました。

筆者の見立て

生産性主張が確かでなくても、コード量指標はあくまで採用が続く限り常に上昇し続けるため、失敗を示すことができないという点に工夫があると解釈している
クラウド採用では数年の遅延を生き残ることができたが、AI採用では数か月しか余裕がない可能性があると予想している
企業が「AI導入で全員がより生産的になったから、人数を減らす」と主張する場合、その生産性主張は既に決まっていた決定に対するPR活動を行っていると解釈している
採用は開始地点であり、スコアボードではないと論じている

出典

David Curlewis「Lines of Code Got a Better Publicist」https://curlewis.co.nz/posts/lines-of-code-got-a-better-publicist/ (Cui et al.、GitClear、METR、Carnegie MellonのSEI、Accenture、Augment、NBER調査による報道)