HackerRankのオープンソースATS、実行するたびに異なるスコアを付与

HackerRankが公開したオープンソース採用選考ツール(ATS)を検証したところ、同じ履歴書に対して実行するたびに大きく異なるスコアが算出される問題が明らかになった。100回の実行で66から99の幅広い範囲でスコアが変動し、採用基準が85点の企業では65%の不合格率につながるという。

Dan Unparsedの記事によると、筆者がHackerRankの採用選考ツール(https://github.com/interviewstreet/hiring-agent)を検証した際、同じ履歴書を複数回実行しても一貫性のないスコアが出力された。初回実行では90/100を獲得したが、デバッグプリント機能を削除して100回連続実行すると、スコアは66から99の範囲で変動。採用基準が85点に設定されている場合、確率的に65%の不合格率となるという。

スコアリングシステムと変動要因

スコアリングシステムは100点満点に最大20点のボーナスポイント加算可能で、オープンソース貢献35点、個人プロジェクト30点、職務経歴25点、技術スキル10点で構成されている。テストの結果、技術スキルは98回中98回で8/10の一定スコアを獲得したのに対し、個人プロジェクト項目では大きなばらつきが見られた。

HackerRankスコアの分布

スコアリング項目の変動

ツールは大規模言語モデル(LLM)を6回呼び出して基本情報、職歴、学歴、スキル、プロジェクト、受賞歴を抽出する。デフォルトはgemma3:4bをtemperature 0.1で実行。テンプレートに定義されている職務経歴の評価基準は2行のみで、採点ルーブリックや例示がないにもかかわらず、全100回実行で25/25のスコアを毎回獲得した。

LLMの非決定性に由来する根本的課題

2025年10月のGitHubイシューでは、6回連続実行でtemperature 0.2時に27、34、32、34、34、30という異なるスコアが記録されており、非決定性問題は既知だという。筆者の分析では、決定的な項目(技術スキル)は安定しているが、主観的判定が必要な項目(プロジェクト)は高い変動性を示している。さらにGeminiモデルでテストした際は、スコアが48から64の範囲に集中し、60点カットオフで28%の不合格率となった。

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Dan Unparsed 「HackerRank's Open-Source ATS Gave My Resume a Different Score Every Time.」 https://danunparsed.com/p/hackerrank-open-source-ats

---

筆者の見立て

非決定性は根本的な設計欠陥であり、パラメータ調整では解決不可能との見解を示している。
スコアの判定ばらつきは、LLMが主観的判定を一貫性のある形で実行できない能力的限界に起因すると指摘している。
オープンソース貢献とプロジェクト65%のウェイト付けが、GitHubに公開されていない優れた業績を評価できない問題的な優先順位付けとなっていると解釈している。
採点精度で候補者を区別できないツールは品質フィルタリングではなく無作為フィルタリングであると論じている。
20年以上の経験を持つS3構築エンジニアより2つのインターンシップを持つ候補者のほうが高スコアを得る可能性を問題視している。
不確定な採点に基づき応募者の半数を落選させることになると述べている。
LLMには本質的にできないことが存在する可能性を示唆している。

HackerRankのオープンソースATS、実行するたびに異なるスコアを付与

スコアリングシステムと変動要因

LLMの非決定性に由来する根本的課題

出典

筆者の見立て

この記事をシェア