2026.05.08 08:53

人材評価の最新動向：AIが変える採用とタレント発掘

Tomas Chamorro-Premuzic | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

AI（人工知能）と関連技術が、人材発掘と採用活動をどのように変革しているか

従業員、マネージャー、リーダーの発掘、評価、選考方法に関する1世紀にわたる科学的進歩にもかかわらず、私たちが知っていることと組織が実際に行っていることの間には根強いギャップが残っている。実際には、ほとんどの採用担当者や採用マネージャーは、パフォーマンスを確実に予測し、潜在能力の有意義な違いを説明するエビデンスに基づくツールではなく、直感に頼ったり、非構造化面接、疑わしい心理測定、主観的な紹介、政治的に色づけされた好みといった実証されていない手法を好んだりしている。

近年、この状況を変えることを約束する技術的進歩の波が押し寄せている。確立された科学的手法を拡張するものもあれば、より安価で、より迅速で、よりユーザーフレンドリーな代替手段を提供するものもある。重要なのは、これらのイノベーションが必ずしも予測精度や説明力を向上させるわけではないということだ。しかし、ベースラインが非常に低いという理由だけでも、現状と比較すれば進歩を表している可能性がある。例えば、アルゴリズムでスコアリングされたビデオ面接は、訓練を受けた評価者が実施する適切に設計された構造化面接を上回るパフォーマンスを示さないかもしれないが、訓練を受けていない面接官が実施する典型的な非構造化面接を上回ることが多い。同様に、デジタルフットプリントから性格やリーダーシップの特性を推測する生成AI（人工知能）ツールは、検証済みの心理測定評価には及ばないかもしれないが、評価を全く行わない場合や、MBTIのような人気はあるが科学的に弱い測定手法に依存する場合よりも必ずしも悪いわけではない。

とはいえ、ビジネスと倫理の両面から見て、欠陥のあるベースラインよりもわずかに優れているという理由だけで手法を採用するのでは不十分である。自動運転車が年間の交通事故死者数を120万人から110万人に減らしたとしても、それを許容できる結果と考える人はほとんどいないだろう。同様に、無能な採用者の割合を30%から25%に減らすことは改善かもしれないが、より厳密でエビデンスに基づくアプローチがその数字を10%に近づけることができるのであれば、それでは十分とは言えない。真の機会は、不十分な実践に対する漸進的な改善ではなく、科学的に根拠があり、実用的に拡張可能な手法への決定的な転換にある。

重要なのは、AI（人工知能）を含む新興技術がどのように進化しようとも、科学はその価値を評価するための最も堅牢な基準を提供し続けるということだ。信頼性と妥当性といった概念は、どんなに斬新で印象的に見えようとも、あらゆるツールの品質を評価するための北極星に最も近いものであり続けている。最終的に重要なのは、手法がどれほど洗練されているように見えるかではなく、職務遂行能力、リーダーシップの有効性、生産性といった意味のある結果をどれだけ一貫して正確に予測するかである。その核心において、評価は確率論的な作業であり続け、一部の測定手法は他のものよりも明らかに優れた予測因子である。重要なのは、予測だけでは十分ではないということだ。最良の評価は説明も提供し、特定の特性、スコア、行動がその後の結果とどのように関連しているかについて、理論的に根拠のある説明を提供する。

これと一致して、AI（人工知能）の傘下にグループ化される多くのバリエーションを含む、新興評価技術に関する学術研究は、産業・組織心理学内で急速に拡大する領域となっている。ツール、プラットフォーム、スタートアップの急増により、研究があらゆる新製品に追いつくことは困難だが、ほとんどのイノベーションは、より広範な評価カテゴリーにグループ化できる（私たちが10年前に初めて行ったように）。これにより、新規性だけでなく、確立されたエビデンスに基づいて、それらの妥当性と有用性を評価することができる。

では、評価に関する顕著なイノベーションのいくつかを見て、実際の科学的エビデンスに基づいて、その正確性や潜在能力について何が結論できるかを見てみよう…

1）ビデオ面接（AI（人工知能）スコアリングまたは非同期）
構造化面接に関する研究は明確である。標準化され、体系的にスコアリングされた場合、それらは職務遂行能力の最良の予測因子の1つである。AI（人工知能）対応のビデオ面接は、多くの場合、言語的および非言語的な手がかりをコード化することで、このロジックを拡張することを目指している。しかし、ここでのエビデンスはまちまちである。研究によると、構造化された非同期面接は許容可能な信頼性と中程度の妥当性を達成できるが、顔の表情や「マイクロエモーション」分析がパフォーマンスを予測するという主張は、堅牢なエビデンスによって支持されていない。最近のレビューは、これらのシグナルを過度に解釈することに対して警告している。要するに、利益は構造と標準化から来るのであって、AI（人工知能）そのものからではない。

（2）デジタルフットプリントスクレイピング（ソーシャルメディア、オンライン行動、パッシブデータ）
デジタルトレースから性格と能力を推測できるという考えは、Facebookの「いいね」が中程度の精度で性格を予測できることを示したKosinskiと同僚の研究に続いて注目を集めた。しかし、これらの知見を選考の文脈に翻訳することははるかに問題が多い。メタ分析的エビデンスはまだ乏しく、構成概念妥当性、安定性、不利な影響に関する懸念は依然として大きい。レビューによると、シグナルは存在するものの、ノイズが多く、文脈依存的であり、直接的な心理測定よりも劣ることが多い。現時点では、このアプローチは代替的というよりも補完的なものと見なすのが適切である。

（3）AI（人工知能）シミュレーション、没入型、ゲーミフィケーション評価
高忠実度シミュレーションとワークサンプルは、長い間、パフォーマンスの最も妥当な予測因子の1つであった（メタ分析では0.50を超えることが多い）。現在のAI（人工知能）駆動型シミュレーションの波は、仮想アセスメントセンターや没入型環境を含め、これらの手法を拡張しようとしている。エビデンスは慎重に肯定的である。シミュレーションベースの評価に関する研究は、タスクが職務要求を密接に反映している場合、強力な基準関連妥当性を示唆している。しかし、AI（人工知能）の追加（例：自動スコアリング、適応型シナリオ）は、適切に設計されたシミュレーションを超える増分妥当性をまだ一貫して示していない。約束は、予測の改善ではなく、拡張性と標準化にある。

（4）自然言語処理（NLP）
NLPは、より有望な分野の1つとして浮上している。書面または口頭の回答における言語パターンが、性格、認知能力、さらには職務遂行能力の代理指標を予測できることを示す研究が増えている。例えば、自由回答とエッセイベースの評価を使用した研究は、従来の測定手法との中程度の相関を報告している。同様に、認知能力の言語ベースの指標は、一部の文脈で増分妥当性を示している。とはいえ、結果はモデル、トレーニングデータ、タスクによって大きく異なる。重要なのは、NLPは純粋にデータ駆動型の作業としてではなく、理論的に意味のある構成概念に基づいている場合に最も効果的に機能する傾向があるということだ。

（5）ゲームベースおよびAI（人工知能）対応評価
ゲームベースの評価は、ゲームプレイ中に取得された行動データから、認知能力、リスク許容度、粘り強さなどの特性を推測することを目指している。初期の研究によると、このようなツールは、特に認知能力のような明確に定義された構成概念を測定するように設計されている場合、許容可能な信頼性と控えめな妥当性を達成できる。しかし、エビデンスは不均一である。レビューによると、多くの商用製品は透明性と検証が欠けている。適切に設計されている場合、これらのツールは従来の測定手法に近似できるが、そうでない場合、魅力的だが情報価値のない代理指標になるリスクがある。

（6）その他のアプローチ
2つの追加カテゴリーが言及に値する。第一に、機械学習を使用して複数のデータソース（例：履歴書データ、評価、面接）を統合するアルゴリズム複合モデルは、有望性を示している。人材選考研究からのエビデンスは、予測因子を組み合わせることで妥当性が向上し、多くの場合大幅に向上することを一貫して示している。第二に、職場データによって可能になる継続的または縦断的評価（例：パフォーマンス指標、コラボレーションパターン）は、一回限りの選考から継続的な評価への移行を表している。まだ新興段階だが、このアプローチは、パフォーマンスが動的で文脈依存的であるというエビデンスと一致している。

結論

これらすべてのイノベーションにわたって、一貫したパターンが浮かび上がる。技術は規模、効率性、候補者体験を向上させることができるが、健全な測定原則の代替となることはめったにない。最高のパフォーマンスを発揮するツールは、最も革新的に見えるものではなく、確立された科学的基準に最も密接に従うものである。明確な構成概念、信頼性の高い測定、実世界の結果との実証可能な関連性である。

その意味で、評価の未来は表面的には根本的に異なって見えるかもしれない。しかし、その下では、基本原則は驚くほど変わっていない。

（forbes.com 原文）