ニコラ・ムルクシッチ氏は、顧客サポート向けに構築された企業向け音声アシスタントの大手プロバイダーPolyAIのCEO兼共同創業者である。
自社のAIパイロットプロジェクトがなぜ頓挫したのか疑問に思ったことがあるなら、あなたは一人ではない。MITの最近の報告によると、生成AI導入プロジェクトの95%が本番環境に移行できていない。
ここには複数の原因がある。データやその他のリソース不足が原因の場合もあれば、ステークホルダーの懐疑心や無知が原因の場合もある。しかし私が最近ますます目にするのは、美しく包装された失敗品を売り込むベンダーの氾濫がもたらす結果だ。
その構図はこうだ:あるスタートアップが汎用LLMの上に光沢のあるUIを被せ、ブランディング会社の提案に従って名前を変え、「企業向け」として売り出す。買い手が実際に手に入れるのは、最も価値ある顧客チャネルにガムテープで貼り付けられた幻想生成エンジンにすぎない。
顧客はこれを嫌い、それは当然だ。ガス漏れを報告するために公共事業会社に電話したのに、対応しているLLMラッパーが返金を求めていると勘違いしているような状況を想像してみてほしい。実世界でこのような「ソリューション」を提供することは、コスト削減のための技術のための技術という失敗と正しく認識されている。
なぜLLMラッパーは実環境で失敗するのか
LLMは言葉を生成することに優れている。しかし判断力、信頼性、説明責任には優れていない—特にあらゆる人のあらゆるニーズに応えるように構築されている場合はなおさらだ。OpenAIのブレークスルーを生み出したイリヤ・サツケヴァー氏が指摘するように、この信頼性の問題は、応答時間が重要な用途(顧客との会話など)でラッパー企業が使用せざるを得ない、汎用の小規模LLMで最も顕著だ。今日の「企業向けAI」製品の多くは、そのような汎用LLMに光沢のあるラッパーを被せたものにすぎない。
会話が台本通りで、リスクの低いデモ環境では、それでうまくいく。しかし実際の人々は、ブランドとやり取りする際に台本に従わない。彼らは会話を中断し、愚痴をこぼし、話題から逸れ、スラングを使い、アクセントがあり、不完全な文で話す。背景ノイズや不安定な電波状況の中で電話をかけてくる。
ここでLLMラッパーは崩壊する。デモでは洗練されていたり美しく見えたりするかもしれないが、予測不可能で重要度の高いやり取りのために構築されていない。文脈を理解したり、必要に応じて適切にエスカレーションしたりするようには設計されていない。おそらく最悪なのは、汎用LLMの上に貼り付けられている場合、その最悪の特性—幻想、一貫性の欠如、答えを知らないときに推測する傾向—を継承してしまうことだ。
だからこそ多くのパイロットプロジェクトが失敗する:実世界に投入されると、取締役会を驚かせるスマートなデモと、正当で複雑で困難な顧客との会話との間のギャップを埋められないのだ。
LLMラッパーと真のAIパートナーを見分ける方法
多くの評論家がその恐ろしい95%という統計に注目する一方で、MITの調査は何が機能しているかについても示唆している。専門ベンダーと真のパートナーシップを持つ企業は、社内構築を試みる企業よりもはるかに高い確率で成功していることがわかる。フォーチュン誌による調査の解釈によれば:「専門ベンダーからAIツールを購入しパートナーシップを構築する場合の成功率は約67%であるのに対し、社内構築の成功率はその3分の1にすぎない」。
そこで問題は:正当なAIパートナーと単なるLLMラッパーの違いをどう見分けるかだ。以下に危険信号を特定する方法を示す:
導入実績について尋ねる。
ラッパーはデモについて話し、共有することを好む。真のベンダーは、人間の監視なしで何百万もの顧客とのやり取りを処理している実際のシステムを指し示す。
専門知識を探す。
ラッパーはツールキットを提供し、それを機能させる方法を自分で考えさせる。真のパートナーは、技術を人々が実際に信頼できる会話に変える方法を知っているCX専門家やデザイナーを連れてくる。
技術スタックを確認する。
ラッパーはLLMを顧客チャネルの前面に貼り付ける。真のベンダーは、ノイズ、アクセント、その他の会話の複雑さに対処するために設計された独自のインフラストラクチャを構築している。
失敗をテストする。
ラッパーは、AIが何かを間違えた場合に何が起こるかを見せたくない。真のベンダーは、適切なフォールバック、エスカレーション、透明性でこれに対応している。
要するに:「規模で顧客の電話に対応できますか?」と尋ねるだけでなく、「午前3時に、スペイン語で、混雑した部屋から電話をかけている人に対しても機能しますか?」と尋ねるべきだ。
顧客への価値提供
MITの報告書は、生成AIに関するハネムーン期が終わったことを示している。ウォール街からメインストリートまで、あらゆる人がAIを活用した体験のうち、どれが機能し、どれが機能しないかをより詳しく調査している。ハイプに対する立場がどうであれ、外部世界との最初の接触で生き残れない華やかなデモに自社の評判を賭けることはできないという点で、私たちは皆同意できるだろう。



