ニュース記事の「盗用」
パープレキシティはまた、信頼できる情報源の取り扱いにも問題を抱えている。このスタートアップは最近、フォーブスやCNBC、ブルームバーグなどの複数のニュースサイトの記事からの盗用疑惑で注目を集めている。フォーブスは今月初め、エリック・シュミットの極秘のAIドローンプロジェクトに関する独占スクープ記事の重要な部分が、パープレキシティによって適切な帰属なしに再利用されたことを発見した。フォーブスは、同社の著作権侵害を非難する停止通告書を送付した。これに対し、パープレキシティCEOのスリニヴァスは、「事実は盗用され得ない」と主張し、同社がフォーブスのコンテンツの再配布や再出版などの不適切な行為をしていないと述べている。
また、ニュースサイトWiredの記事によると、パープレキシティは秘密のIPアドレスを通じてWiredやメディア企業コンデナストが所有する他のサイトにアクセスし、スクレイピングを行っていた。これらのサイトは、パープレキシティのウェブクローラーがコンテンツを盗むのを防ごうとしていたが、それを突破されたという。
スリニヴァスは、Wiredの記事の件について直接反応していないが、「彼らの疑問は、当社のサービスとインターネットの仕組みに関する基本的な誤解を反映している」と述べている。
シェヴェレンコは、パブリッシャーが健全な情報エコシステムを作り出すために果たす重要な役割を認識しており、同社の製品がそれに依存していると語った。パープレキシティは、初の収益共有プログラムを立ち上げて、パブリッシャーに限定的な形で報酬を提供する予定という。同社は、広告レイヤーを追加して、AIが生成した回答に対して同社が収益を得た場合、その回答で引用された情報源のパブリッシャーが収益の一部を受け取れるようにするという。パープレキシティは、The Atlanticなどのパブリッシャーとパートナーシップの可能性について話し合っているとシェヴェレンコは語った。
低品質な情報源への依存
パープレキシティは、RAG (Retrieval-Augmented Generation)と呼ばれるプロセスを通じて、AIシステムが外部のデータソースからのリアルタイム情報を取得し、チャットボットの回答を改善する。しかし、これらのソースの品質が低下すると、AIの回答の質も低下する可能性があると専門家は指摘している。ケンブリッジ大学で機械学習について研究するザック・シュマイロフは、情報源自体がバイアスや不正確さを含んでいる場合、そのデータを基に構築されたアプリケーションは最終的に「モデル崩壊」という現象を起こす可能性があると説明した。AIが生成したデータで訓練されたAIモデルは「ナンセンスを吐き出し始める」と彼は述べている。
また、低品質なウェブ情報源への依存は、他の多くのAI企業にとっても広範な課題となっている。グーグル検索のAIを用いた要約機能は5月に、ピザにチーズを貼り付けるために接着剤を追加することを提案したり、「石を食べることが健康に良い」と主張したりしたが、これは、掲示板Reddit(レディット)のフォーラムやThe Onion(ジ・オニオン)のような風刺サイトの情報源を引用したためだと見られている。
グーグル検索の責任者であるリズ・リードは、特定のトピックに関する質の高い情報が不足しているために、一部の誤った結果が表示されたとブログで認めていた。
「パープレキシティの問題はその一例に過ぎない。それは病気の症状であり、全体の問題ではない」とGPTZeroのティアンは述べている。
(forbes.com 原文)