ファン・メイユによれば、リー・カイフーが統計の原理を使って開発したシステムは、3つの点で技術の進歩に大きく貢献しているという。
1つ目は「大語彙認識」を可能にしたことだ。
それまでのシステムでは10個の数字か26個の英文字しか認識できなかったが、リー・カイフーのシステムでは1000語を認識することができるようになった。1000語という規模は、ビッグデータ時代となった現在では必ずしも大語彙とはいえないが、それまで10語であったことを考えれば、飛躍的な進歩といえるだろう。
2つ目は「不特定話者音声認識」を可能にしたことだ。
従来技術の音声認識は話者依存型であり、話者が変わると認識精度が大きく落ちる可能性があるため、それぞれの話者認識のために音声から特徴を抽出、モデル化する必要があった。つまり音声認識の精度を保つためには、話者モデルのトレーニングが必要だったのである。
アメリカ国防高等研究計画局(DARPA)の音声訓練資料室には多様な音声コンテンツが収蔵されている。ファン・メイユはこのコンテンツと統計モデルを使って、異なる話者が同音を発したときの正規化を行った。この話者正規化によって、異なる話者による発話をモデル話者音声に近づけ、同じ言葉と認識させることを可能にしたのだ。
3つ目は「連続音声認識」の実現だ。それまで1語ずつ区切って機械に入力しなければならなかったが、このことによって続けて入力できるようになった。
以上3つはいずれも、統計と数学の原理を利用することによって実現した進歩だ。
1993年11月、ファン・メイユはカーネギー・メロン大学からコンピュータサイエンスの博士号を授与された。指導教官はラジ・レディ(1994年のチューリング賞受賞者)、リー・カイフー、そしてファン・シュエドン博士だった。この3人の指導教官と兄シャオ・ホンウェン(マイクロソフトリサーチ・アジアの学部長)は、ファン・メイユの研究に決定的な影響を与えた。卒業して20年以上たっても、音声認識が彼女にとってもっとも情熱を注ぐことのできる研究分野であることは変わらない。
プロダクト思考が支える研究でユニコーン企業に
「わたしたちMobvoiはグーグルによく似ています。研究を進めると同時に、製品を作りたいのです」。研究活動についての質問になったとき、ファン・メイユは研究の産業化について話し始めた。
マイクロソフトで長く理論的研究に携わったのち、ファン・メイユは技術と製品を密接に結びつける研究の重要性に気づくようになった。「まさに出産のようなものです。子どもを身ごもり、妊娠期間を経て、無事に出産できるかできないか。出産できれば成功です」。