AIの美しさ、すばらしさがここにある
──DeepLにとって日本語はとくに難しい言語ではないのですね。それでも、他の言語と比べるとどうしても問題がある、といったことはありませんか?
「言語差」についてはさほど重要ではないと考えています。前述したように、問題は「すでに翻訳されたテキストのデータ量が異なる言語間で翻訳をする(たとえば、データ量が多い英語から、少ないアラビア語に翻訳する、など)」場合です。
たしかに、複雑な言語ペアは存在します。たとえば2020年に日本語をローンチした当時は、いくつかの技術的な問題を検討する必要がありました。例えば、他の言語では単語と単語の間に「スペース」がありますが、日本語にはそれがない、など。
現在はアラビア語にも取り組んでいますが、やはり技術的にクリアしなければならない技術的な課題はあります。ただ、日本語、アラビア語にかぎらずどの言語にも固有の性質があるので、とにかく一般的に重要なのは「すでに翻訳されたテキストのデータ量」です。
すばらしいのは、ニューラル・ネットワークはとにかくどんなものからでもよく学ぶ、ということです。最初は未発達な子どもの脳と同じと考えてください。AIに翻訳の例をたくさん見せて、教えてあげることがとにかく重要です。AIにさせたいことの目的や言語の性質がどれだけ違うかは、初段階ではあまり重要ではないのです。
AIのデータモデルの能力は非常に大きいので、(トレーニング教材さえ潤沢にフィードすることができれば)互いにかなりかけ離れた、まったく異なる言語であっても、うまく動作させることができるのです。
ここがまさに、AIの美しさ、すばらしさですよね。
「文脈」も重要、AIにも行間を読ませる
──「文脈」についてはどうですか?
どんな言語にも文脈によって意味を変える曖昧な言葉があります。機械翻訳でも「文脈」は重要で、「文脈」があれば、よい訳文の出力がより簡単になります。
ニューラルネットワークの美しさ、すばらしさは大量のデータを計算、活用できることです。与えられた文章全体をAIが俯瞰し、その文章全体が何を言っているのかを見渡せば、「ある一文」が何を言っているかを特定することが容易になります。
──DeepL翻訳の精度には、私をはじめユーザー諸氏はみな驚くばかりです。グーグル翻訳はじめ競合とどこが違うのでしょうか?
まず、われわれは徹底的に努力を傾け、細部にまで心血を注いでいます。高い品質基準を目指せばこそです。われわれの数学者や研究者たちは、翻訳結果の質を上げるための研究努力を怠らないのです。
「努力」の内容は前述の通り、ニューラルネットワークに与えて学習させるよいトレーニングデータの取得と、ニューラルネットワーク構築の両方です。
しばしば「脳」に例えられるニューラルネットワークは、さまざまな方法による「接続」が可能です。そしてニューラルネットワークの接続をいかに作るかこそが、科学の力です。
適切なトレーニングデータを得て、優れたアーキテクチャを構築しさえすれば、AIはテキストを理解し、優れたテキストを書くことができます。われわれは最高の機械翻訳を提供するためにこの2つのベクトル(データとネットワーク接続の構築)を常に組み合わせて進化しようとしているのです。
後編>>「翻訳者の未来」「AI時代に需要が高まる職業」。DeepL CEOはこう答えた に続く
インタビュアー:
岡本純子◎グローコム代表取締役社長。米MIT比較メディア学元客員研究員。読売新聞社経済部記者時代、孫正義ソフトバンク社長など、世界の経済人、政治家を多数取材する。1000人を超える社長、企業幹部の「家庭教師」を務め、コミュニケーション術を伝授。著書『世界最高の話し方』(2020年10月、東洋経済新報社刊)は累計15万部のベストセラーに。
(翻訳には一部、DeepL無料版を使用した)
関連記事>>
ドイツの機械翻訳「DeepL」は文学も訳せるか? 芥川龍之介作品で試した
ドイツの機械翻訳「DeepL」がすごい。ついに日本語対応も
2022年、どこまで進む翻訳技術。グーグル翻訳超え「DeepL」の進化