2026.07.01 16:15

AIは何言語まで理解できる？ヒントはUTF-8文字化け「縺薙ｓ縺ｫ縺｡縺ｯ」にあり

Forbes JAPAN 編集部

著者フォロー

記事を保存

著者フォロー

記事を保存

全ての画像を見る

AIが読める文字

Unicodeのおかげもあり、AIは理論上どんな言語でも扱うことができます。ただし、「扱える」ことと「理解している」ことは必ずしも一致しません。

AIは文字を数値に変換し、その数値列の次に来る確率が最も高い数値を、計算によって予測しているにすぎません。日本の古典でいえば、「吾輩は猫である。名前は…」に続く語として「まだない」という文字列が頻出していることを知っているだけであり、それがこの文章を理解できているかどうかはここでは議論にしていません。書籍、論文、SNS投稿など、世界中のあらゆるテキストがコンピュータやインターネット上に保存され、同じ形式で数値化されている限り、それらはAIの学習データの対象として利用できます。だからこそ、ユニコードコンソーシアムのような標準化の貢献が非常に大きなものとなるのです。

「標準化の内と外」が存在する

それでもAIが翻訳できる言語数は未だ100〜200程度と言われていて、当然、世界の言語のすべてではありません。文字コードが世界共通になったおかげで技術的には上限がほとんどないはずなのに、実際には標準化の「内と外」が存在するからです。

日本語に限っても、ひらがな・カタカナは種類が少なく、Unicodeでも扱いやすい文字です。しかし、漢字の種類には膨大な数があり、私たちが日常的に読み書きできる常用漢字のほか、パソコンなどで使われるJIS漢字にも、第一水準・第二水準といった区分があります。大学入試の願書などで「この範囲にない漢字の場合はカタカナ表記で……」と注記されることもあります。

大学生時代に受けた講義で、文字コードの外字登録を熱弁していた教官のことをよく覚えています。「𠮷田」の「𠮷」、「渡邉」の「邉」などの異体字は、20年以上前はまだ標準外の「外字」として扱われるものが多かった。誰かが登録を怠れば、それらの名前が日常使っている通りには表示されず、事実上コンピューターの世界では「消えてしまう」可能性があると警鐘を鳴らされていたことを覚えています。2026年現在は、「𠮷」も「邉」もUnicodeに登録されているおかげでわたしたちはコンピューター上でこの文字も変換することができます。ただし、古いシステムでは文字化けする可能性が残る「環境依存文字」に分類されるそうです。

この構造は世界の言語にも当てはまります。話者が少ないイヌイット語やマオリ語などは、誰がUnicodeに登録してくれたのでしょうか。この境界線の内側に入るか外側に置かれるかで、その国や地域の文化がデジタルの世界で存続されるかどうかにまで影響します。どの文字を「標準」とするかは技術的な問題だけでなく、社会的・政治的な判断とも無縁ではありません。「残す」ためには、日常的に使用する人数の多さや残すための声の大きさといったある種の努力や工夫が必要になることもあります。

次ページ＞万博が教えてくれたのは「出逢いが書き換える境界線」