たとえばGeminiのプロンプト「おはよう」と入れても「Good morning」と入れても、それぞれの言語で返事を返してくる。AIにそれができるのはなぜか━━?
その裏に潜む「Unicode」と、文字コード標準化の世界的な戦いについて以下、塩瀬隆之 京都大学総合博物館教授にご寄稿いただいた。
塩瀬氏は博士課程で「機械学習による熟練技能継承支援システムの研究」を専門とした工学博士。教育の分野をはじめ、「2025大阪・関西万博」日本館基本構想委員や「2027ベオグラード万博」日本館基本計画委員など活動・貢献領域も広い。
UTF-8、ASCII、Shift-JIS──「文字コード」とは
「縺薙s縺ォ縺。縺ッ」と声をかけられたときに、どう回答すればよいか。「こんにちは」と即答できるのは、コンピュータに詳しい人か、生成AIを使っている人かもしれません。これは「UTF-8文字化け」と呼ばれる現象の一つで、実際に「こんにちは」と打ったつもりが、文字コードの誤りによって表記が変わります。一見意味不明なこの文字列こそ、AIが世界中の言語を扱うことができる秘密でもあるのです。
わたしたち人間は、文字をある種の図形として認識しますが、コンピュータは文字をすべて数値の集合として認識します。この符号化を文字コードと呼び、冒頭のUTF-8以外にも、ASCIIやShift-JISなど日本でよく使われているコードがあります。
かつて文書作成や清書に日本語ワープロの専用機械が開発され、メーカーごとに独自の文字コードが採用されていました。家にあるワープロで文書を完成させるときは問題にならなかったのですが、たとえば職場と家庭のワープロの機種が違うと、作業の続きを進めようと文章を移すときにこの文字化けが頻発していました。
この混乱を解決するために日本語文字コードの標準化が図られました。1980年代の「JIS X 0208」はよく知られた標準化の一つで、その後の日本製コンピュータの普及とともに日本国内で広がりました。
しかし、1990年代に入ると欧米製の安価なコンピュータが日本市場に参入するにあたり、この日本語変換が障壁の一つになります。世界に向けてコンピュータを普及させるには、こうした地域ごとの文字コードのばらつきを乗り越える必要があり、国際的に互換性のある文字コードの確立が急務となりました。
1991年にコンピュータメーカーが中心となった「The Unicode Consortium(ユニコードコンソーシアム、合衆国カリフォルニア州)」によって、古代文字から絵文字まで世界中の文字を一つの番号体系に統合するUnicodeが登場しました。2026年現在では約15万字が収録されていますが、同じ文字はどの国でも同じ番号と定め、さらに新しい文字を追加し続ける拡張性を持ちます。



