第149話 日本語ワープロの発明
コンピュータの言語はほとんどが英語で書かれて
いる。
Function(関数)、
Statement(文)、
Operator(演算子) Expression(式)、
Object(変数)、
Identifier(識別子)
そのほかにもif, else, double, goto, break などの英語がコンピュータのプログラミング言語に
は使われている。ことばをコンピュータで処理することは1946年にはじまったが、1960年代まではコンピュータが出力する文字はローマ字
とカタカナだけであった。日本語は常用漢字に限っても2,136字もの漢字があるので日本語入力はむずかしかっ
た。
邦文タイプラ
イターは数千個の活字を選択できるように作られていたが、数千字の配置を覚えるのが大変で、キーボードが大きくなるため疲れやすい。また、キーボードが大
きくなるため、高速の入力がむずかしいなどの問題があった。地球上のほとんども文字はキーボード上のキーと文字を一対一で関係づけることで簡単に入力する
ことができる。日本語の漢字仮名まじり文はコンピュータ時代には対応できないのではないかと考えられていた時期もあった。
英文タイプライターは文字数も少なく、操作しや
すい。話し言葉をほとんど同時に入力することもできる。そこへ記録装置のついたワードプロセッサーが登場したので、大量の情報を記録し、適宜印刷すること
も可能になった。
世界初の仮名漢字変換機能をそなえた日本語ワー
ドプロセッサーが生れたのは1978年のことである。はじめは漢字直接入力方式、ペン
タッチ方式、手書文字認識方式などの変換方式が互いに競い合っていた。現在使っているような日本語ワードプロセッサーが生れたのは1980年代になってからである。1990年代に入るとパーソナルコンピュータ、インター
ネット急速に普及して仮名漢字変換技術も定着してくる。
日本語は分か
ち書きをしないから、意味を有する最小の単位である単語をコンピュータに認識させるのが困難である。そのほかにも正書法が確立していない、同音意義語が多
いなどの問題がある。例えば、「かれはせんせいです。」という文章を入力する場合、コンピュータはいくつかの選択肢のなかからどれかを選ばなくてはならな
い。
1.彼
歯
専
制
出
す 2.枯
れ葉 先生
で
す 3.枯
葉
戦
勢
出
須 4.涸
れ波
千
世
で
す
これはほんの一例だが、さらに一文字ずつ打ち込
めば「蚊礼波戦勢出巣」となって出てくる可能性だって皆無ではない。しかし、仮名漢字変換の方式を研究する過程で、
日本語の性質についていくつかのことが経験的に分かってきた。
・ひとつひとつの仮名を漢字に変換するより、単語
あるいは文節を単位に変換するほうが 「うまくいくことが多い」
・日本語には自立語(名詞、動詞、形容詞、形容動
詞、副詞など)と付属語(助詞、助動 詞、接辞など)があり、自立語の語幹は漢字で表
記し、付属語、副詞はひらがなで表記 することが多い。
・日本語では付属語は少数なので登録できる。
・単語には使用頻度の多い単語とそうでない単語が
あるので、優先順位をつけておくとよ い結果がえられる。
・隣接する単語は関連のある単語である場合が多
い。例えば「大学のせんせい」とあれば、 「せんせい」は専制や宣誓ではなく「先生」であ
る可能性が高い。
これらの事実
からワープロでは統計的手法、機械学習、予測入力機構などが開発されていった。ワープロはユーザーの入力から学習を行い、間違いを訂正させた場合は、同じ
間違いを繰り返さない機能がついている。最近のワープロは直近の入力を記憶していて、次の入力を予測する予測入力機構がついている。
それでも間違
いを完璧になくすことは不可能である。日本語には同音異議語が多い。また、日本語は分かち書きをしないので「ここではきものをぬいでください」といっても
「ここでは|着物を|脱いでください」なのか「ここで|履物を|脱いでください」なのかわからない。日本語には正書法が存在せず、「枯れ葉」、「枯葉」な
ど送り仮名に個人差があることも大きな問題である。
人間の場合は
文脈によって正しい語を決定していると考えられる。そして、意味を考えて同音異議語を選択しているから「はし」が「橋」であるか「箸」あるいは「端」であ
るか間違えることはない。しかし、現在の技術ではコンピュータが完全に文脈の意味を捉えることは困難である。何かを洞察するという点においては人間のほう
が圧倒的に優れている。
日本語、中国
語、タイ語などは分かち書きをしない。印刷技術がふきゅうするまでの日本語や中国語は句読点も使わなかった。日本語は句読点を使うようになってから、かな
り読みやすくなった。しかし、それでもまだ日本語の文章はそう読みやすいとはいえない。アナウンサーなど朗読のプロは文章の区切りに / /
な
どを書きいれて読みやすくなるように工夫している人が多い。中国語では句読点をふやして読みやすくしているようである。
地球上のほとんどの言語では、ひらがな入力でき
る程度の機能があれば十分である。しかし、日本語ワープロにはさまざまな技術が使われている。日本語入力の技術は1990年代以降はワープロからパソコンのワードへと引き
継がれてゆく。
【かな漢字変換】単語の読みとそれに対応する表
記、単語の品詞情報などを数万件から 十万件記録したファイルをメモリに保存する必要
がある。
【予測入力】単語の出現しやすさを表すパラメータ
を用いて引いてきたり、今までに用い られた用例から予測入力を示すことも行われてい
る。
・できるだけ出現しやすい単語を出す
・単語間がなるべく自然につながるようにする。
(例:「夏」と「暑い」は共起しやすい)
【データ構造】データには保存しておくだけの静的
データと追加や削除が行える動的デー タがある。データにはメモリのなかの特定の場所
をアドレスとして指定して保存してお かないと取り出すことができない。
【最短経路】データはメモリにまとめて保存され、
どの要素へも高速でアクセスできるよ うに配列することが重要である。そのためには同
じ計算を何回も繰り返させるのではな く、あるまとまったデータを仮にx あるいはy としてまとめて処理しておいて、必要に 応じてx あるいはy に再帰するという方法も有効である。再帰は数学に
おける代入、こ とばにおける代名詞に似ている手法である。x やy はデータそのものではなく、あるま とまったデータを圧縮したものの代理人である。
再帰を用いることによって、計算を繰 り返さなくともすでに計算ずみのまとまったデー
タを呼び出すことができる。
【機械学習】コンピュータは学習能力をもってい
る。かな漢字変換でもこのコンピュータ の学習能力を利用して変換の正確さを向上させる
ことができる。最近のコンピュータは メモリの容量が大きいから、「このひらがな文は
こういう漢字かなまじり文に変換する」 というデータを大量に記憶させておいて、コン
ピュータに自動的に推定させる方法を導 入している。
日本語入力は以上のほかにもコンピュータのさま
ざまな機能を駆使して作動しているが、それでも100%正しい変換をすることはできない。むずかしいの
は、ある文で正しかったものがある文では間違いになるということである。たとえば「あめ」は「雨」に変換されることが確率的に多いので「雨」を優先させて
おくと「飴」が必要なときも「雨」が選択されてしまう。
漢字には同音
異議語が多い。漢字、幹事、監事、感じ、などの場合コンピュータはどれを選んだらいいのか簡単には判断できない。また、「金」と書いても「きん」「かね」
「かな」があり、「米」と書いても「べい」「まい」「こめ」「よね」などがある。コンピュータの設計者はどの音と対応させておいたらいいのか迷うだろう。
日本ではワー
プロの普及によって書けないけれども読める文字がふえているから、漢字をふやすべきだという議論が行われている。しかし、ほんとうにそれでいいのだろう
か。ワープロを使ってみると日本語の表記法がいかに恣意的で、話しことばでは簡単に理解できることが書きことばではいかに複雑に表記されているかがよく分
かる。
印刷の普及によって句読点が使われるようにな
り、日本語が読みやすくなったように、ワープロの普及によって分かち書きが行われるようになり、同音異議語が使われることが少なくなる、など日本語の書記
法が改善されることこそ求められているのではなかろうか。
コンピュータはこれからも速くなり、メモリ容量
も増えるばかりである。しかし、日本語の表記法そのものが恣意的であり、正書法も定まっていないのでは、コンピュータがいくら進歩しても、対応のしようが
ないのではなかろうか。
参考文献:徳永拓之『日本語入力を支える技術』技
術評論社
|