日本語千夜一話　小林昭美-149

第１４９話　日本語ワープロの発明

　コンピュータの言語はほとんどが英語で書かれている。

　Function（関数）、 Statement（文）、 Operator（演算子）
　Expression（式）、 Object（変数）、 Identifier（識別子）

　そのほかにもif, else, double, goto, break などの英語がコンピュータのプログラミング言語には使われている。ことばをコンピュータで処理することは1946年にはじまったが、1960年代まではコンピュータが出力する文字はローマ字とカタカナだけであった。日本語は常用漢字に限っても2,136字もの漢字があるので日本語入力はむずかしかった。

　邦文タイプライターは数千個の活字を選択できるように作られていたが、数千字の配置を覚えるのが大変で、キーボードが大きくなるため疲れやすい。また、キーボードが大きくなるため、高速の入力がむずかしいなどの問題があった。地球上のほとんども文字はキーボード上のキーと文字を一対一で関係づけることで簡単に入力することができる。日本語の漢字仮名まじり文はコンピュータ時代には対応できないのではないかと考えられていた時期もあった。

　英文タイプライターは文字数も少なく、操作しやすい。話し言葉をほとんど同時に入力することもできる。そこへ記録装置のついたワードプロセッサーが登場したので、大量の情報を記録し、適宜印刷することも可能になった。

　世界初の仮名漢字変換機能をそなえた日本語ワードプロセッサーが生れたのは1978年のことである。はじめは漢字直接入力方式、ペンタッチ方式、手書文字認識方式などの変換方式が互いに競い合っていた。現在使っているような日本語ワードプロセッサーが生れたのは1980年代になってからである。1990年代に入るとパーソナルコンピュータ、インターネット急速に普及して仮名漢字変換技術も定着してくる。

　日本語は分かち書きをしないから、意味を有する最小の単位である単語をコンピュータに認識させるのが困難である。そのほかにも正書法が確立していない、同音意義語が多いなどの問題がある。例えば、「かれはせんせいです。」という文章を入力する場合、コンピュータはいくつかの選択肢のなかからどれかを選ばなくてはならない。

　　１．彼歯           専制       出す
２．枯れ葉　　先生       です
３．枯葉           戦勢       出須
４．涸れ波       千世       です

　これはほんの一例だが、さらに一文字ずつ打ち込めば「蚊礼波戦勢出巣」となって出てくる可能性だって皆無ではない。しかし、仮名漢字変換の方式を研究する過程で、日本語の性質についていくつかのことが経験的に分かってきた。

・ひとつひとつの仮名を漢字に変換するより、単語あるいは文節を単位に変換するほうが
　「うまくいくことが多い」

・日本語には自立語（名詞、動詞、形容詞、形容動詞、副詞など）と付属語（助詞、助動
　詞、接辞など）があり、自立語の語幹は漢字で表記し、付属語、副詞はひらがなで表記
　することが多い。

・日本語では付属語は少数なので登録できる。

・単語には使用頻度の多い単語とそうでない単語があるので、優先順位をつけておくとよ
　い結果がえられる。

・隣接する単語は関連のある単語である場合が多い。例えば「大学のせんせい」とあれば、
　「せんせい」は専制や宣誓ではなく「先生」である可能性が高い。

　これらの事実からワープロでは統計的手法、機械学習、予測入力機構などが開発されていった。ワープロはユーザーの入力から学習を行い、間違いを訂正させた場合は、同じ間違いを繰り返さない機能がついている。最近のワープロは直近の入力を記憶していて、次の入力を予測する予測入力機構がついている。

　それでも間違いを完璧になくすことは不可能である。日本語には同音異議語が多い。また、日本語は分かち書きをしないので「ここではきものをぬいでください」といっても「ここでは｜着物を｜脱いでください」なのか「ここで｜履物を｜脱いでください」なのかわからない。日本語には正書法が存在せず、「枯れ葉」、「枯葉」など送り仮名に個人差があることも大きな問題である。

　人間の場合は文脈によって正しい語を決定していると考えられる。そして、意味を考えて同音異議語を選択しているから「はし」が「橋」であるか「箸」あるいは「端」であるか間違えることはない。しかし、現在の技術ではコンピュータが完全に文脈の意味を捉えることは困難である。何かを洞察するという点においては人間のほうが圧倒的に優れている。

　日本語、中国語、タイ語などは分かち書きをしない。印刷技術がふきゅうするまでの日本語や中国語は句読点も使わなかった。日本語は句読点を使うようになってから、かなり読みやすくなった。しかし、それでもまだ日本語の文章はそう読みやすいとはいえない。アナウンサーなど朗読のプロは文章の区切りに / / などを書きいれて読みやすくなるように工夫している人が多い。中国語では句読点をふやして読みやすくしているようである。

　地球上のほとんどの言語では、ひらがな入力できる程度の機能があれば十分である。しかし、日本語ワープロにはさまざまな技術が使われている。日本語入力の技術は1990年代以降はワープロからパソコンのワードへと引き継がれてゆく。

【かな漢字変換】単語の読みとそれに対応する表記、単語の品詞情報などを数万件から
　十万件記録したファイルをメモリに保存する必要がある。

【予測入力】単語の出現しやすさを表すパラメータを用いて引いてきたり、今までに用い
　られた用例から予測入力を示すことも行われている。

　・できるだけ出現しやすい単語を出す

　・単語間がなるべく自然につながるようにする。（例：「夏」と「暑い」は共起しやすい）

【データ構造】データには保存しておくだけの静的データと追加や削除が行える動的デー
　タがある。データにはメモリのなかの特定の場所をアドレスとして指定して保存してお
　かないと取り出すことができない。

【最短経路】データはメモリにまとめて保存され、どの要素へも高速でアクセスできるよ
　うに配列することが重要である。そのためには同じ計算を何回も繰り返させるのではな
　く、あるまとまったデータを仮にx あるいはy としてまとめて処理しておいて、必要に
　応じてx あるいはy に再帰するという方法も有効である。再帰は数学における代入、こ
　とばにおける代名詞に似ている手法である。x やy はデータそのものではなく、あるま　
　とまったデータを圧縮したものの代理人である。再帰を用いることによって、計算を繰
　り返さなくともすでに計算ずみのまとまったデータを呼び出すことができる。

【機械学習】コンピュータは学習能力をもっている。かな漢字変換でもこのコンピュータ
　の学習能力を利用して変換の正確さを向上させることができる。最近のコンピュータは
　メモリの容量が大きいから、「このひらがな文はこういう漢字かなまじり文に変換する」
　というデータを大量に記憶させておいて、コンピュータに自動的に推定させる方法を導
　入している。

　日本語入力は以上のほかにもコンピュータのさまざまな機能を駆使して作動しているが、それでも100%正しい変換をすることはできない。むずかしいのは、ある文で正しかったものがある文では間違いになるということである。たとえば「あめ」は「雨」に変換されることが確率的に多いので「雨」を優先させておくと「飴」が必要なときも「雨」が選択されてしまう。

　漢字には同音異議語が多い。漢字、幹事、監事、感じ、などの場合コンピュータはどれを選んだらいいのか簡単には判断できない。また、「金」と書いても「きん」「かね」「かな」があり、「米」と書いても「べい」「まい」「こめ」「よね」などがある。コンピュータの設計者はどの音と対応させておいたらいいのか迷うだろう。

　日本ではワープロの普及によって書けないけれども読める文字がふえているから、漢字をふやすべきだという議論が行われている。しかし、ほんとうにそれでいいのだろうか。ワープロを使ってみると日本語の表記法がいかに恣意的で、話しことばでは簡単に理解できることが書きことばではいかに複雑に表記されているかがよく分かる。

　印刷の普及によって句読点が使われるようになり、日本語が読みやすくなったように、ワープロの普及によって分かち書きが行われるようになり、同音異議語が使われることが少なくなる、など日本語の書記法が改善されることこそ求められているのではなかろうか。

　コンピュータはこれからも速くなり、メモリ容量も増えるばかりである。しかし、日本語の表記法そのものが恣意的であり、正書法も定まっていないのでは、コンピュータがいくら進歩しても、対応のしようがないのではなかろうか。

参考文献：徳永拓之『日本語入力を支える技術』技術評論社

☆　もくじ

★　第１５０話　自然言語と人工言語

☆　第１５１話　話しことばと書きことば

★　第１５２話　ことばにとって意味とは何か

☆　第１５３話　自動翻訳機械は可能か