第150話 自然言語と人工言語
コンピュータによる言語処理が行われるように
なってきたため、コンピュータによるプログラミング言語などの人工言語に対して、人間が日常に使っている言語を自然言語と呼ぶようになった。 人間はコンピュータ言語を使うことによってコン
ピュータと対話している。自然言語をコンピュータによって処理することによって、自然言語の構造が明らかになってきている側面もある。言語は日常意識する
ことなく使われているので、その構造は人工言語によってはじめて解明されることも多い。
コンピュータは電子計算機と呼ばれるように、も
ともと計算を効率的にするために開発されたものである。しかし、コンピュータは人工頭脳などと呼ばれることもあり、中国語では「電脳」とよばれるように、
計算機であると同時に情報処理機械でもある。コンピュータ言語は自然言語とどのように違うのだろうか。また、自然言語処理はどのように行われるのであろう
か。自然言語は人文科学の分野で主に扱われ、人工言語は自然科学の分野で扱われている。
現在使われているようなコンピュータの原型がで
きたのは1940年代のことである。1946年にペンシルバニア大学で作られたENIACには17,468本の真空管が使われていたという。 トランジスタが開発される以前のことである。現在
のパソコンはトランジスタで構成された半導体チップが使われており、ひとつのチップの上に数百万個の電子スイッチに相当するトランジスタが集積されてい
る。コンピュータはパソコンに使われているばかりでなく、電気炊飯器から自動車、工作機械などに組み込まれている。
コンピュータに使われている命令の言語は比較的
簡単でAND、OR、NOT、IF といった類ものである。たとえば「3丁目3番地に
保存されているデータをコピーして、そのコピーを5丁目3番地に書け」とか「Aに加算して、その結果をBに書け」、「Bの中身が0ならば、次の命令は4丁
目3番地にある」などである。 命令は単純なものが多いが、現在のパソコンは1
秒間に20~30億回の命令を実行することができるので、単純な命
令を繰り返し何百回も行うことができる。また、コンピュータのプログラムにはいくつかの命令のセット(ライブラリー)が用意されていて、それらを組み合わ
せることによって、プログラマーはより効率的なプログラムを書くことができる。
例えば、パソコンのワードを使って「日本語入力
ソフト」と書きこみたいとき、ローマ字入力で”nihongonyuuryokusofuto”とする場合とかたかな入力で「にほんごにゅう
りょくそふと」とする場合のふたつの方法が考えられる。かたかな入力のほうがタッチの数がすくないので、習熟すれば早く入力できる。かな入力の場合もロー
マ字入力の場合も可能な表記の候補はいくつか出てくる。
に(二・煮・似など)ほ(保・穂・歩・帆・補な
ど)ん(ん)ご(後・碁・五・語など) にゅう(入・乳など)りょく(緑・力など)そ
(曾・素・蘇など)ふ(不・府・冨・夫 など)と(戸・斗・徒・杜など)
問題は日本語ではかなの一字が必ずしも漢字の一
字に対応していないことである。漢字は一文字で数音節のものもあるので、辞書で検索するときも単語の単位を発見していかなければならない。
に(二・煮・似など)・ほん(本・翻・奔な
ど)・ご(後・碁・五・語など)・にゅう(入・ 乳など)・りょ(旅・慮・侶など)・くそ(屎・
糞など)・ふと(太)
にほん(二本・日本)ご(後・碁・五・語)にゅ
うりょく(入力・乳緑)そふ(祖父)・ と(人)
などの試行錯誤をへて「日本語入力ソフト」にた
どりつくことになる。
「日本語を入力するためのソフトです」というよ
うな文章の場合も同じである。日本語は分かち書きをしないから、文節を探しだすのが大変である。「にほんご・を・にゅうりょく・する・ための・そふと・で
す」と単語の単位を示すか、「にほんごを・にゅうりょくする・ための・そふとです」と文節を区切って入力すると、だいぶ入力はしやすくなる。日本語では自
立語(名詞・動詞など)は漢字で表記し、名詞にはかなの助詞がつき、動詞には活用語尾がついてかなで表記されるという規則性があるからである。
コンピュータは日本語を理解しているわけではな
く、プログラムの命令によって表示する文字を選んでいるだけである。日本語の表記法は複雑である。漢字にも音と訓があり、そのほかに平仮名と片仮名があ
る。アルファベットの略語などが使われることもある。 「そふと」と入力して「ソフト」と出力するには
「そ・ふ・と」と入力してひとつずつ「ソ・フ・ト」と出力させることもできる。その場合は例えば「そ(3丁目5番地)」を「ソ(13丁目5番地)」に変更
せよ。「ふ(8丁目3番地)」を「フ(18丁目3番地)」に変更せよ。「と(4丁目5番地)」を「ト(14丁目5番地)に変更せよ。というような命令を繰
り返すことになる。
また、命令のセットを使って、より効率的に「そ
ふと」の保存されている丁目の番号を10桁の番号に変更せよ、として処理することもできる。日本語パソコンではF7 のキーがそれにあたる。最近のパソコンは容量も増
え、計算速度も速くなってきている。かな漢字変換のプログラムにもさまざまな改善がなされている。しかし、日本語入力の使い勝手はワープロ時代からほとん
ど改善されていないように思われる。その原因はふたつあるように思われる。ひとつは日本語入力ソフトの問題であり、もうひとつは日本語表記法自体のもって
いる問題である。
パソコンの容量が増えたからといって漢字の数を
ふやせば、それだけ検索するのに時間がかかる。そして漢字と漢字の組み合わせの数も飛躍的に増える。現在のパソコンには「辺」のほかに「邊」も入っていて
ランダムに並べられている。「斉」と「斎」も並列に並べられている。仮に2000字の漢字を処理するパソコンを40,000字の漢字を処理できるようにす
れば、それはプログラムの改善ではあるが、計算速度は落ち誤選択の可能性もそれだけ高まる。処理する情報量の多さと計算速度はトレードオフする。
そこで考えられるのは、例えば、常用漢字だけを
処理する第一段階と、常用漢字以外の漢字も処理できる第二段階に分けることである。2000字の漢字を処理するためのパソコンならばかなりの正確さで出力
させることができるはずである。第一段階と第二段階の切り替えは「漢字1」「漢字2」などのキーを設定しておけば簡単にできる。
もうひとつは、日本語表記そのものの改善であ
る。漢字は万葉集の時代から日本語の表記に使われてきており、日本語表記の歴史は漢字の歴史であるといっても過言ではない。その分だけ漢字は時代の垢をた
めこんでいる。話し言葉で「にほんご にゅうりょく そふと」と発音すれば理解できるものを書きことばでは「日本語・入力・ソフト」と漢字かなまじりで書
かなければ理解できないのだろうか。
日本語は分かち書きの習慣がないため、「にほん
ごにゅうりょくそふと」と入力しようとするとコンピュータはどこに単語の切れ目があるのか判断できなくなってしまう。入力する側が「にほんご・にゅうりょ
く・そふと」と単語の単位をしめしてENTERキーを押すことにすればコンピュータの負担は大分
軽減される。「日本語を入力するためのソフト」のような文章でも、「日本語を・入力する・ための・そふと」と文節を区切って入力すれば変換の確率は格段に
向上する。日本語の格助詞(て、に、を、は)は名詞にしかつかない。またかな表記する用言の活用語尾は動詞・形容詞・形容動詞にしかつかないので、それを
プログラムに書きこんでおくことは比較的簡単である。
単語入力、あるいは文節入力の習慣をつけること
がコンピュータとの親和性を増す秘訣である。そのためには、日本語を分かち書きすることが必要である。少なくともパソコンとの対話には分かち書きが必要で
ある。文字列が長くなればなるほどパソコンの負担は増大する。パソコンは文字数の3乗回の計算をこなさなければならない、といわれている。
「コンピュータは計算をするために作られたのだ
から、知能を実現することはできない」という意見もある。しかし、コンピュータは命令として打ち込まれた記号を理解し、それを実行することができる。人間
のことばも「記号」であることはソシュール以来定説になっている。それなのに日本語とコンピュータの親和性はこれほどまでに悪いのだろうか。
|