日本語千夜一話　小林昭美-153

第１５３話　自動翻訳機械は可能か

　もし、ことばが辞書と文法書さえあれば理解できるものであれば、英語から日本語への翻訳も、日本語から中国語や朝鮮語への翻訳も、ナヴァホ語やモホーク語から英語やフランス語への翻訳も自動的にできるはずであると考えたとしても不思議はない。

　しかし、現実には英語から日本語への自動翻訳も、日本語から英語への翻訳もそう簡単ではないことが分かってきた。翻訳は文章の意味が分からなければできない。そこで翻訳は原文の「単語を切りだす」「文の構造を解析する」「文の意味を理解する」とい手順で行われる。そして、目的言語の「相当する単語を探す」「文の構造を選択する」などの過程を経て完了する。

　チョムスキーが主張したように世界中のことばは外見上の多様性にもかかわらす、普遍文法があって、個々の言語はパラメータ（可変部分）を変形しただけだとしたら、日本語も英語も普遍言語に変換し、しかるのちに目的言語のパラメータを適用すればどんな言語からでも翻訳は可能なはずである。コンピュータは汎用機械だから、世界同一基準で作り、それをそれぞれの言語に適用して運用できるようにするのが望ましい。しかし、現在のところ、普遍言語とはどのような言語か、そしてそれを変換するパラメータはいくつあれば十分なのかも分かっていない。

　仮に「我輩は猫である」という簡単な文章を翻訳すると、どのような作業が必要になるか確かめてみよう。まず、この文章は「我輩・は・猫・で・ある」という単語で成り立っている。それぞれの単語は「我輩は―猫で―ある」という文節を構成している、というように解析されなければならない。これに目的言語の語彙をあてはめ、それぞれの言語の文法規則にのっとって変換規則をあてはめると、次のようになるであろう。

　中国語：我是猫

　朝鮮語：na neun ko-yang-i i da.

　英語：　I am a cat.

　ドイツ語：Ich bin eine Katze.

　フランス語：Je suis un chat.

　朝鮮語が一番日本語に近い。Na（私） neun（は） ko-yang-i（猫） i-da（だ）。朝鮮語では１人称を表すことばが複数あり、話してと話しかけられる人間の関係によって使い分けられている。私(na)は相手と同等あるいは、話し手が目上である場合に使い、私(jeo)は相手が目上の場合に使われる謙譲語である。動詞にも丁寧で格式ばった表現と格式ばらない表現の区別がある。丁寧にいうときはip-ni-da（です）という表現を使う。この点でも朝鮮語は日本語に似ている。
　朝鮮語のneunは日本語の助詞「は」にあたる。主語の名詞の終音が子音である場合はeunであり、主語の終音とリエゾンするという規則になっている。朝鮮語の語順は日本語と同じである。

　中国語は語順が入れ替わっている。

　我(wŏ)是(shì)猫(māo)
　　我＋である＋猫

日本語は動詞が最後にくるのに対して中国語では動詞は主語の次にきている。中国語は語順だけについていえば英語に近い。
　英語の場合は「我輩」という日本語が1人称であるという情報がなければ、be動詞をamに変換することができない。日本語には人称による動詞の変化はないから、これは何らかの形で付加情報として加えなければならない。不定冠詞のaも問題になる。日本語の「猫」は単数だか複数だか分からないから、これは単数であるということをインプットしてやる必要がある。英語の名詞には単数・複数の区別のあるものと区別のない抽象名詞のようなものもある。またcarp（鯉）やcattle（家畜）のような集合名詞もあるからやっかいである。さらにまた、fishのような単語は単体をあらわすこともあるが、未定数であることもあるので扱いにくい。

　名詞に定冠詞(the)をつけるべきか不定冠詞(a)をつけるべきかについても、規則は複雑で英語を母語とする人でさえ十分に説明できない場合がある。同様の問題は日本語の「は」と「が」の場合にも起こる。

　フランス語では猫(chat)は雄猫、雌は雌猫(chatte)である。犬も雄猫(chien)、雌猫(chienne)である。性が違うと冠詞もちがってくる。雄犬はun chien、雌猫はune chienneとなる。これらの情報は原文である日本語にはないから、翻訳の過程で追加しなければならない。「犬」はドイツ語ではein Hund、「猫」はeine Katzeとなる。

　また、「我輩は黒猫である」とした場合、英語ではblack catでいいが、フランス語ではun chat noirという語順になり、形容詞は名詞の前ではなく、名詞の後にくる。

　「我輩は三匹の猫を飼っている」とした場合は、英語、フランス語、ドイツ語ではthree、trois、dreiでいいが、日本語では「三つの猫」ではなく「三匹の猫」でなければならないので、逆に英語などから日本語に翻訳する場合は助数詞をつけ加えなくてはならない。

　一般に単語の意味は一つではなく、多義性があるのが普通である。英語のbankは「銀行」であることもあり「土手」であることもある。Barは「酒場」であることもあり「法廷」であることもある。Boyは「少年」であることもあり、「給士」であることもありうる。

　英語のcapは日本語では「帽子」とすればいいが、日本語の「帽子」はcapなのかhatなのか見極めなければならない。日本語の「机」はdeskかもしれないし、tableである可能性もある。「椅子」はchairかも知れないし、sofaかもしれない。Stoolである可能性もある。「記号は、対象に貼り付けられたラベルではなく、名前こそが意味を分節する」というソシュールのことばを思いださざるをえない。

　「名前こそが意味を分節する」ということでいえば、基本的な色彩語の組み合わせは言語によって異なる。「虹は七色」というが光はスペクトラムの連続だから境界線があるわけではない。基本的な色彩語が白と黒（明るい色と暗い色）しかない言語もある。白黒に加えて赤、緑、青、黄色がでてくる。紫やピンクを含む言語はあるが、紫とピンクだけしか色彩語がない言語はない。これは人間の色彩認知能力と関係があるのであろう。
　日本語の場合は「黒い」「白い」「赤い」「青い」「黄色い」「茶色い」が色彩を表す形容詞である。あとは緑、橙、紫、藍色、茜色、鼠色などもあるが名詞である。英語ではred flower、blue sky、green leavesなど色彩を表す形容詞は名詞を修飾することができるが、日本語では「赤い花」「青い空」はいいとして、緑は「緑い葉」とはいえない。「緑の葉」あるいは「緑色の葉」となる。
　緑が日本語の基本色彩語に入っていなかったことは交通信号の色を「青」ということからも知られる。英語ではgreenであるが日本語では緑は青のなかに含まれることがある。日本語の場合「黄色い」「茶色い」は形容詞として使えるが、複合語だから後からできたものであろう。相撲の土俵の「白房」「黒房」「赤房」「青房」あたりが基本であろう。

　日本語の色彩表現はかなり豊かである。

　物の色：瑠璃色、紺色、肌色、金色、黄金色、灰色、朱色、土色、飴色、
　動物：　鳶色、鴇（とき）色、鼠色、玉虫色、
　植物：　桃色、藤色、山吹色、橙色、紫色、茶色、茜色、牡丹色、菖蒲（あやめ）色、
　天然：　空色、水色、東雲色、曙色、
　合成語：黄緑色、海老茶色、薄墨色、薄紅色、唐紅(からくれない)、江戸紫、萌黄色、

　このほかにも深紅、漆黒などがある。これらの表現は漢字で書けば中国人などには分かってもらえるだろうが、英語で表現するとなるとやっかいである。

　多くの場合、単語の意味は使われる文脈によってきまる。翻訳の場合同じ単語でも文脈によって訳し方を変えなければならないことが多い。

　Take a train.（列車に乗る）
　Take coffee.（コーヒーを飲む）
　Take a meal.（食事を取る）
　Take my advice.（忠告を聞く）
　Take (a) cold.（風邪をひく）
　Take fire（火がつく）
　Take me to the ball game.（野球を見に連れていく）

　英語のhaveについても「持つ」のほかにいくつかの用法がある。Have tea（お茶を飲む）、have rain（雨が降る）、have a baby（赤ん坊を生む）、have a bath（入浴する）などがあって、それが英語の表現を豊かにしている。しかし、これでは英語の単語をコンテクストなしに日本語に移すことは不可能だということになる。例えば、日本語を英訳する場合でも場合によって訳語を選ばなければならない。

　よく知っている(know~well)
よく聞く(listen~carefully)
　よく訪ねる(visit~often)

　Good morningは「よい朝」ではなくて「おはようございます」である。翻訳では「行く」と「来る」が反対になったり、YesとNoですら反対になることすらある。

　「週末には家に帰って来ますか」
　 Are you coming home in the weekend?

　「ええ、帰って行きます」
Yes, I am coming home.

　「日曜日に教会に行かないんですか」
　 Don’t you go to church on Sunday?

　「ええ、行きません」
　 No, I don’t go to church on Sunday.

　機械翻訳はコンピュータを人間の赤ちゃんに近づけて、人間の言語獲得能力を人工的に実現しようとする試みでもある。日本人は日本語をしゃべり、アメリカ人は不自由なく英語を操る。しかし、日本人もアメリカ人も自分の母国語について、合理的に整理された完全な知識をもっているわけではない。Comingのingは進行形だが、morningのingはmorn+ingではない。これらの差異をコンピュータに組み込むことは容易ではない。辞書も文法書も自動翻訳に役立てるには不完全である。

　人間の使っている言語はファジーであり、冗長さ(redundant)でもある。あいまいさを重複によって補っているといえるかもしれない。日本語はよく主語を省くといわれるが、主語を省いてamo Maria（マリアを愛している）のように言うことを許すイタリア語やスペイン語のような言語は世界の言語をみるとたくさんある。ラテン語ではAmata es(loved was)だけでShe was loved.（彼女は愛されていた）を表すことができる。人称や動詞の活用によって、主語や受け身の構造が読み取れるからである。日本語では「愛しているよ」といえばすむ。英語ではI love you.のように主語のIを省略することはできない。日本語では「てにをは」で格関係を明らかにしているので、語順はかなり自由である。例えば「彼は手紙を駅で読みます」は「彼は駅で手紙を読みます」としても、「彼は」「手紙を」「駅で」などの助詞が主格、目的格、場所をあらわす位置格があるから曖昧になることはない。しかし、中国語や英語では語順を変えると意味が変わってしまうことが多いので、語順はかなり固定的である。

　英語には人称や数の一致という法則がある。

I am a boy.

　 We are students.

　You are a girl.

　They are girls.

　"I"は1人称単数だから動詞が１人称単数であるのはredundantである。またI am boys.というのはありえないから、boyに単数の不定冠詞をつけるのも冗長というものである。論理的に言語を構成しようとすればI be boy.でもいいはずである。しかし、英語は冗長性(redundancy)をもたせることによって、文章の一部がよく聞き取れなくても、情報に雑音が混じっても、間違いなく正しい情報を伝えることができる。
　それでも、ことばには解釈のあいまいな部分が残る。例えば、“pretty little girls’ school”という文字列は「その学校が小さいのだろうか」「少女が小さいのだろうか」、「少女がかわいいのだろうか」「学校がかわいいのだろうか」不明である。

　日本語の文章でもあいまいさをなくすことはできない。「刑事は血まみれになって逃げる犯人を追いかけた」という日本語の文章は「刑事は血まみれになって追いかけた」ともとれるし、「血まみれになって逃げる犯人」と理解することもできる。「血まみれになって刑事は、、、」とすれば、血まみれになったのは刑事であり、「血まみれになって逃げる犯人を刑事は追いかけた」とすれば、あいまいさは避けられる。修飾語は被修飾語の近くにおくと解釈のあいまいさは減らすことができる。しかし、修飾語と被修飾語の距離が離れていることは文法的には違反ではない。

　ことばには意味の曖昧さがあり、構文の曖昧さがあるから解釈に幅ができ、それがことばによる表現活動を豊かにしているともいえる。しかし、語彙の曖昧性、構文の曖昧性があるかぎり、言語学者の知識を総動員しても、自動翻訳を完全にすることはむずかしい。かつて、この『日本語千夜一話』のホームページの一部を韓国語に翻訳してインターネットで流した人がいた。それをGoogleが自動翻訳で日本語に訳しなおしていたが、日本語としてはほとんど理解できるものではなかった。日本語から韓国語に自動翻訳したものを、韓国語から日本語に訳しなおしてみると、その翻訳の良しあしをかなり正確に評価することができる。

　現在の自動翻訳では文法書にだけ頼るのではなく、大量の対訳コーパスから膨大な対訳例を集めて、コンピュータに２言語間の翻訳の仕方を学習させるという方法も取り入れられている。文法的処理をして翻訳する方法に対して、用例に依拠した翻訳方法といえる。複数言語間の対訳データを数百万文の規模で収集し、コンピュータに記憶させて翻訳する方法である。この場合はコンピュータが作業をするのだから開発のコストは低く抑えられる。しかし、高価で高性能の計算機が必要になる。処理する情報量が多くなるため高速化がむずかしくなる、という課題もある。

　現代のコンピュータはフォン・ノイマン型コンピュータであり、状態遷移機械である。コンピュータは現在の状態のもとでＣＰＵにおいて命令が実行され、その結果状態は遷移する。つまり、自分で学習することができる。自然言語においても単語の意味は変化する。

　統計的機械翻訳では文法よりも用例を重視することになる。これは英語学習などについても考えさせる課題を提示している。学校では文法を重視して英語を教える。しかし、学生はなかなか英語が話せるようにはならない。街の英会話学校では用例を重視して実用英語を教える。英会話学校の生徒は文法上の間違いをするかもしれないが、ある程度英語が通じるようになる。

　そこで、語彙や文法による処理とハイブリッド型の翻訳機械も開発されている。しかし、コンピュータによる自動翻訳はワープロによるかな漢字処理ほどにも成功しているとはいいがたい。人間の脳のなかにある言語を生み出す機構については、まだまだ分からないことが多い。

☆　第１５２話　ことばにとって意味とは何か