第153話 自動翻訳機械は可能か

 
 もし、ことばが辞書と文法書さえあれば理解でき るものであれば、英語から日本語への翻訳も、日本語から中国語や朝鮮語への翻訳も、ナヴァホ語やモホーク語から英語やフランス語への翻訳も自動的にできる はずであると考えたとしても不思議はない。

  しかし、現実には英語から日本語への自動翻訳 も、日本語から英語への翻訳もそう簡単ではないことが分かってきた。翻訳は文章の意味が分からなければできない。そこで翻訳は原文の「単語を切りだす」 「文の構造を解析する」「文の意味を理解する」とい手順で行われる。そして、目的言語の「相当する単語を探す」「文の構造を選択する」などの過程を経て完 了する。

  チョムスキーが主張したように世界中のことばは 外見上の多様性にもかかわらす、普遍文法があって、個々の言語はパラメータ(可変部分)を変形しただけだとしたら、日本語も英語も普遍言語に変換し、しか るのちに目的言語のパラメータを適用すればどんな言語からでも翻訳は可能なはずである。コンピュータは汎用機械だから、世界同一基準で作り、それをそれぞ れの言語に適用して運用できるようにするのが望ましい。しかし、現在のところ、普遍言語とはどのような言語か、そしてそれを変換するパラメータはいくつあ れば十分なのかも分かっていない。

  仮に「我輩は猫である」という簡単な文章を翻訳 すると、どのような作業が必要になるか確かめてみよう。まず、この文章は「我輩・は・猫・で・ある」という単語で成り立っている。それぞれの単語は「我輩 は―猫で―ある」という文節を構成している、というように解析されなければならない。これに目的言語の語彙をあてはめ、それぞれの言語の文法規則にのっ とって変換規則をあてはめると、次のようになるであろう。

   中国語:我是猫

  朝鮮語:na neun ko-yang-i i da.

  英語: I am a cat.

  ドイツ語:Ich bin eine Katze.

  フランス語:Je suis un chat.

  朝鮮語が一番日本語に近い。Na(私) neun(は) ko-yang-i(猫) i-da(だ)。朝鮮語では1人称を表すことばが複数あ り、話してと話しかけられる人間の関係によって使い分けられている。私(na)は相手と同等あるいは、話し手が目上である場合に 使い、私(jeo)は相手が目上の場合に使われる謙譲語である。動詞 にも丁寧で格式ばった表現と格式ばらない表現の区別がある。丁寧にいうときはip-ni-da(です)という表現を使う。この点でも朝鮮語は日 本語に似ている。
 朝鮮語の
neunは日本語の助詞「は」にあたる。主語の名詞の終音 が子音である場合はeunであり、主語の終音とリエゾンするという規則に なっている。朝鮮語の語順は日本語と同じである。

  中国語は語順が入れ替わっている。

    我(wŏ)(shì)(māo)
   我+である+猫

   日本語は動詞が最後にくるのに対して中国語では動 詞は主語の次にきている。中国語は語順だけについていえば英語に近い。
 英語の場合は「我輩」という日本語が1人称であるという情報がなければ、be動詞をamに変換することができない。日本語には人称による 動詞の変化はないから、これは何らかの形で付加情報として加えなければならない。不定冠詞のaも問題になる。日本語の「猫」は単数だか複数だか 分からないから、これは単数であるということをインプットしてやる必要がある。英語の名詞には単数・複数の区別のあるものと区別のない抽象名詞のようなも のもある。またcarp(鯉)やcattle(家畜)のような集合名詞もあるからやっかいであ る。さらにまた、fishのような単語は単体をあらわすこともあるが、未定 数であることもあるので扱いにくい。

 名詞に定冠詞(the)をつけるべきか不定冠詞(a)をつけるべきかについても、規則は複雑で英語を母 語とする人でさえ十分に説明できない場合がある。同様の問題は日本語の「は」と「が」の場合にも起こる。

  フランス語では猫(chat)は雄猫、雌は雌猫(chatte)である。犬も雄猫(chien)、雌猫(chienne)である。性が違うと冠詞もちがってくる。雄犬はun chien、雌猫はune chienneとなる。これらの情報は原文である日本語にはない から、翻訳の過程で追加しなければならない。「犬」はドイツ語ではein Hund、「猫」はeine Katzeとなる。

  また、「我輩は黒猫である」とした場合、英語で はblack catでいいが、フランス語ではun chat noirという語順になり、形容詞は名詞の前ではなく、名 詞の後にくる。

 「我輩は三匹の猫を飼っている」とした場合は、 英語、フランス語、ドイツ語ではthreetroisdreiでいいが、日本語では「三つの猫」ではなく「三匹 の猫」でなければならないので、逆に英語などから日本語に翻訳する場合は助数詞をつけ加えなくてはならない。

  一般に単語の意味は一つではなく、多義性がある のが普通である。英語のbankは「銀行」であることもあり「土手」であることも ある。Barは「酒場」であることもあり「法廷」であることも ある。Boyは「少年」であることもあり、「給士」であること もありうる。

 英語のcapは日本語では「帽子」とすればいいが、日本語の 「帽子」はcapなのかhatなのか見極めなければならない。日本語の「机」はdeskかもしれないし、tableである可能性もある。「椅子」はchairかも知れないし、sofaかもしれない。Stoolである可能性もある。「記号は、対象に貼り付けら れたラベルではなく、名前こそが意味を分節する」というソシュールのことばを思いださざるをえない。

  「名前こそが意味を分節する」ということでいえ ば、基本的な色彩語の組み合わせは言語によって異なる。「虹は七色」というが光はスペクトラムの連続だから境界線があるわけではない。基本的な色彩語が白 と黒(明るい色と暗い色)しかない言語もある。白黒に加えて赤、緑、青、黄色がでてくる。紫やピンクを含む言語はあるが、紫とピンクだけしか色彩語がない 言語はない。これは人間の色彩認知能力と関係があるのであろう。
 日本語の場合は「黒い」「白い」「赤い」「青 い」「黄色い」「茶色い」が色彩を表す形容詞である。あとは緑、橙、紫、藍色、茜色、鼠色などもあるが名詞である。英語では
red flowerblue skygreen leavesなど色彩を表す形容詞は名詞を修飾することができ るが、日本語では「赤い花」「青い空」はいいとして、緑は「緑い葉」とはいえない。「緑の葉」あるいは「緑色の葉」となる。
 緑が日本語の基本色彩語に入っていなかったこと は交通信号の色を「青」ということからも知られる。英語では
greenであるが日本語では緑は青のなかに含まれることが ある。日本語の場合「黄色い」「茶色い」は形容詞として使えるが、複合語だから後からできたものであろう。相撲の土俵の「白房」「黒房」「赤房」「青房」 あたりが基本であろう。

  日本語の色彩表現はかなり豊かである。

   物の色:瑠璃色、紺色、肌色、金色、黄金色、灰色、朱色、土色、飴色、
  動物: 鳶色、鴇(とき)色、鼠色、玉虫色、
  植物: 桃色、藤色、山吹色、橙色、紫色、茶色、茜色、牡丹色、菖蒲(あやめ)色、
  天然: 空色、水色、東雲色、曙色、
  合成語:黄緑色、海老茶色、薄墨色、薄紅色、唐紅
(か らくれない)、 江戸紫、萌黄色、

  このほかにも深紅、漆黒などがある。これらの表 現は漢字で書けば中国人などには分かってもらえるだろうが、英語で表現するとなるとやっかいである。

  多くの場合、単語の意味は使われる文脈によって きまる。翻訳の場合同じ単語でも文脈によって訳し方を変えなければならないことが多い。

  Take a train.(列 車に乗る
 
Take coffee.(コー ヒーを飲む
 
Take a meal.(食 事を取る
 
Take my advice.(忠 告を聞く
 
Take (a) cold.(風 邪をひく
 
Take fire(火 がつく
 
Take me to the ball game.(野 球を見に連れていく

 英語のhaveについても「持つ」のほかにいくつかの用法があ る。Have tea(お茶を飲む)、have rain(雨が降る)、have a baby(赤ん坊を生む)、have a bath(入浴する)などがあって、それが英語の表現を豊 かにしている。しかし、これでは英語の単語をコンテクストなしに日本語に移すことは不可能だということになる。例えば、日本語を英訳する場合でも場合によって 訳語を選ばなければならない。

   よく知っている(know~well)
 
 よ く聞く(listen~carefully)
  よく訪ねる(visit~often)

  Good morningは「よい朝」ではなくて「おはようございます」で ある。翻訳では「行く」と「来る」が反対になったり、YesNoですら反対になることすらある。

   「週末には家に帰って来ますか」
  
Are you coming home in the weekend?

  「ええ、帰って行きます
      Yes, I am coming home.

   「日曜日に教会に行かないんですか」
 
  Don’t you go to church on Sunday?

  「ええ、行きません」
 
 No, I don’t go to church on Sunday.

  機械翻訳はコンピュータを人間の赤ちゃんに近づ けて、人間の言語獲得能力を人工的に実現しようとする試みでもある。日本人は日本語をしゃべり、アメリカ人は不自由なく英語を操る。しかし、日本人もアメ リカ人も自分の母国語について、合理的に整理された完全な知識をもっているわけではない。Comingingは進行形だが、morningingmorn+ingではない。これらの差異をコンピュータに組み込む ことは容易ではない。辞書も文法書も自動翻訳に役立てるには不完全である。

  人間の使っている言語はファジーであり、冗長さ(redundant)でもある。あいまいさを重複によって補っていると いえるかもしれない。日本語はよく主語を省くといわれるが、主語を省いてamo Maria(マ リアを愛している)のように言うことを許すイタリア語やスペイン語のような言語は世界の言語をみるとたくさんある。ラテン語ではAmata es(loved was)だけでShe was loved.(彼女は愛されていた)を表すことができる。人称や動詞の活用によって、主語や受け身の構造が読み取れるからである。日本語では 「愛しているよ」といえばすむ。英語ではI love you.の ように主語のIを省略することはできない。日本語では「てにを は」で格関係を明らかにしているので、語順はかなり自由である。例えば「彼は手紙を駅で読みます」は「彼は駅で手紙を読みます」としても、「彼」 「手紙」「駅」などの助詞が主格、目的格、場所をあらわす位置格があ るから曖昧になることはない。しかし、中国語や英語では語順を変えると意味が変わってしまうことが多いので、語順はかなり固定的である。

  英語には人称や数の一致という法則がある。

     I am a boy.

   We are students.

   You are a girl.

   They are girls.

  "I"1人称単数だから動詞が1人称単数であるのはredundantである。またI am boys.というのはありえないから、boyに単数の不定冠詞をつけるのも冗長というものであ る。論理的に言語を構成しようとすればI be boy.で もいいはずである。しかし、英語は冗長性(redundancy)をもたせることによって、文章の一部がよく聞き取 れなくても、情報に雑音が混じっても、間違いなく正しい情報を伝えることができる。
  それでも、ことばには解釈のあいまいな部分が残 る。例えば、“pretty little girls’ school”という文字列は「その学校が小さいのだろうか」 「少女が小さいのだろうか」、「少女がかわいいのだろうか」「学校がかわいいのだろうか」不明である。

 日本語の文章でもあいまいさをなくすことはでき ない。「刑事は血まみれになって逃げる犯人を追いかけた」という日本語の文章は「刑事は血まみれになって追いかけた」ともとれるし、「血まみれになって逃 げる犯人」と理解することもできる。「血まみれになって刑事は、、、」とすれば、血まみれになったのは刑事であり、「血まみれになって逃げる犯人を刑事は 追いかけた」とすれば、あいまいさは避けられる。修飾語は被修飾語の近くにおくと解釈のあいまいさは減らすことができる。しかし、修飾語と被修飾語の距離 が離れていることは文法的には違反ではない。

  ことばには意味の曖昧さがあり、構文の曖昧さが あるから解釈に幅ができ、それがことばによる表現活動を豊かにしているともいえる。しかし、語彙の曖昧性、構文の曖昧性があるかぎり、言語学者の知識を総 動員しても、自動翻訳を完全にすることはむずかしい。かつて、この『日本語千夜一話』のホームページの一部を韓国語に翻訳してインターネットで流した人が いた。それをGoogleが自動翻訳で日本語に訳しなおしていたが、日本語 としてはほとんど理解できるものではなかった。日本語から韓国語に自動翻訳したものを、韓国語から日本語に訳しなおしてみると、その翻訳の良しあしをかな り正確に評価することができる。                                           

 現在の自動翻訳では文法書にだけ頼るのではな く、大量の対訳コーパスから膨大な対訳例を集めて、コンピュータに2言語間の翻訳の仕方を学習させるという方法も取り入れられている。文法的処理をして翻 訳する方法に対して、用例に依拠した翻訳方法といえる。複数言語間の対訳データを数百万文の規模で収集し、コンピュータに記憶させて翻訳する方法である。 この場合はコンピュータが作業をするのだから開発のコストは低く抑えられる。しかし、高価で高性能の計算機が必要になる。処理する情報量が多くなるため高 速化がむずかしくなる、という課題もある。

  現代のコンピュータはフォン・ノイマン型コン ピュータであり、状態遷移機械である。コンピュータは現在の状態のもとでCPUにおいて命令が実行され、その結果状態は遷移する。つまり、自分で学習する ことができる。自然言語においても単語の意味は変化する。

 統計的機械翻訳では文法よりも用例を重視するこ とになる。これは英語学習などについても考えさせる課題を提示している。学校では文法を重視して英語を教える。しかし、学生はなかなか英語が話せるように はならない。街の英会話学校では用例を重視して実用英語を教える。英会話学校の生徒は文法上の間違いをするかもしれないが、ある程度英語が通じるようにな る。

 そこで、語彙や文法による処理とハイブリッド型 の翻訳機械も開発されている。しかし、コンピュータによる自動翻訳はワープロによるかな漢字処理ほどにも成功しているとはいいがたい。人間の脳のなかにあ る言語を生み出す機構については、まだまだ分からないことが多い。 


☆ もくじ

★ 第149話 日本語ワープロの発明

☆ 第150話 自然言語と人工言語

★ 第151話 話しことばと書きことば

☆ 第152話 ことばにとって意味とは何か