第158回 Google Translation(GT)の新バージョンGoogle Neural Machine Translation (GNMT)について (その1)

 

本稿は本コラム2021年6月号用に執筆したものです。本誌は同年6月号を休刊した為に今回と次回の2回に分けて掲載します。[1]今回はGoogle Translate(GT)の新バージョンの長所と短所を、次回は翻訳そのものの難しさを理解した上でいかにGTを活用できるか考えます。

最近New York在住の知人Janett M.さんからメールをもらいました。TOEFL Web Magazineの本コラムを読んでいるとのこと。Google Translate(GT)の英訳版を読んでいるようです。日本語で書いた記事が瞬時に無料で英語はもちろん多くの他の言語に翻訳されるのですから世界中の多くの方々に読んでいただく機会が増えます。ありがたいことです。GTは最近パワーアップされました。まだ、後述するような問題を抱えていますが、GTに限らずAIによるmachine translation(以降MT)テクノロジーは益々精度を増し、私達の生活に多大な影響を及ぼすのは間違いありません。今回はバージョン・アップしたGTを調べてみることにしました。

初めての読者の為にGoogle Translateを開いてみましょう。左上段に「文テキスト」「ドキュメント」とあります。前者は1文以上の文の場合、後者はWord fileやpdfなどのドキュメントの場合です。パソコンからアップロードします。次に「言語を検出する」の左欄で原文の言語を選出します。原文が日本語なら日本語を選びます。選択表示をクリックするとその他の沢山の言語がリストされています。そして右欄で翻訳先の言語を選択します。英語に翻訳したければ英語を選択します。選択表示をクリックするとその他沢山の言語がリストされています。後述しますが、マイクのアイコンをクリックすると、音声入力ブラウザが整っていれば音声入力ができます。キーボードのアイコンをクリックすると文字入力できます。1回につき5,000字以内であれば対応するようです。

試してみましょう。少々古いですが、筆者の手元にある昭和55年に発行された三省堂中学校1年生用文部省検定済教科書The New Crown English Series (New Edition) 1のLesson 16にある次の英語passageをコピー・ペーストしてみましょう。“Look at the wall. There is a map on it. There is a large country here. There is a large country between two oceans. It is America. It is the United States. There are fifty states in the United States.” その翻訳結果は「壁を見てください。その上に地図があります。ここには大きな国があります。2つの海の間に大きな国があります。 アメリカです。アメリカです。アメリカ合衆国には50の州があります。“Kabe o mite kudasai. Sono-jō ni chizu ga arimasu. Koko ni wa ōkina kuni ga arimasu. 2Tsu no umi no ma ni ōkina kuni ga arimasu. Amerikadesu. Amerikadesu. Amerikagasshūkoku ni wa 50 no shū ga arimasu.”」です。[2]音声アイコンを押すと原文と訳文の音声が聞けます。日本語原文を入力し、英語に翻訳してみてください。英語以外の言語、例えば、ベトナム語に翻訳し、音声で聞いてみてください。

Google Translate Helpをクリックすると更に詳しい情報が見れますその中の“Download & Use Google Translate”の項目には、100言語以上のtext、handwriting、photos、speechが翻訳可能で、computer、Android、iPhone & iPadにdownloadできるとあります。“Download languages to use offline”にはonline環境がない場合でも、パソコンを除き、Android、iPhone & iPadで利用できるアプリケーションがあります。詳細はAndroidiPhone & iPad でチェックしてください。“Get gender-specific translations”の項目には、フランス語のような名詞、動詞、形容詞の活用が女性形(feminine)と男性形(masculine)に分かれる言語などの対処法を取り上げています。“Tips and Tricks”の項目にも興味深い情報があります。その中にある“Download languages on-the-go”の項目には、外出先でinternet 接続がない場合上記“Download languages to use offline”を踏まえた使用方法が書いてあります。同じく“Translate what you find through your camera”は非常に画期的です。携帯電話のカメラで物、サイン、メニュー、文字を撮り翻訳できます。Learn how to translate imagesと“Google Translate’s instant camera translation gets an upgrade”で詳細をチェックしてください。“Translate a conversation”の項目では、bilingual会話や講義をほぼリアルタイムに翻訳してくれるComputer、Android、iPhone & iPad用のアプリケーションを紹介しています。詳細については“Translate a bilingual conversation”をチェクしてください。Google Translate Helpのその他“Translate text, images, handwriting, or speech”、“Use your history & phrase book”と“Make Translate work for you”の諸項目には、翻訳結果の履歴、記録とその活用などに関する説明が書かれています。

GTのこれまでの経緯について、Google Translate から肝心な部分のみ抜粋します。[3]

GTは、2006年にStatistical MachineTranslation(SMT統計的機械翻訳)と称する方式を採用し、データとして使用した国際連合(United Nations)と欧州議会(European Parliamentのおびただしい数のdocumentsの中から共通パターンを拾い出しそのパターンに基づいて語を選択し文に並べ替えた。文全体ではなく小分けして解析した為に広いコンテクストを解析できなかった。また、ソース言語をいったん英語に訳してからターゲット言語に訳した。すなわち、ソース言語→対象言語ではなく、ソース言語 → 英語→ターゲット言語で、中間言語(pivot language)としての英語を介しての間接翻訳であった為に誤訳を避けられなかった。

それを改善すべく2016年にSMTからGoogle Neural Machine Translation(GNMT)方式に切り替え、2021年5月現在、上述した機能を揃え、109言語の翻訳を可能にした。GNMTは、Deep Learningテクニックを採り、いちどきに訳文全体を翻訳する為に訳文全般のコンテクストを捉え、それに沿って文法を確認しヒトの会話に近い翻訳を可能にした。また、SMTが英語を中間言語(pivot language)にしたのに対し、interlingual machine translationと称する手法を採り、ソース言語をいったんinterlinguaと称する自然言語と独立した抽象的な共通表象に変換しターゲット言語に訳す手法を取った。GNMTの方式はZero-Shot Translationと称する。Zero-Shot Translation方式により、英語などの中間言語(pivot language)を介すことなく、言語ペアのinterlinguaを抽出し直接翻訳が可能になった。[4]
2016年に8言語間で始めたがその後言語数を増やし、2021年5月現在109言語間にまで拡大し、同時にイメージ(images)や声を翻訳する機能を備えつつ現在に至る。

(Google Translate Wikipedia 2021年5月現在 より抜粋 鈴木編訳)

 

GNMTの最大の目標は、「正確さ(Accuracy)」、「限界(Limitations)」、「誤訳と体裁の悪さ(Translation Mistakes and Oddities)」などの諸項目に関して指摘されてきた前バージョンのStatistical Machine Translation (SMAT)方式の弱点を減らしできる限りhuman translation(人による翻訳)に近づけることでしょう。Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translationと称するサイト記事には、GNMTがその目標に近づく為に導入したシステムに関する論文のabstractがあります。とは言え、インターネット上にはその目標がまだ遠いと記事が目に付きます。以下、その内のGoogle Translate Cannot Replace Human translators. Immigrant Officials Used it To Vet Refugees とThe Shallowness of Google Translation の2つを取り上げます。

2019年9月付けの最初の記事は、トランプ政権下のアメリカ合衆国移民局が、難民申請、市民権と永久ビザなどの申請に際し、申請者のソーシャル・メディアの交信記録を調査対象に含め、担当官にGoogle、Yahoo、BingなどのMT使用を奨励したという記事です。現在のmachine translationで微妙なニュアンス、刻々と変わるスラングなどを正確に捉えることは不可能であるのに、その翻訳結果に基づいて申請者の生命、生活に深く関わる審査をして良いのか疑問が残ると指摘しています。例えば、ある個人のペルシャ語ツイートから取り出された“Whose child lives in America?”という意味のペルシャ語の文は、GT(GNMT)翻訳で“When will you taste America?”、Microsoft翻訳で “Who is the American?”と訳されてしまっていると述べています。この記事は GoogleがGTがhuman translationと代替するものではないとの注意喚起をしていることに触れていることから、記事のポイントはGTを否定しているのではなく、生命、生活に関わる重大事の最終判断の情報として使われることへの批判であることが分かります。

2018年1月付けThe Atlantic誌の記事はDouglas Hofstadter氏によるものです。認知科学、物理学、比較文学の専門家で、芸術創造性、文芸翻訳、機械翻訳でも著名で、1979年の著作Gödel, Escher, Bach は、Pulitzer PrizeとNational Book Awardを受賞しています。Hofstadter氏はGT(GNMT)による翻訳とhuman translation(翻訳家でもあるHofstadter氏自身の翻訳)との隔たりを以下3例で示しています。[5]

 

(1)[英語→フランス語]
原文 In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.
GT翻訳 → Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.
Hofstadter翻訳 → Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.
(2)[ドイツ語→英語]
原文 Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.(Sigmund)
GT翻訳 → After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.
Hofstadter翻訳 → After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.
(3)[中国語 → 英語]
原文 锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。 他仍兼管研究生。毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说:他以为我要做“南书房行走”了。这件事不是好做的,不求有功,但求无过。Yang Jiang
GT翻訳 → After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student. The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.
Hofstadter翻訳 → After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students. The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said: “He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.
The Shallowness of Google Translationより抜粋、鈴木編集)

 

GT(GNMT)の翻訳とHofstadter自身によるhuman translationの翻訳を見比べると質の違いは一目瞭然です。GT翻訳には不明な部分が点在します。細部の欠陥をオブラートに包み、一見尤もらしく思わせるthe ELIZA effectというAI programmingの幻覚現象の良例と酷評します。上記の3例から一点のみ抽出します。

まず(1)です。英語代名詞所有格his、her、theirは所有者の性(gender)と関係しますが、それに対応するフランス語の所有形容詞(adjective possessif)、ここではson、sa、sesの性はそれらが修飾する名詞の性に直結します。文中のvoiture(car)、serviette(towel)、biblioteque(library)はみな女性名詞であるので、his carsa voitureher car→sa voitureで英語のhisherも女性形のsaになります。英語感覚ではhis car→*son voitureとかhis towels→*son serviettesとかher towels→*sa serviettesにしたいところですが文法的に誤りです。そして、hisとherの複数形theirもそれが修飾する名詞の数(単数/複数)に呼応するので、his towelsses serviettesher towels→ses serviettesで両方とも複数形sesになります。最後のhers→les siennes la sienneにする以外G Tの翻訳には文法的間違はありません。しかしながらこの訳では原文英語の男女がそれぞれ別の車やタオルをペアで所有することを示すhisherの意が伝わりません。Hofstadter氏は英仏両語の文法構造の違いを念頭に英語の原文を手直し翻訳したのが(例sa voiture et sa voiture→sa voiture à elle et sa voiture à luiなど)同氏による上記の仏訳です。ところが手直しした仏訳をGTで英訳したところ、 “At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.­”という奇妙な訳になりGTの仏語などの文法解析の限界を指摘しています。筆者がこの原文英文をGTで和訳してみると「彼らの家では、すべてがペアになっています。彼の車と彼女の車、彼のタオルと彼女のタオル、そして彼の図書館と彼女がいます。」日本語の所有格も英語と同じなのでまずまずの翻訳ですが、最後のhersがとんでもない翻訳になっています。GTでさらにこの日本語文を仏訳すると“Chez eux, tout est jumelé. Il y a sa voiture et sa voiture, sa serviette et sa serviette, sa bibliothèque et elle.”との誤訳が出てきました。[6]

(2)についてです。TGの英訳が大混乱していることは明白です。ちなみにGTでこの独文を和訳すると、「敗戦後、多くのドイツの国立教授は、一方、教員の過半数は、大学を“奇妙なもの”から保護することが彼らの義務であると考えていました。最も無防備だったのは、ハビリテーション前の若い科学者でした。そして、とにかく女性科学者は問題外でした。合意はほとんどありませんでした。」です。筆者はドイツ語がわからないのでHofstadter氏の英訳を参考に判断すると、少し外れています。Hofstadter氏は原文の“Ungeraden”(= un-straight/uneven)に注視し、GTが単に統計的に“not-divisible by two”(=奇数)と定義し“the odd”(=奇数)を選出しているが、氏は状況(situation)からundesirablesが相応しいと述べています。[7]

(3)についてです。人称代名詞の#_ftn7取違い、人物名の見落とし、誤訳など6個指摘していますが、特に「南书房行走」の訳に注意を向けています。GT訳はSouth study walkingです。これでは何の意味か分かりません。5つの漢字の字義から推論したようです。2つ目の漢字は「書」で「南書房行走」になり、これだけでは、私たち日本人も「南書院往来」位の推察に止まりますHofstadter氏は「房行走などのサイト記事を読み、清朝時代において「前清时代这只是一个“差使”」、即ち、皇帝の南書院付き特吏に由来することを知って、“a South Study special aid”と訳します。その為にはこうした過去の状況(situation)に照らさなければ真意を理解できないのは明白であり、皮肉にも母体であるGoogleがそうした状況に関する記事の宝庫であるにも拘らずGTはその利点を利用していないと指摘しています。[8]

これは換喩(metonymy)に関係します。ある具体物でそれに関係する物事を例えることです。“The White House has announced a new guideline.”における“the White House”がその一例です。ここでの“The White House”は建物ではなくアメリカ合衆国政権を表します。「南书房」もその一例でしょう。各言語・文化には特有の比喩、隠喩、換喩などがあり、その知識がないとちんぷんかんぷんです。日本語にも中国古典をベースにした「人間万事塞翁が馬」とか「青天の霹靂」などの故事成語があります。英語にも、“kick the bucket[9]とか“red herring[10]があり、字義だけでは何のことか分かりません。それらの表現が使われた背景が語源に組み込まれているからです。ちなみに2021年5月現在のGT翻訳による「人間万事塞翁が馬」の英訳は“All human beings are horses”、“kick the bucket”の和訳は「バケツを蹴る」です。字義(literal meaning)をそのまま訳した結果です。

(次号に続く。2021年5月執筆)

 

[1] 従って本稿が参照している全サイトの内容は昨年5月の本稿執筆時のものです。現時点の内容と多少違う可能性がありますご了承ください。
[2] 2021年5月時点の結果です。斜線部の「アメリカです。アメリカです。」は「アメリカです。合衆国です。」の誤訳でしょう。原文は、Americaは、“Good morning, America!”のように、アメリカ合衆国を指しますが、正式の国名はthe United States (of America)であることを伝えたかったものと思います。この種のGTの誤訳については本文で後述します。
[3] Google Translate Wikipedia 2021年5月時点を参照したものです。
[4] Google AI Blogの A Neural Network for Machine Translation, at Production Scaleも参考になります。
[5] 2021年5月時点のものです。
[6]  2021年5月時点です。
[7]  GTは uneven =「偶数ではない」よって、odd=「奇数(の)」を自動的に選んだということでしょう。 ご存知のようにoddは「奇数(の)」という意味ですが、そこから「奇妙((な)」という意味が派生しますが、それもundesirableと微妙な意味のズレがあります。
[8]  Hofstadter氏は、Googleサイトの中国語の当該記事を「“南书房行走”不是一个官位,前清时代这只是一个“差使”,一般由当时的御用知识份子翰林来担任…..」 GT英訳したところ、“South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking….”となっており、これ自体問題ありと指摘しています。但し、Hofstadter氏の記事は3年前の2018年1月30日付けの記事で、2021年5月現在のGT英訳では”Nan Shufang Walk” is not an official position. It was just a “sendor” in the pre- Qing period, and it was generally held by imperial intellectual.,,”になっています。ちなみに和訳では「南秀方ウォークは公式の役職ではなく、清朝以前の「見張り人」で、当時の知識人である漢林が一般的に行っていた、、、」となっています。
[9]  首つり自殺をするときにバケツ(bucket)の上に乗り、首をロープにかけてからバケツを蹴っ飛ばすところから、「死ぬ」、「くたばる」という意味になった。(Weblioより)
[10]  1800年代のイギリスで臭いの強い燻製の肴(red-herring)を使って猟犬の訓練をしたことに由来する。獲物の臭いを嗅ぎ分けさせる為に故意に強臭の魚の燻製を使って惑わそうとした。ここから「人を惑わすもの」という意味が派生した。

 

鈴木佑治先生
慶應義塾大学名誉教授
Yuji Suzuki, Ph.D.
Professor Emeritus, Keio University

 


上記は掲載時の情報です。予めご了承ください。最新情報は関連のWebページよりご確認ください。


公式eラーニング教材 Official TOEFL iBT Prep Course Plus

TOEFL iBTテストオンライン模試 TOEFL iBT Complete Practice Test

TOEFL iBT®テスト/自宅受験TOEFL iBT®テスト「TOEFL iBT® Home Edition」
英語圏に限らず、世界の大学・大学院、その他機関で活用されています。また日本国内でも大学/大学院入試、単位認定、教員・公務員試験、国際機関の採用、自己研鑽、レベルチェック、生涯学習など活用の場は広がっています。

自宅受験TOEFL® Essentialsテスト 
2021年から自宅受験型の新しいテストとしてリリースされました。約90分の試験時間、短い即答式タスクが特徴のアダプティブ方式の導入されています。公式スコアとして留学や就活などにご利用いただけます。

TOEFL ITP®テスト
TOEFL ITP®テストプログラムは、学校・企業等でご実施いただける団体向けTOEFL®テストプログラムです。団体の都合に合わせて試験日、会場、オンライン受験の設定を行うことができます。

TOEFL®テスト公式オンラインショップ 
TOEFLテスト日本事務局が運営するオンラインショップです。日本で唯一TOEFL iBTテスト公式オンライン模試を販売しています。

ライティング指導を効率的に Criterion®
Criterion®(クライテリオン)を授業に導入することで、課題管理、採点、フィードバック、ピア学習を効率的に行うことを可能にします。

最新情報をチェックしよう!