屋根裏通信

在宅で細々実務翻訳をやってます。翻訳、英語の勉強、その時々の出来事などのんびり綴っています。

土曜日に開催された「翻訳通訳テクノロジー研究プロジェクト特別会合+翻訳Cafe」に参加してきました。
内容や発表者の詳細は、「翻訳Cafe」のHPを参照してください。

個人的には、前半の情報通信研究機構(NICT)さんの発表「機械翻訳を活用するための言語処理技術 」より、後半の「人工知能とニューラル機械翻訳の現状と未来 」というパネルディスカッションが楽しみでした。顔ぶれを見ると、研究者2名+教育者2名+翻訳者(翻訳会社)2名という偏りのない(?)構成です。昨年通信講座でお世話になった先生がパネリストのおひとりで、翻訳者代表としてどのようなお話をされるのかという点にも興味がありました。

今回も一生懸命メモを取ったのですが、馴染みのない内容のせいか、特に第1部はうまくまとめられません(取捨選択すべきポイントがよく分からないというか...)。

ですので、前半に関しては強く心に残った点のみ箇条書きするに留めます。
登壇者は、いつもの「屋根裏」仕様で、F田(NICT)、Bor(視聴覚素材のMT--とお聞きしたような気がするのですが、正確なところは聞き漏らしました。研究業績からも今回のトピックスに関係するような研究はちょっと確認できませんでしたので、間違っているかもしれません)、K木(MTを使用している翻訳会社の代表)、I坂(ノンフィクション翻訳家)、Y田(大学教授・翻訳者、通翻ジャーナル夏号にも寄稿)、I塚(大学教授・通訳者)と記載します。

「機械翻訳を活用するための言語処理技術 」(F田)

・ 2016年11月11日、Google翻訳が統計的MT(以下SMT)からニューラルMT(以下NMT)に変わった。語の分散表現(distribution representation)という方式を用い、多層ニューラルネットワークによる非線形変換を可能にした点が、成功した理由のひとつである(この1文でもう挫折しそうや)。

・ 機械は原文を「理解」しているのか?-「理解」をどう定義するかによる。訓練データの範囲内での最適化の結果が訳文であり、「最適結果を生成する=理解」と定義するならば理解していると言うことができる。

・ MTの今後-どんな情報でも、それを形式化して入力することができれば利用可能。テキスト周りでは前後の文脈などがこれにあたり、テキストの外界では、著者の特性、対象とする読者などがこれにあたる。これらを利用できるようになれば、MTの精度はもっと向上するだろう。

・ MTを活用する上での課題は高速化と高精度化。一般に対訳コーパスが大きいほど高性能となる。対訳コーパスの拡充が必要。未知語への対応(既知語での言換え)、複合語の分割なども必要。

・ MT実用上の最大の課題は品質のばらつき(現時点)である。一定の品質保証を前提とした翻訳の戦略は4種類ある:人手による翻訳、機械に支援された人手翻訳、人間に支援されたMT、高品質MT。このうち人間に支援されたMTはMT+PEであるが、MTの前編集としてPre-editing(原文を書き換えてMTしやすくする人手作業)を行うことで、MTの精度は上がると思われる(研究段階---意味の分からない日本語を意味の分かる日本語に変換してから英訳することを「日日英訳」と表現される方がおられますが、それと同じ感じかなと)。

・ MT訳の品質推定(Quality Estimate: QE、どの程度の品質が保証されるか)が必要-使用者の立場での信頼度。語レベルのQEの研究は進んでいるが、文レベルのQEはまだ訓練データが少なく、現在取組み中である。

・ Google翻訳と研究のMT翻訳との違い-Google翻訳はウェブから全自動で収集したものをすべて使用している。研究MTには人手が入っている。

・ (F田さん個人の感想として)研究者は、実際的な翻訳には何が必要かがあまり分かっておらず(関心も薄い?)、文単位でMTの評価を行いがち。その数値を上げることがゴールで、その先については考えていない研究者が多い印象。研究者・教育者・実務者が連携する必要があると痛感。

という断片的な感想を読んでいただければ「ほとんど理解できてへん」ということが分かっていただけると思います(?)。
興味が湧かれた方は、F田さんとY田先生が発表された論文に目を通していただければと。
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/D6-1.pdf

NICTの研究は、特にQEの点でまだこれからという印象を受けました(あくまで個人的な印象です)。
とはいえ、Google翻訳を含むMT全体を見れば、「まだまだ大丈夫」と安穏としていられないという感じもします。

将来、MT翻訳は、「Pre-Edit-MT-PE」というセットでどんどん精度を上げていくのではないかと思いました(その「どんどん」のカーブがどの程度急かということについては、ワタクシには何とも言えません)。翻訳とPEは別ものという考え方もありますが(思考過程を考えると、ワタクシ自身もやはり別ものと思います)、実際問題、「翻訳業界のひとつの職種」として今後(Pre-Editもできる)PEの需要は伸びていくだろうという気がします。PEにはPEとしての高い能力が求められるはずで、レベルの高いPEはもう少し評価されてもよいのではという気もします(PEについては、パネルディスカッションの中でも、興味深い発言がありました)。

長くなりましたので、パネルディスカッションの報告と全体的な感想は(下)に譲りたいと思います(ごめんして)。
2017.07.03 07:49 | 翻訳 | トラックバック(-) | コメント(3) |

めぐりさん、まいどです~。
お返事遅れてしまってスイマセン。
めぐりさんが、「おおっ」と思われた外界の情報、本当はもっとたくさん種類があったのですが、書き漏らしてしまいました。確かに、周辺情報や背景情報を数値化してインプットできれば、さまざまな意味で精度が格段に上がりますよね。そうした機械翻訳には、純粋に興味があります。ただ、(この点も聞き漏らしたかもしれないのですが)背景情報の選択や決定の判断はやはりヒトが担うのじゃないかなと思います。また、そうした未来はまだ先のような感触を受けました。
Google翻訳は、日英(英日)のそこそこ長いのを試してみたことはありませんが、日英以外の言語の資料の大意の見当をつけたい時など、その言語→英語翻訳をやってみることはたまにあります。「こんなことを言っているのね」を知るには十分な場合がほとんどで、その意味ではありがたく(?)使わせて頂いています。

めぐりさんも、どうぞお身体ご自愛くださいね~。

2017.07.04 17:53 URL | Sayo@屋根裏 #- [ 編集 ]

このコメントは管理人のみ閲覧できます

2017.07.03 14:19  | # [ 編集 ]

Sayoさん、こんにちは~ (^^)

すごいですねぇ。参加された会合の内容がとてもよくわかりました。

「著者の特性、対象とする読者」のところで「お~っ」と思いました。たしかにそれは理想的ですね。そのあたりは別のニューラルネットワークで収集・分析して、ニューラルMTと連携させることができそうですよね。これからどんどんおもしろくなりそうです(と言いつつ、ろくにGoogle翻訳に触ったことがなかったりします ^^;)。^^

第2弾の記事もたのしみにしています~~

季節の変わり目、くれぐれもご自愛くださいね! ^^

めぐり

2017.07.03 10:51 URL | めぐり #- [ 編集 ]













管理者にだけ表示