機械翻訳21世紀のビジョン
Asia-Pacific Association for
Machine Translation
出版物へback Top

本書は「機械翻訳白書」という仮称で、2000年3月を目標に執筆されていました。その後、内容充実を図り「機械翻訳 21世紀のビジョン」というタイトルで発行の運びとなりました。
ここでは、2000年1月に編集長がAAMTジャーナルに寄稿した「機械翻訳白書発行のねらい」を転載することにより、本書の内容をご紹介いたします。


機械翻訳白書発行のねらい

機械翻訳白書編集委員会委員長

九州工業大学情報工学部教授

野村浩郷


 アジア太平洋機械翻訳協会では、本年3月末発行を目処に「機械翻訳白書 (仮称) 」を発行すべく準備を進めている。当協会内のすべての委員会などが参加し、関連する事項の広範囲な調査と検討により、インターネット社会における多言語処理のターニングポイントでの技術的飛躍を目指して、国際的連携により重点的に取り組むべき研究・開発プロジェクトを提言することを目的としている。

 インターネットの急速な普及により外国語で書かれたWebにアクセスするための多言語処理・機械翻訳の需要が従来にもまして高まっている。このような急務な要請に答えるため、関連する現状と問題点を調査・整理し、国際的な観点も踏まえて、国家的なレベルで重点的に取り組むべき事項を提案することが今回の「機械翻訳白書 (仮称) 」を発行する主なるねらいである。

 従来、日本電子工業振興協会 (JEIDA) の機械翻訳委員会においてそれぞれの時期におけるこのようなねらいをまとめた報告書をいくつか発行してきた。古くは、「機械翻訳システムの調査研究」の報告書 (57-C-438、pp26-28、1982年3月)で国家的な観点からの機械翻訳への取り組みの必要性の提言を行い、具体的な問題点を指摘した。また、「機械翻訳の開発と実用に関する実態調査 : 日本における機械翻訳の実態のALPACレポートに照らした一考察 … 翻訳における人間とコンピュータの調和を目指して …」 (pp1-223、1989,年4月) およびその英訳「A Japanese View of Machine Translation in Light of the Considerations and Recommendations Reported by ALPAC, U.S.A. … Toward the Translation Harmonization of Humans and Computers …」 (pp1-197、1989,年4月) を発行し、機械翻訳の技術とシステム化の状況をまとめるとともに、さらなる取り組みについての提言をおこなった。さらに、「JEIDA機械翻訳評価基準」 (1992年3月、pp1-129) およびその英訳「JEIDA Evaluation of Machine Translation」(1992年11月) を発行し、機械翻訳システムの評価法の提案と機械翻訳のさらなる発展への提言を行った。そして、また、「The Survey of the Current Status of Research and Future Trends in Machine Translation and Natural Language Processing」 (1992年12月、pp1-212 + pp1-38) を発行し、機械翻訳の状況と問題点を整理した。

 これらJEIDAから発行した報告書は「白書」的な役割を持ったものもあるが、今回の「機械翻訳白書 (仮称)」は、これらの従来の提言を踏まえ、機械翻訳技術の現状に立脚し、かつインターネットの普及とWebアクセスの国際性、および電子メールの一般化、電子商取引の台頭の動向などに基づき、現在および将来予想される情勢を加味して、あえて「白書」ということばを使い種々の要請に答えるための取り組みに関する提言を意図したものである。

 北米においては、米国では世界の情報収集という観点などから機械翻訳への取り組みが行われ、カナダでは二つの公用語に対処する行政的観点などから機械翻訳への取り組みが行われてきた。そして、インターネットが普及した現在では、将来のインターネットの機能高度化という観点からも機械翻訳への重点的な取り組みが行われているように伺える。

 欧州においては、欧州連合が12の公用語を持つという事実から、12の言語での行政サービスという観点などから機械翻訳への取り組みが行われてきた。そして、現在では、北米と同じく、機械翻訳は将来のインターネットの機能高度化の主要事項という認識からの機械翻訳への重点的な取り組みが行われているように伺える。

 これら北米と欧州は現在の世界の二極を形成しているように思われる。「極」ということばは硬い印象を与えるが、柔らかいことばいえば「コミュニティ」と読み替えることもできる。これら二極に加えて、第三番目の極の候補としてアジアが存在することは種々の情勢から見て明かであろう。すなわち、将来は世界三極構造が形成され、これらを中心に世界的な活動が行われると予想される。その友好的な活動をささえるものの一つがスムーズなコミュニケーションであり、そのための基盤技術が多言語処理、特にクロスリンガルインフォーメーションアクセスである。

 世界のスムーズなコミュニケーションを可能とさせるためには、極の間でのスムーズなコミュニケーションとともに、極の内部でのスムーズなコミュニケーションが必要である。そこで、日本にとっては、他の二極などとのスムーズなコミュニケーションを確保するとともに、アジアのリーダとしての責務をはたすため、アジア言語の間の機械翻訳すなわちアジア言語のクロスリンガルインフォーメーションアクセスの技術確立をアジア各国との連携の基に推進する必要があると考えられる。

 グローバルスタンダードへの取り組みは昨今の顕著な動向であるように思える。グローバルスタンダードは、一面では、世界のコミュニケーションをスムーズにさせる効果があると思われる。また、機器の製造や活用を効率的にする効果があると思われる。しかし、グローバルスタンダードが一つの方式や考え方を押し付けるものであるとしたら、世界の友好的な連携の確立・維持を阻害する危険性もありえるかもしれない。地域・社会・文化などに根ざしたローカルスタンダードからグローバルスタンダードが構築され、またグローバルスタンダードを地域・社会・文化などに同化させたローカルスタンダードを構築するという考えが必要かも知れない。

 アジアには長い歴史を持った多彩な文化がある。欧州にも歴史に根ざした多彩な文化があるが、アジアにおけるその多彩さは欧州の比ではないように思える。一般に、文化は言語を生み育て、言語は文化の創造に貢献するという側面があるように思われる。したがって、文化を尊重することは言語を尊重することでもあるといえるであろう。多彩な言語を尊重し、異なる言語の間でのコミュニケーションを可能とさせる技術の確立は、多彩な文化を持った国・地域が連携を深め、友好的な連携の極を形成するための必須な技術であるといえるであろう。すなわち、アジア言語のクロスリンガルインフォーメーションアクセスの技術は、アジア内での連携のためのインフラであり、国家的な事業として国際連携のもとに取り組まなければならないものであるといえるであろう。

 それぞれの文化の尊重が行われなかったため、そして異なる文化の間でのスムーズで十分なコミュニケーションが行われなかったために生じた紛争のようなものは歴史的にいくつもみられるように思える。その歴史は現在も作られつつあるようにも思える。このような不具合を回避し、世界が友好的に連携してより良き社会を形成するためには、世界共通語としての英語の流通性を高めることも必要であろうが、個々の言語を尊重し個々の文化のアイデンティティを明確にしたクロスリンガルインフォーメーションアクセスは最も重要なインフラの一つであるといえるであろう。

 アジアの言語の研究は、全般的には十分進んでいるとはいえない。日本語、韓国語、中国語などの研究は活発に行われてきたが、他のアジア言語についてはそれぞれの言語の基礎的な研究から始める必要があるように思える。その中でも最も活発に研究が長年行われてきた日本が音頭を取り、アジア言語全体の研究とアジア言語間のクロスリンガル処理の研究を支援・推進・まとめていく必要がある。そして、クロスリンガルインフォーメーションアクセスの技術を開発していく必用がある。

 従来の機械翻訳に関する国際連携研究・開発プロジェクトとして、通産省から(財)国際情報化協力センター (CICC) に委託されて実施された「近隣諸国間の機械翻訳システムに関する研究協力 (俗称 : CICCプロジェクト)」がある。これは1987年から8年間に数十億円規模のプロジェクトとして実施された。日本の機械翻訳技術を移転することを目的として、日本語、中国語、タイ語、マレーシア語、インドネシア語の五ケ国語の間の双方向の機械翻訳システムを開発することをめざしたものである。このとき、各国に設置された機械翻訳システムは通信回線で結ばれ、オンライン翻訳ができることを目指していた。研究・開発は、CICC内に機械翻訳研究所を設立し、日本の関係企業が8社参画して進められた。また各国はその受け皿としてそれぞれ研究組織を設置して研究・開発がすすめられた。この多言語機械翻訳システムの開発には、通産省の指導による(株)日本電子化辞書研究所で約百四十億円をかけて開発されたといわれている電子化辞書も活用された。このCICCプロジェクトは当時としては大きな成果をあげたが、当初は、日本語文字のJISコードのようなコード規格が中国およびタイにないとか、各国の言語の研究があまり進んでいないとかの理由で、極めて限られたプロトタイプを試作するにとどまった。このプロジェクトでは、将来の多言語処理の拡大性を予想し、各国の文字コードを扱うために、5ケ国語を扱うCICCコード体系として、4バイトコードを採用してシステムを作成した。これにより、いわゆるY2Kのような問題が生じさせない配慮がされていた。

 現在の世界情勢およびアジア情勢は従来より飛躍した密な形での連携が望まれている。アジアの各国語の計算機処理の研究も活発になりつつあり、これらを日本が支援し、密な連携のもとに協同研究・開発を行えば、急速に普及するインターネットへのクロスリンガルインフォーメーションアクセスのサービスを可能な技術から段階的に提供できるようになると思われる。

 アジアの計算機・インターネットの普及は急速に進もうとしている。アジアにおける人数が極めて多いという事実からすると、ビジネス的には巨大なマーケットが控えていることを示し、社会的には膨大な要請があるということになる。これらに答えるという観点からも、アジア言語のクロスリンガルインフォーメーションアクセスのインフラを連携して整備する必要がある。

 現在達成されている技術状況からすると、全体の研究・開発は長期的に実施されることになる。具体的な課題には、Webアクセス、電子商取引、情報検索、情報ナビゲーション、情報抽出、情報要約などがある。これらの中で、それぞれの時点の技術に基づき、実用に供される技術を切り出し、完全ではなくても役に立つシステムを順次開発していくことになる。Web情報のスキャン、Webの多言語検索、定型的な文書の送受などは比較的早期に実用化できそうである。

 連携を蜜にするためには、アジアに近い日本の適当な地域に「クロスリンガルセンター」のようなものを設置し、各国の研究者を招聘して教育も含めて研究開発を進めるとともに、各国の研究機関とも密な研究ネットワークを構築して研究を進める必用がある。このネットワークには、世界共通語である英語の処理の研究者、および多言語処理の最新技術の活用などのために、欧米の研究者も入れる必用がある。

 将来のアジアの連携をコミュニケーション技術の観点から支援するために、アジア言語のクロスリンガルインフォーメーションアクセス技術の研究・開発は最重要な課題の一つであろう。本「白書」はそれを強く主張するものであり、本「白書」への賛同が得られ、そのための施策作りに多少なりとも貢献できれば幸いである。


AAMT Jounal No.26 (Jan.2000)より引用