機械翻訳ユーザ辞書
共通フォーマット設定
Asia-Pacific Association for
Machine Translation
AAMTトップページ UPFトップページ UPF論文一覧


機械翻訳ユーザ辞書データ流通のための共通フォーマット

----アジア太平洋機械翻訳協会の活動報告----

Common Formats for User Dictionaries of MT Systems

赤羽 美樹子*1 亀井 真一郎*2 平井 徳行*3 伊藤 悦雄*4

Mikiko AKABANE, Shin-ichiro KAMEI, Tokuyuki HIRAI, Etsuo ITOH,

斎藤 由香梨*5 桧山 努*6 村木 一至*2

Yukari SAITOH,Tsutomu HIYAMA, Kazunori MURAKI

*1ノヴァ,*2NEC, *3シャープ *4東芝, *5 富士通研, *6NEC情報システムズ

NOVA, NEC, Sharp, Toshiba, Fujistu, NEC Information Systems

 

Abstract

MT(Machine Translation) systems have become increasingly popular among general users through the development of the Internet in recent years and the spread of personal computers.

It is nessessary for each user to accumulate a vocabulary of frequently used words as a "user dictionary" to use MT systems more effectively. To make a substantial dictionary, however, is hard work and takes time, and there is a limit to how much can be done. Also it is a problem that a user dictionary made on one MT system is not available on other MT systems.

To help with this problem, AAMT(Asia-Pacific Association for Machine Translation) started a program to settle a common format for user dictionaries of MT systems. This report describes its general objectives and activities to date.

 

1.はじめに

近年のインターネットの発達とパソコンの普及は、機械翻訳(MT)システムのユーザにも大きな変化を起こしている。10数年前に商用MTシステムが製品化された当初は、システムは翻訳の専門化向けに設計開発され、主として技術文献の翻訳に用いられてきた。しかし現在では安価なPC版システムが一般ユーザにも浸透し始めており、市場規模としては年間数十万本、使用場面も大きく広がって来ている。

MTシステムを有効活用するためには、各ユーザ毎に、頻繁に使用する語彙を「ユーザ辞書」として蓄積し、システムの基本辞書と合わせて使う必要がある。しかし辞書作成は一般に時間と労力がかかる仕事であり、個人ユーザ一人一人が辞書を個々に 充実させるのには限界がある。また異種のMTシステムではユーザ辞書の互換性はない。辞書を容易に充実させられないことがユーザのMT利用を阻害する要因となっている。

この問題の具体的解決方法として、個人が個別に蓄えている辞書データを流通させ、相互利用するための環境の整備が考えられる。現在は国内の20数社が機械翻訳システムを商品化しているが、使用ソフトが違っても、ユーザ同士が共通のユーザ辞書を交換できる仕組みがあれば、各人がユーザ辞書を作成するコストが大幅に削減できる。また、MTの利用促進、および日本人の外国語文書受発信の促進にも結びつくと期待される。

このような環境整備の具体的活動として、アジア太平洋機械翻訳協会(AAMT)では、昨年度(平成8年度)から今年度にかけ情報処理振興事業協会(IPA)の創造的ソフトウエア育成事業の予算補助を受け、各社のMTシステムに共通のユーザ辞書記述フォーマット(Universal PlatForm; UPF)の開発と、ホームページによる仕様公開の活動を開始した。このプロジェクトは、翻訳に使用される辞書データの流通・相互利用を促進することを目標に、AAMTに加盟する機械翻訳(MT)メーカが中心となって、各社のMTシステムのユーザ辞書と相互変換可能なユーザ辞書共通フォーマットを設計しようとするものである。本稿では活動の目的と方針概要ならびにこれまでの活動を報告する。

 

2.UPF設計の基本方針

異種システム間で辞書データを交換できるようにするため、以下のような環境を開発する方針である。

(1) 共通フォーマットの設計

(2) 共通フォーマットで記述された辞書を蓄え流通させるための、一般アクセス可能な電子環境の提供

上記(1)のフォーマット開発では、以下の点について考慮しながら具体的な検討を進めている。

●現実システムとの互換性

→複数の製品システムのユーザ辞書を比較

→複数の製品システムで実証評価

●可読性

→マークアップ言語で記述

マスタはテキストファイル(専用辞書エディタは提供)

●アップロード/ダウンロード双方向変換

→基本言語変換標準と拡張言語変換標準の設定(詳細は後述)

●多言語対応の可能性

→ひとつの言語の生成と解析辞書を統一(双方向を同時に記述)

各社の実際の辞書を比較検討することで、共通フォーマットが現実のシステムから遊離してしまう危険を回避できると考えている。またこの仕様に基づき作成されたデータを参加各社のMTシステムにおいて実証評価を行なうために、共通フォーマットと各システムのユーザ辞書の間の双方向コンバータを各MTメーカがそれぞれ独自に開発することになる。

UPFは、さしあたり日本語と英語の2カ国語を分析対象として具体的設計をすすめるが、その形式は多言語に対応できるものを目指している。また一つの言語の生成と解析の辞書はできる限り統一した形式で記述できるように仕様設計することを目標としている。

上記(2)の辞書共有環境としては、AAMTのホームページを想定している。また直接UPF形式で辞書を記述するための辞書エディタも提供する。各ユーザは共有環境に置かれているUPF形式の辞書データを自分の使っているMTシステムのユーザ辞書のフォーマットに変換して使用することができる。また逆に各ユーザが自分の使用しているMTシステムで作成したユーザ辞書は、UPF形式に変換してこの辞書共有環境に置き、他ユーザ(異システムユーザも含む)と共有できる。

 

3.UPF設計の具体的活動

3.1.基本変換標準と拡張変換標準

現実に利用されている複数のシステムのユーザ辞書で扱える語彙情報には相違があるから、狭い意味で上記の双方向条件を満たすためには、各システムに共通して記述できる情報(記述可能な辞書情報の「AND」)だけを対象範囲とする必要がある。一方、そのような「AND」仕様だけでは、詳細・広 範な辞書情報の記述を許すシステムが有効活用されないという問題が生じる。そこで上記両方の要求を満たすため、UPFでは以下の2種の対象範囲を設定することにした。

(a)基本言語変換標準

全MTシステムのユーザ辞書で取り扱うことができ、UPFとの間で相互変換(アップロード、ダウンロード)可能である辞書情報を記述する形式

(b)拡張言語変換標準

各MTシステムで記述する可能性のあるすべての辞書情報を記述する形式

すでに商品化されユーザに使用されている5つの異なるシステムのユーザ辞書の比較検討を元にして、現在上記2種の仕様設計作業を進めている。

共通フォーマット設計の際には、言語的な厳密さよりも流通に重点を置いた。すなわち、一般ユーザにとって記述がわかりやすく簡素であり、少なくとも基本標準ではアップロード/ダウンロード 双方向可能とする基本方針を念頭に置いた。

第一年度が経過し、基本言語変換標準の仕様がほぼ固まり、第二年度である今年度に拡張言語変換標準を設計する予定であるが、拡張言語標準の設計段階で再度基本言語標準に戻って改良する必要が生じるかも知れない。

 

3.2.基本言語変換標準の概要

基本言語標準の設計に際しては、まず各システム共通の「記述用語」の設定作業を行なう必要があった。つまり、品詞のセット、品詞の呼称など用語と定義の統一から作業を開始した。特に日本語の場合、基本となる品詞設定についても学校文法では機械翻訳にとって不十分であり、準拠すべき標準が存在しない。

具体例としては「形容動詞」という品詞を独立の品詞として立てているシステムと「形容詞」の下位として扱っているシステムが存在した。またその登録単位も語幹登録、終止形登録の二通りがあった。このような用語・形式の統一を行ない、原案作りをすすめている。上記の基本方針に則り、形容動詞の例では、最終的には品詞として採用、登録見出しの語形としては終止形を採用した。

 

4.基本言語変換標準

4.1.方針

上記で述べたとおり、基本言語変換標準においては特に言語的な厳密さより機械翻訳における情報流通性を重視、また機械翻訳用のユーザ辞書としての有効性を得るために以下の方針としている。

●ユーザ辞書登録では登録語彙の9割が名詞・固有名詞であり、特に固有名詞が多いことから、固有名詞を名詞の下位分類の一つとして登録しやすくする。

●動詞・形容詞も登録できるようにするが、記述の繁雑さをさけて流通を促進するため、記述できる詳細情報は典型的な型に制限する。詳細情報の記述は拡張言語標準に従って行なうこととする。

●いわゆる「処理する」のようなサ変動詞も終止形登録として動詞の一つの型として扱う。例えば、「導入」「導入する」といったいわゆるサ変名詞・サ変動詞の場合には、名詞と動詞の二つのエントリに分けて登録する。つまり「導入」という見出しを名詞として作り、訳語として「introduction」のような英語の名詞を与える。これとは別に「導入する」という見出しを動詞として作り、訳語として「introduce」のような英語の名詞を訳語とする。

●日英・英日の登録を1回で済ませるために、英日・日英は共通形式とする。

 

4.2.記述情報

この方針に基づき、基本言語変換標準では以下の品詞を扱い、これ以外の品詞は拡張言語標準で扱うこととする。

日本語:名詞、動詞、形容詞、形容動詞、副詞

英語 :名詞、動詞、形容詞、副詞

一般に日本語の品詞と英語の品詞の対応は複雑であるが、記述を簡素化するため、日英の品詞の組み合わせは表1に示す内容とする。(略)

以下、各品詞において扱う情報を記述する。

■日本語にかかわる情報

・名詞

種類:普通名詞、固有名詞

意味分類:人、組織、その他具体物、場所、時間、その他抽象物

・動詞

活用型:一段、五段、カ変、サ変

格要素:が、を、に

格要素の意味制限

・形容詞

格要素:が

格要素の意味制限

・形容動詞

活用型:なだ型、のだ型

格要素:が

格要素の意味制限

・副詞

品詞情報のみ

■英語にかかわる情報

・名詞

冠詞指定:the/none

可算性:可算/不可算

数属性:常に複数扱/常に単数扱/その他

活用形:複数形

意味分類:人、組織、その他具体物、場所、時間、その他抽象物

・動詞

活用形:三単現、過去、過去分詞、現在分詞

格パターン:SV、SVC、SVO

格要素の意味制限

・形容詞

活用型:er-est型/more-most型/無変化

・副詞

活用型:er-est型/more-most型/無変化

・すべての品詞

先頭音:母音/子音

■格パターンのマッピング情報

・動詞

格対応:が=S、を=O など

・形容(動)詞

格対応:が=Sのみ

<注意>:

*日本語の活用語は終止形で、英語の動詞は原形、形容詞・副詞は原級で登録する。

*サ変動詞の語幹のみが名詞になる場合は、語幹を名詞として別途登録する。

*格要素の意味制限は、要素ごとにその格要素に許諾される意味分類を記述する。

 

4.3.記述例

本節では以上の情報の記述の例を示す。以下に示す例は、記述例のイメージを示したものであり、マークアップ形式、項目名、項目値など今後変更の可能性がある。

◆名詞の例

<エントリー>

<日見出し>本</日見出し>

<日品詞>名詞</日品詞>

<日意味>その他具体物</日意味>

<英見出し>book</英見出し>

<英品詞>名詞</英品詞>

<英意味>その他具体物</英意味>

<英可算性>可算</英可算性>

<英複数形>books</英複数形>

<英先頭音>子音</英先頭音>

</エントリー>

◆動詞の例

<エントリー>

<日見出し>食べる</日見出し>

<日品詞>動詞</日品詞>

<日活用型>一段</日活用型>

<日格パターン>が(人)、を(その他具体物)</日格パターン>

<英見出し>eat</英見出し>

<英品詞>動詞</英品詞>

<英先頭音>母音</英先頭音>

<英活用形>eats, ate, eaten, eating</英活用形>

<英格パターン> S(人)、O(その他具体物)</英格パターン>

<日英格対応>が=S、を=O</日英格対応>

</エントリー>

◆形容詞の例

<エントリー>

<日見出し>速い</日見出し>

<日品詞>形容詞</日品詞>

<日格パターン>が</日格パターン>

<英見出し>fast</英見出し>

<英品詞>形容詞</英品詞>

<英先頭音>子音</英先頭音>

<英活用型>er-est型</英活用型>

<英格パターン> S</英格パターン>

<日英格対応>が=S</日英格対応>

</エントリー>

 

4.4.エディタ

以上の情報を簡単に登録できるように専用のエディタを作成している。このエディタはユーザに辞書フォーマットを意識させずに情報を選択的にチェックするだけで登録が可能であり、また、削除、参照ができる.このためMTを使用せずに翻訳を行っている場合でも、他のユーザが登録した情報を参照することができ、最新語句情報が得られ翻訳生産性向上が可能になる。現時点では試用段階まで開発が進んでいる。

 

5.おわりに

本稿では、異システム間でユーザ辞書データを交換・流通させるための共通フォーマット(UPF)開発活動の概要を述べた。 ワーキンググループで原案を作成し、AAMT加盟メンバの承認を経て、MT業界の標準とし、電子ネットワークによってユーザ辞書データを流通させるのが目標である。現時点では、基本標準の仕様がほぼ固まっている。

今後は各システ ムのユーザ辞書との間の双方向変換の確認を行なう のと並行して、拡張標準の設計を行ない、今年度末に 基本・拡張の両仕様をFIXして一般公開する予定である。ただし仕様は検討段階においても適宜一般に公開する方針である。

この活動が、個人のもつ機械翻訳利用のノウハウ交換、辞書データ流通を活性化することによって、MT技術の普及に貢献し、日本人の外国語情報受発信を促進することを願っている。


Last Update : 21 Jun. 2002