用語集形式UTX

Asia-Pacific Association for Machine Translation
アジア太平洋機械翻訳協会
目次

(English version)

UTXホーム

UTXとは

UTXについてよくある質問と回答

ダウンロード

ツール

業績・論文・学会発表・記事

問い合わせ先

更新日:2014/5/1

UTXについてのFAQ(よくある質問)

基本

用語集の作成には多くの手間がかかるので、したくありません。
時間と金の無駄ではないでしょうか。

実際のところ、用語集を作らないことこそ、時間の浪費です。用語集なしで文書の作成や翻訳をすると、非常に時間がかかり、苦労することがあります。用語集を作成すれば、時間を節約できます。その他の人々が参照できる用語集という形式で、信頼性が高い情報を持っていれば、間違いを減らせます。他のだれかがすでに知っている用語を、(ご自身を含め)多くの人がそのつど確認して時間を無駄に費やす必要がなくなります。複数の用語の候補がある場合に、どの用語が最良かと思い悩むことがなくなります。

また、用語集なしで、文書作成やソフトウェア開発をすると、費用の浪費につながります。アプリケーションにすばらしい機能を付けようとして多くの費用を費やしても、機能の命名が不適切で一貫性がなければ、ユーザーはその存在にすら気づきません。一貫した用語集を使用すれば、このようなことを防げます。

用語集の作成は難しくないですか?

その点は、まさにUTXがお手伝いできることです。UTXは、最小限のシンプルなルールを使うことで、用語集の作成と保守を大幅に単純化します。

AAMTは、UTXから利益を得ているのですか?

いいえ。UTXチームのメンバー(すなわちAAMTメンバー)は献身的なボランティアです。UTXチームの活動は、AAMTから資金を受けています。

UTXの詳細はどこで見られますか?

パンフレット、仕様、サンプル辞書をダウンロードできます。

他人と用語集を共有したくありません。

それは残念です。ただ、UTXを使用すれば、自分の辞書を共有しなくても、その他のUTX用語集を自分の用語集に簡単に結合できるという利点もあります。

UTX用語集の作成に関して

役立つ用語集を作成するには何千も項目が必要でしょうか?

とんでもありません! UTXチームの調査結果では、わずか50項目の用語集が、4000語の文書の機械翻訳の品質を向上することが示されました (2011年にアモイのMT Summit XIIIで発表)。UTX用語集が、人間翻訳者の全体的な作業効率をどのように向上できるかの測定はより困難です。しかし、用語集の利点には、読み手にとって文書をより読みやすくし、より理解を深めることも含まれます。

UTX用語集には、どのような種類の用語を含める必要がありますか?

基本的に、UTX用語集には、特定分野の専門用語のみを含めます。このような用語の大部分は複合名詞です。詳細については、パンフレットと仕様を参照してください。

UTX用語集はどうやって編集できますか?

UTXは、(Microsoft ExcelまたはLibreOfficeのような)表計算アプリケーション、あるいはUTF-8に対応したテキスト エディター (たとえばWindowsに付属する「メモ帳」) で編集できます。

UTX用語集に文を含めることはできますか?

UTX用語集に文を含めることはできますが、文は、TMXのような、翻訳メモリー形式のほうが適切に扱えます。絶対に必要でないかぎり、UTX用語集からは文を除外することを推奨します。一般的に、あまりにも長すぎる用語は、UTX用語集には含めないようにすべきです。また、用語を一定の長さに収めれば、表形式での列を読みやすくできます。

UTX用語集は高品質ですか?

UTX用語集は、項目を手作業で精選し、辞書管理者が検査していることから、高品質であるはずです。これに対して、自動的に生成された生の用語集データには、翻訳品質の質を落とす多くの不適切な項目が含まれます。この状況は「ビッグ データ、ビッグ ノイズ」とも言えます(ここでのノイズとは「不要な情報」という意味です)。辞書管理者は、UTXの用語ステータスの属性により、さまざまな用語提出者から収集した用語を承認、または却下できます。

UTXを使用して用語を正規化(ばらつきをなくすこと)ができますか?

はい。詳細な手順は、今後ご紹介する予定です。

自分でUTX用語集を作成するためにAAMTにお金を払う必要がありますか?

いいえ。AAMTは、UTX仕様の使用に対して対価を求めません。

既存のUTX用語集を変更、または販売できますか?

用語集のヘッダーに含まれる使用許諾に依存します。UTX仕様は、用語集の使用許諾を明記することを推奨しています。クリエイティブ コモンズはお薦めです。法的に妥当であれば、辞書にどのような使用許諾を宣言することもできます。自社での内部使用に限定することもできます。しかし、UTX用語集は、共有すれば、より役立ち、充実したものになります。

1つの用語に対して、ただ1つの訳語を選択することは不可能です。
どうしたら「一語一義」を実践できますか? 

この原則に抵抗を感じる場合、以下のような問題があるかもしれません。

1.あなたが文書の作成者である場合、特定の用語に対して、複数の意味を持たせていませんか? 

技術文書では、あいまいな用語を使わないようにする必要があります。単一の意味を表すのに複数の用語を使用することや、複数の意味を単一の用語で表そうとすることは避けるべきです。たとえば、"terms"には、「用語」と「合意」の他、多くの意味があります。特に、文章の主要なトピックが「用語」の場合は、「合意」の意味で"terms"という語は使わないようにします。あいまいな用語を使用する必要がある場合、そのような各用語は明確に定義し、それぞれの異なる適切な用法を示すよう区別する必要があります。

2.1つの用語集に複数の分野を混在させていませんか?

原則として、1つの分野には、1つの用語集を使用します。翻訳プロジェクトで、複数分野、たとえば、医療機器を扱う場合、医学用語集、機械用語集、医療機器自体の用語集、またはその他の用語集を必要とすることがあります。このようなプロジェクト全体で単一の用語集を使用すると、分野の区切りがなく、再利用が困難になります。

複数の分野からの項目が、適切な理由なく1つの用語集に含まれる状況は「分野汚染」と呼ぶことができます。異なる分野では、異なる用語を必要とします。たとえば、"file"と"window"は、建築分野では「やすり」と「窓」ですが、IT分野では「ファイル」と「ウィンドウ」です。1つの分野で1つの用語集を管理している場合、1つの原語に対して1つの訳語があれば十分です。

翻訳発注者/翻訳会社向け

(翻訳発注者/翻訳会社として)UTXを使用するべき理由はなんですか? 

専門用語が適切に翻訳されずに、失望したことはありませんか? 用語集を作成するだけでその失望は避けられたかもしれません。

機械翻訳でUTXを使用する計画がなくても、UTXはシンプルな用語管理として活用できます。適切な理解、合意、取り決めを経て、個人翻訳者から新しい訳語候補を収集できます。そこから、自社の用語集を作成して、使用できます。

RBMT(こちらも参照)を使用する計画がある場合、UTX用語集に基づいて、高品質のユーザー辞書を簡単に作成できます。

書籍やゲームを翻訳しています。どのようにUTXを使用できますか? 

書籍またはゲーム ソフトウェアでは大量の用語があり、その多くは固有名詞です。人名、地名、技能やアイテムの名前などでしょう。これらは、実際にはすべて専門用語です。用語集なしでは、数千語の用語を、数か月にわたる翻訳中、適切に管理できません。書籍の読者なら、バラバラの訳語を見て混乱するでしょうし、ゲームのユーザーならまともにプレイできずに怒るでしょう。また、翻訳には多くの翻訳者とチェッカーが関わるはずです。UTXは、用語ツールを使用してもしなくても、複数の翻訳者およびチェッカー間での、用語の使用を正規化するために非常に役立ちます。

UTXを使用する翻訳プロジェクトを提案したいのですが? 

喜んで! 連絡フォームでご連絡ください。

UTXでなぜ翻訳生産性が向上できるのか理解できません。

おそらく、UTX用語集を再利用していないためです。UTXは、さまざまなユーザー、ツール、および環境間で再利用され共有されるとき、最大の効果を発揮します。

良いUTX用語集を作成するにはスタイル ガイドを持つ必要がありますか? 

一貫性を維持する目的で、スタイル ガイドを持つことを強くお薦めします。英語とその他の言語では、確立された、さまざまなスタイル ガイドを使用できます。日本語では、JTF標準スタイル ガイドを使用できます。

機械翻訳に関して

なぜUTXはXMLではなくタブ区切り形式なのですか?

UTXはシンプルであるように設計されています。UTX用語集は極めてシンプルなので、わずか3つの必須指定の列(原語、訳語、品詞)だけで成り立ちます。これらの列を扱うには、XMLを使用する必要はありません。

そんなにシンプルなら、なぜファイル形式とする必要があるのでしょうか?

多くのオンライン用語集がウェブで公開されていますが、それらの多くは使いにくいものとなっています。これらの用語集は、最善慣行に従っていません。このような用語集には、一般的に、さまざまな使用状況での優先順位や説明がないまま、類似の項目が含まれています。各項目は整形化されておらず、語の基本形(単数形または原形)を示していません。UTXはシンプルに見えますが、特定の仕様に従うことで用語集として目的を確実に果たせます。

UTXは、TBX、TBX-Basic、またはその他の既存の用語集形式を置き換えるものですか?

いいえ。UTX用語集は、翻訳者が手作業で選ぶ技術用語の集合として、ゼロから作成できます。UTXは、非常にわずかの作業で作成できます(以下の図を参照)。より大きい翻訳プロジェクトで使う、大規模で複雑な用語ベースの基盤となります。しかし、小・中規模の翻訳プロジェクトでは非常に役立ちます。

 

UTXとTBXの位置付け

TBX、TBX-Basic、またはその他の既存の用語集形式のなにが問題なのでしょうか?

問題というわけではありません。ただこれらは、多様な用語提出者にとっては複雑過ぎます。用語提出者は、XMLやさまざまな用語集形式の詳細に慣れていないかもしれません。ただ適切な訳語を知っているだけのプロ翻訳者であることもあります。

このような知識を実際に使用できる用語集の形で使用できれば、すばらしいでしょう。

(翻訳ソフトの)システム辞書とユーザー辞書の違いはなんですか? 

(ルールベースの)翻訳ソフトは、システム辞書とユーザー辞書の2種類の辞書を使用します。システム辞書は、最良の翻訳結果を得る目的で細かく調整された、定義済みの用語の集合です。ユーザー辞書とは、特定の翻訳プロジェクトでの翻訳品質をさらに向上させる目的で、ユーザーが定義し、追加した用語の集合です。この目的のため、ユーザー辞書の項目は、通常、システム辞書の項目より優先的に使用されます。通常、システム辞書にすでに含まれる項目は、ユーザー辞書からは除外する必要があります。しかし、ユーザーは、ユーザー辞書にこのような用語を意図的に追加することにより、システム辞書の訳語に優先して、より適切な訳語を選択できます。

用語集と(翻訳ソフトの)ユーザー辞書の違いはなんですか?

「用語集」とは、ユーザーあるいはソフトウェアが使用する専門用語の集合です。用語集には、翻訳ソフトでは使用されない用語の「定義」や「詳細」が含まれることがあります(用語集を翻訳ソフトが使用するには、翻訳ソフトに使える形式にする必要があります)。これに対して、ユーザー辞書は、翻訳ソフトで使う目的で作成され使用されます。用語集はユーザー辞書に変換できます。変換直後では、用語集とユーザー辞書の内容はよく似ています。しかし、ユーザー辞書には、人間が使用しない追加の属性または項目が含まれることがあります。一般的に、充実した用語集は、高品質なユーザー辞書の非常によい元データとなります。

開発者向け (機械翻訳他)

UTX仕様は、RBMT(ルールベース機械翻訳)を念頭に策定されたのですか?

はい。しかし、UTXはほとんどすべての翻訳ツールと用語ツールで使用できます。

AAMTはなぜUTX形式を作成したのですか? 背景はなんですか?

SYSTRANのような商用翻訳ソフトは世界的に知られています。AAMTの所在地は日本ですが、日本の翻訳ソフトは、日本人以外のユーザーはなじみがないかもしれません。UTX仕様は、日本製、または日本語のソフトウェアに限定されていませんが、UTXが日本で作られた背景を知ると、より深く理解できるはずです。日本には、さまざまな商用RBMT翻訳ソフト パッケージがあります。これらのハイエンドのソフトには、出荷時に、7~800万の基本および技術用語が付属しています。これらのソフトは極めて高機能で、翻訳のさまざまな側面を制御できるように30以上ものオプションを持っています(SYSTRANのハイエンド バージョンには、日本語に関して2つのオプションしかありません)。これらのソフトは、ユーザー辞書の活用を推測できるため、各用語項目の詳細な属性を与える必要はありません。

それでも、翻訳ソフトでよい翻訳結果を得るには、優れた用語集を必要とします。大規模な辞書群は翻訳品質を向上できることもあります。しかし、辞書品質が適切に維持されなければ、翻訳品質を低下させることもあります。私たちの研究では、UTX用語集内の用語は、適切に選択されていれば、項目数が少なくても、大きく翻訳品質を向上できることが証明されました。これが、適切な技術用語を翻訳に反映する目的で、AAMTがシンプルな用語集形式を作成した理由です。

当社ではSMT(統計機械翻訳)を使用しています。用語集は不要です。

はたしてそうでしょうか。SMTを使用しており、翻訳品質を保証する必要がある場合、そのプロジェクトでは用語検証用に個別の過程が必要になります(用語検証は、RBMTではシステムに統合されています)。翻訳するときに用語集を使用しなくても、品質保証の目的で使用する必要があります。個別の用語検証過程が必要ということは、余分な時間と作業も必要ということになります。

UTXを変換するとき、情報損失のある変換過程になりますか?

場合によります。UTXでは、追加の列を定義することにより、どのような情報でも含めることができますが、そうすることは最善とは限りません。多数の追加の属性を保持する必要がある場合、その他のXMLベースの形式の使用を検討したほうがよいことがあります。しかし、ある形式を別の形式に変換するとき、実際には、ごく一部の、特定の属性のみが重要であるはずです。

なぜUTXにはわずかな用語属性しか事前定義されていないのですか?

このような属性は、翻訳の正確さや適切さの向上にはわずかしか貢献しません。複雑さを減らすことのほうがより重要です。

用語集を提供したいです。/変換ツールを作成したいです。

ありがとうございます。連絡フォームでご連絡ください。

UTX仕様について提案したいことがあるのですが。

喜んで伺います! 連絡フォームでご連絡ください。