機械翻訳ユーザー辞書共通フォーマット UTXについて

Asia-Pacific Association for
Machine Translation
Top

2007/8/28更新

背景

翻訳ソフトなどの機械翻訳システムを実用的に使用するには、ユーザー辞書を用いることが必須です。訳そうとしている文書で使われている専門用語や人名・地名などは、あらかじめユーザー辞書に登録することで、機械翻訳システムが訳せるようになります。

しかし、ユーザー辞書をせっかく作っても、仕様が機械翻訳システムごとに異なると、相互利用ができません。そのために、AAMTでは特定の機械翻訳システムによらず共通に利用できる、共有辞書の仕様を策定しています。1995年に、IPAの支援を受けてUPFと呼ばれる仕様が策定されました。その後、技術や利用方法のさまざまな変化を反映し、さらには実際のユーザーの意見を取り込むために、2006年から新しい仕様の策定が開始されました。その後、2007年8月に「UTX (Universal Terminology eXchange)」という名称が正式に決定され、仕様が検討されています。

UTXに関連する作業として、実際の辞書データの作成もしくは収集、さらにはそれらの辞書を継続的に作成・共有・蓄積するためのコミュニティの創設が構想されています。今年度は、実際に翻訳が必要とされている分野をいくつか選定し、その分野の辞書データの作成もしくは収集を行い、実際にその分野の方々にその辞書を使った翻訳を行っていただくことで、UTXの仕様の修正・確定を行っていきたいと考えています。   

UTXの特長

シンプル

  • 分かりやすく、使いやすい「ユーザーのための辞書」

    • 最低限、見出しと訳語だけでも使用可能←作りやすい
    • 多言語にも対応
  • 共有のための情報も保持

    • 辞書作成者/作成日時

「専門用語」という観点

  • 分野を明確化

  • 一語一義

    • 1分野内では、1語1訳の方針
    • 特定の文脈(分野)で訳語が一義的に定まる語

明確なメリット

  • ユーザーにとって

    • 個々の特定分野での翻訳精度向上
    • インターネット、LANなどで他の人と辞書を共有
    • コミュニティを通じた辞書の共有と再利用
  • メーカーにとって

    • ユーザー辞書利用の促進による活性化
    • 新規需要の掘り起こし
    • メーカー固有の辞書項目も完全に保持

「みんなで作る辞書」共有辞書コミュニティの構築

  • 辞書を作成・共有・蓄積するための辞書コミュニティと流通インフラの確立
  • 公式辞書コミュニティでは、品質を保証した辞書を有償提供(AAMTか関連組織が管理)
  • オープン辞書コミュニティでは、オープンソース的な許諾による自由かつ無償で相互利用(AAMTか関連組織はホスティングのみ)
  • 「訳してねっと」との連携も検討

活用例

  • オープンソースのソフトウェアのローカライゼーション

 

  • 問題点1:翻訳対象のソフトウェアごとの用語がバラバラで、翻訳者の効率が悪く、ユーザーにとっても使いにくい。
    →UTXの利点1:異なるソフトウェア間で使用される用語(ユーザー インターフェースを含む)を統一できる。
    →ユーザーが覚えなくてはならない用語を減らす。
  • 問題点2:似たようなソフトウェアを新規に翻訳する際に、翻訳資産が活用されない。蓄積がないので、新しい翻訳プロジェクトを開始するたびにゼロから作業する必要がある。
    →UTXの利点2:ユーザー辞書、用語集などの翻訳資産を蓄積・共有して再利用することで、効率的に翻訳できる。
  • 問題点3:多言語化が困難。
    →UTXの利点3:多言語対応の翻訳資産(ユーザー辞書・用語集)を蓄積・共有できるので、 多言語化を容易にできる。

  

  • 専門用語辞書・社内用語集として

  • 問題点:社内文書作成用の用語集と翻訳用の用語集がバラバラ。特定分野の専門知識を社内で蓄積したいが、形式がバラバラで生かせない。
    →UTXの利点:単一言語の用語集としても柔軟に利用できる。統一された規格なので、さまざまなツールとのデータのやり取りが簡単。既存の用語集からの取り込みも容易にできる。

  • 個人間での異文化間コミュニケーション

  • 問題点:海外の作家や、映画の俳優にファンレターを出したいが固有名詞が分からない。スポーツやゲームについて、海外の友人と気軽にチャットしたいが、選手名やゲームの用語が分からない。
    →UTXの利点:市販の専門辞書には載っていないニッチな用語集が機械翻訳で利用できる。

 

  • 開発途上国向けの翻訳支援

  • 問題点1:NPOの活動などで、人手や資金が不足している。
    →UTXの利点1:翻訳支援や自動翻訳を低コストで行える。

  • 問題点2:対訳集や辞書の少ない言語がある。また医療など特定分野の辞書が少ない場合もある。
    →UTXの利点2:辞書コミュニティに集中して蓄積がされるため、対訳集の少ない言語でも徐々に辞書が構築できる。

各種ツールの活用・開発

  • 用語抽出・辞書作成ツール

一語一語登録するのではなく、原文を解析して一括して必要な辞書登録を行うためのツール。

  • UTX変換ツール(正規化ツールを含む)

翻訳ソフトや翻訳サイト独自の形式と、UTX形式を相互に変換するツール。UTX形式の仕様が正しく実装されているか検証する正規化ツールを含む。

  • 辞書検索ツール(用語集検索ツール)

辞書や用語集を直接検索して参照できるツール。

参加企業・団体

問い合わせ先

UTXに関してご関心のある方は以下のフォームでお問い合わせください。辞書やツールをご提供いただける方、辞書やツールの開発にご協力いただける方、仕様策定に関心のある企業や団体も募集しています。

'*'のついた項目は必ずご記入ください。

氏名(漢字)*
電話番号*
メールアドレス*
会社・団体名
種別* 個人 企業・団体 その他
対象言語、分野、
その他コメント
AAMTからのお知らせメール(不定期)を希望しますか?* はい いいえ
 

ご注意: 本サイトは現在SSLに対応しておりません。そのため、このフォームに入力した情報は暗号化されずにサーバーまで送信されますのでご了承ください。