ユーザー辞書共通フォーマット
UTXについて

Asia-Pacific Association for
Machine Translation
Top

2009/11/5更新

English version

このページの内容

 

パンフレット

UTXの最新情報がコンパクトにまとめられています。

↓この図(三つ折りパンフレット)は下のツールバーでスクロール、拡大、印刷などができます↓
(PDF版と同一の内容です)

 

 

三つ折りパンフレットと同一内容ですが、A4形式になっています。

UTXについて

背景

翻訳ソフトなどの機械翻訳システムを実用的に使用するには、ユーザー辞書を用いることが必須です。訳そうとしている文書で使われている専門用語や人名・地名などは、あらかじめユーザー辞書に登録することで、機械翻訳システムが訳せるようになります。

しかし、ユーザー辞書をせっかく作っても、仕様が機械翻訳システムごとに異なると、相互利用ができません。そのために、AAMTでは特定の機械翻訳システムによらず共通に利用できる、共有辞書の仕様を策定しています。1995年に、IPAの支援を受けてUPFと呼ばれる仕様が策定されました。その後、技術や利用方法のさまざまな変化を反映し、さらには実際のユーザーの意見を取り込むために、2006年から新しい仕様の策定が開始されました。その後、2007年8月に「UTX (Universal Terminology eXchange)」という名称が正式に決定されました。2009年には、UTX-Simple 1.0が策定されました。

UTXに関連する作業として、実際の辞書データの作成もしくは収集、さらにはそれらの辞書を継続的に作成・共有・蓄積するためのコミュニティの創設が構想されています。2009年現在では、実際に翻訳が必要とされている分野をいくつか選定し、その分野の辞書データの作成もしくは収集を行い、実際にその分野の方々にその辞書を使った翻訳を行っていただくことで、UTXの仕様のさらなる調整を行っています。

 

UTXの特長

シンプル

  • 分かりやすく、使いやすい「ユーザーのための辞書」

    • 最低限、見出し、訳語、品詞だけでも使用可能←作りやすい
    • 多言語にも対応
  • 共有のための情報も保持

    • 辞書作成者/作成日時

「専門用語」という観点

  • 分野を明確化

  • 一語一義

    • 1分野内では、1語1訳の方針
    • 特定の文脈(分野)で訳語が一義的に定まる語

明確なメリット

  • ユーザーにとって

    • 個々の特定分野での翻訳精度向上
    • インターネット、LANなどで他の人と辞書を共有
    • コミュニティを通じた辞書の共有と再利用
  • メーカーにとって

    • ユーザー辞書利用の促進による活性化
    • 新規需要の掘り起こし
    • メーカー固有の辞書項目も完全に保持

「みんなで作る辞書」共有辞書コミュニティの構築

  • 辞書を作成・共有・蓄積するための辞書コミュニティと流通インフラの確立
  • 公式辞書コミュニティでは、品質を保証した辞書を提供(AAMTか関連組織が管理)
  • オープン辞書コミュニティでは、オープンソース的な許諾による自由かつ無償で相互利用(AAMTか関連組織はホスティングのみを行う)
  • 「訳してねっと」との連携も検討

活用例

  • オープンソースのソフトウェアのローカライゼーション

 

  • 問題点1:翻訳対象のソフトウェアごとの用語がバラバラで、翻訳者の効率が悪く、ユーザーにとっても使いにくい。
    →UTXの利点1:異なるソフトウェア間で使用される用語(ユーザー インターフェースを含む)を統一できる。
    →ユーザーが覚えなくてはならない用語を減らす。
  • 問題点2:似たようなソフトウェアを新規に翻訳する際に、翻訳資産が活用されない。翻訳の蓄積がないので、新しい翻訳プロジェクトを開始するたびにゼロから作業する必要がある。
    →UTXの利点2:ユーザー辞書、用語集などの翻訳資産を蓄積・共有して再利用することで、効率的に翻訳できる。
  • 問題点3:多言語化が困難。
    →UTXの利点3:多言語対応の翻訳資産(ユーザー辞書・用語集)を蓄積・共有できるので、 多言語化を容易にできる。

  

  • 専門用語辞書・社内用語集として

  • 問題点:社内文書作成用の用語集と翻訳用の用語集がバラバラ。特定分野の専門知識を社内で蓄積したいが、形式がバラバラで生かせない。
    →UTXの利点:単一言語の用語集としても柔軟に利用できる。統一された規格なので、さまざまなツールとのデータのやり取りが簡単。既存の用語集からの取り込みも容易にできる。

  • 個人間での異文化間コミュニケーション

  • 問題点:海外の作家や、映画の俳優にファンレターを出したいが固有名詞が分からない。スポーツやゲームについて、海外の友人と気軽にチャットしたいが、選手名やゲームの用語が分からない。
    →UTXの利点:市販の専門辞書には載っていないニッチな用語集が機械翻訳で利用できる。

 

  • 開発途上国向けの翻訳支援

  • 問題点1:NPOの活動などで、人手や資金が不足している。
    →UTXの利点1:翻訳支援や自動翻訳を低コストで行える。

  • 問題点2:対訳集や辞書の少ない言語がある。また医療など特定分野の辞書が少ない場合もある。
    →UTXの利点2:辞書コミュニティに集中して蓄積がされるため、対訳集の少ない言語でも徐々に辞書が構築できる。

各種ツールの活用・開発

  • 用語抽出・辞書作成ツール

一語一語登録するのではなく、原文を解析して一括して必要な辞書登録を行うためのツール。

  • UTX変換ツール(正規化ツールを含む)

翻訳ソフトや翻訳サイト独自の形式と、UTX形式を相互に変換するツール。UTX形式の仕様が正しく実装されているか検証する正規化ツールを含む。

  • 辞書検索ツール(用語集検索ツール)

辞書や用語集を直接検索して参照できるツール。

ダウンロード

UTX-Simple 1.0仕様

近日公開予定。パンフレットもご覧ください。

辞書データ

名称と分野 翻訳方向 著作者 ライセンス 辞書バージョン 収録語数
Computational Linguistics Term List 英日 Francis Bond クリエイティブ コモンズ 3.0、表示(CC-BY)   4092
日英 Francis Bond クリエイティブ コモンズ 3.0、表示(CC-BY)   4123
医学用語集(北里大学 医療情報学研究室) NEW!! 英日 北里大学医療衛生学部 医療情報学研究室 クリエイティブ コモンズ 3.0、表示(CC-BY) 1.00 27126
法令用語日英標準対訳辞書NEW!! 英日(正式名称は「日英」だが英日として変換) 日本国 クリエイティブ コモンズ 3.0、表示-改変禁止(CC-BY-ND) 1.00 5451

 

  • AAMT用語辞書(サンプル)

論文・学会発表

問い合わせ先

 

UTXに関してご関心のある方は以下のフォームでお問い合わせください。辞書やツールをご提供いただける方、辞書やツールの開発にご協力いただける方、仕様策定に関心のある企業や団体も募集しています。

'*'のついた項目は必ずご記入ください。

氏名(漢字)*
電話番号*
メールアドレス*
会社・団体名
種別* 個人 企業・団体 その他
対象言語、分野、
その他コメント
AAMTからのお知らせメール(不定期)を希望しますか?* はい いいえ
 

ご注意: 本サイトは現在SSLに対応しておりません。そのため、このフォームに入力した情報は暗号化されずにサーバーまで送信されますのでご了承ください。

 

免責事項

UTX、UTX-Simple、UTX-XMLの仕様(以下、これらを総称して「UTX仕様」という)またはUTX仕様に基づいて作成された辞書(以下、「UTX辞書」という)を利用した場合は、以下の事項に同意したものとみなされます。本事項のいずれかが無効または強制不能とされた場合、そのことはいかなる意味でも他の条項の有効性または強制可能性に影響を与えないものとします。

1.AAMTおよびAAMT参加者からUTX辞書および関連ツールの作成者へ

(1)UTX仕様は公開されており、どなたでもご使用頂けます。ただし、AAMTおよびAAMT参加者はUTX仕様に関する権利を放棄しておらず、どなたであってもUTX仕様を改変して公開することはできません。

(2)UTX辞書の作成に際して、AAMTおよびAAMT参加者はUTX仕様を現状有姿のまま提供するものであり、UTX仕様に関する一切の事柄を保証しません。UTX仕様およびUTX辞書は、UTX辞書の作成者各位の責任においてご使用ください。

(3)AAMTおよびAAMT参加者は、UTX辞書の作成者がUTX仕様やUTX辞書を使用した結果(権利侵害の有無・訳語の正確性・妥当性・品質を含むがこれに限らない)に関して、一切の責任を負いません。

(4)AAMTおよびAAMT参加者は、UTX辞書の作成者が作成した辞書の著作権の正当性について確認をせず、保証もしません。従って、UTX辞書の作成者が当該UTX辞書に関するデータについて適切な著作権を保有していない場合、法律的な問題が発生しても、UTX辞書の作成者の責任となります。

(5)AAMTおよびAAMT参加者は、UTX辞書の作成者に、適切な著作権を行使できる場合に限り、商業使用を含め、UTX辞書の使用者へのUTX辞書のライセンス条件を定めることを認めます。ただし、UTX辞書の作成者は、UTX辞書の基盤となるデータの著作権について、個別にデータの提供元に確認する義務があります。

(6)AAMTおよびAAMT参加者は、UTX辞書に関する各種ツールの作成者に対して、当該ツールの使用結果についてなんらの保証もしません。

2.UTX辞書の作成者からUTX辞書の使用者へ

UTX辞書の使用者は、UTX辞書を、UTX辞書の作成者が定めるライセンス条件に応じて使用できます。UTX辞書のライセンスは辞書によってそれぞれ異なりますので、UTX辞書を構成するファイルの先頭部分に含まれるライセンス条件をご確認ください。

3.AAMTおよびAAMT参加者からUTX辞書の使用者へ

AAMTおよびAAMT参加者は、AAMTおよびAAMT参加者は、UTX辞書の使用者がUTX仕様やUTX辞書を使用した結果(権利侵害の有無・訳語の正確性・妥当性・品質を含むがこれに限らない)に関して、一切の責任を負いません。UTX辞書の作成者との間で解決をお願いします。
 

All Rights Reserved, Copyright (C) AAMT, 1996-2009