標準化活動 | 活動

用語集形式(ユーザー辞書形式)UTXについて

English version


無料で共有できるUTX用語集の普及のため、クイック ガイドとパンフレットの配布にご協力お願いいたします。

クイックガイド

A4版2枚。一目で理解できる、図解入りのUTXの基本情報。用語集でありがちな悪例の指摘と、用語集情報の記述法も解説しています。下記のパンフレットとあわせてご覧ください。

 

    パンフレット

    UTXの最新情報がコンパクトにまとめられています。

    ↓この図(三つ折りパンフレット)は下のツールバーでスクロール、拡大、印刷などができます↓
    (PDF版と同一の内容です)

     

     

    三つ折りパンフレットと同一内容ですが、A4形式になっています。

    UTXについて

    背景

    翻訳ソフトなどの機械翻訳システムを実用的に使用するには、ユーザー辞書を用いることが必須です。訳そうとしている文書で使われている専門用語や人名・地名などは、あらかじめユーザー辞書に登録することで、機械翻訳システムが訳せるようになります。

    しかし、ユーザー辞書をせっかく作っても、仕様が機械翻訳システムごとに異なると、相互利用ができません。そのために、AAMTでは特定の機械翻訳システムによらず共通に利用できる、共有辞書の仕様を策定しています。1995年に、IPAの支援を受けてUPFと呼ばれる仕様が策定されました。その後、技術や利用方法のさまざまな変化を反映し、さらには実際のユーザーの意見を取り込むために、2006年から新しい仕様の策定が開始されました。その後、2007年8月に「UTX (Universal Terminology eXchange)」という名称が正式に決定されました。2009年には、UTX-Simple 1.0が策定されました。 2011年4月から、UTX-Simpleは、単に「UTX」と呼ばれることになりました。

    UTXに関連する作業として、実際の辞書データの作成もしくは収集、さらにはそれらの辞書を継続的に作成・共有・蓄積するためのコミュニティーの創設が構想されています。2011年現在では、実際に翻訳が必要とされている分野をいくつか選定し、その分野の辞書データの作成もしくは収集を行い、実際にその分野の方々にその辞書を使った翻訳を行っていただくことで、UTXの仕様のさらなる調整を行っています。

     

    UTXの特長
    シンプル
    • 分かりやすく、使いやすい「ユーザーのための辞書」

      • 最低限、見出し、訳語、品詞だけでも使用可能←作りやすい
      • 各国言語に対応
    • 共有のための情報も保持

      • 辞書作成者/作成日時
    「専門用語」という観点
    • 分野を明確化
    • 一語一義
      • 1分野内では、1語1訳の方針
      • 特定の文脈(分野)で訳語が一義的に定まる語
    明確なメリット
    • ユーザーにとって
      • 個々の特定分野での翻訳精度向上
      • インターネット、LANなどで他の人と辞書を共有
      • コミュニティを通じた辞書の共有と再利用
    • メーカーにとって
      • ユーザー辞書利用の促進による活性化
      • 新規需要の掘り起こし
      • メーカー固有の辞書項目も完全に保持
    「みんなで作る辞書」共有辞書コミュニティの構築
    • 辞書を作成・共有・蓄積するための辞書コミュニティと流通インフラの確立
    • 公式辞書コミュニティでは、品質を保証した辞書を提供(AAMTか関連組織が管理)
    • オープン辞書コミュニティでは、オープンソース的な許諾による自由かつ無償で相互利用(AAMTか関連組織はホスティングのみを行う)
    • 「訳してねっと」との連携も検討
    活用例
    • オープンソースのソフトウェアのローカライゼーション

     

    • 問題点1:翻訳対象のソフトウェアごとの用語がバラバラで、翻訳者の効率が悪く、ユーザーにとっても使いにくい。
      →UTXの利点1:異なるソフトウェア間で使用される用語(ユーザー インターフェースを含む)を統一できる。
      →ユーザーが覚えなくてはならない用語を減らす。
    • 問題点2:似たようなソフトウェアを新規に翻訳する際に、翻訳資産が活用されない。翻訳の蓄積がないので、新しい翻訳プロジェクトを開始するたびにゼロから作業する必要がある。
      →UTXの利点2:ユーザー辞書、用語集などの翻訳資産を蓄積・共有して再利用することで、効率的に翻訳できる。
    • 問題点3:多言語化が困難。
      →UTXの利点3:翻訳資産(ユーザー辞書・用語集)を蓄積・共有できるので、 多言語化を容易にできる。

      

    • 専門用語辞書・社内用語集として
    • 問題点:社内文書作成用の用語集と翻訳用の用語集がバラバラ。特定分野の専門知識を社内で蓄積したいが、形式がバラバラで生かせない。
      →UTXの利点:単一言語の用語集としても柔軟に利用できる。統一された規格なので、さまざまなツールとのデータのやり取りが簡単。既存の用語集からの取り込みも容易にできる。

    • 個人間での異文化間コミュニケーション
    • 問題点:海外の作家や、映画の俳優にファンレターを出したいが固有名詞が分からない。スポーツやゲームについて、海外の友人と気軽にチャットしたいが、選手名やゲームの用語が分からない。
      →UTXの利点:市販の専門辞書には載っていないニッチな用語集が機械翻訳で利用できる。

     

    • 開発途上国向けの翻訳支援
    • 問題点1:NPOの活動などで、人手や資金が不足している。
      →UTXの利点1:翻訳支援や自動翻訳を低コストで行える。

    • 問題点2:対訳集や辞書の少ない言語がある。また医療など特定分野の辞書が少ない場合もある。
      →UTXの利点2:辞書コミュニティに集中して蓄積がされるため、対訳集の少ない言語でも徐々に辞書が構築できる。

    各種ツールの活用・開発
    • 用語抽出・辞書作成ツール

    一語一語単語登録するのは労力を要します。原文を解析し、既存の辞書や新規の辞書に、一括して辞書登録を行うためのツールが必要となります。

    • UTX変換ツール(正規化ツールを含む)

    翻訳ソフトや翻訳サイト独自の形式と、UTX形式を相互に変換するツール。UTX形式の仕様が正しく実装されているか検証する正規化ツールを含 みます。

    • 変換ツールutx-conv

      utx-convは、perlでの変換ツールです。UTXと各社の翻訳ソフトの形式を相互に変換します。Francis Bond氏によって開発され、パブリック ドメインです。公開は現在準備中です。開発に関心のある方はご連絡ください

    convert_glossary(左記リンク先ページの下のリンク)は 、Translation, Training/education, and Testingによって開発された、TBX-Glossary(*.tbx)、UTX-Simple(*.utx)、GlossML(*.gml)、OLIF(*.olf)の各用語形式を相互に変換するツール です。ファイルの出力先は、パスは指定せず、変換先のファイル形式の拡張子を伴うファイル名を指定します。たとえばUTXからTBXに変換する場合は、出力先としてtest.tbxのように指定します。

  • 辞書検索ツール(用語集検索ツール)

    辞書や用語集を直接検索して参照できるツール。

    下記のソフトはUTXを使用することができます(UTXに正式対応しているとはかぎりません)。

    • OmegaTはUTX辞書を用語集として使用できます。
    • ApSIC XbenchはUTX辞書を用語集として使用できます。UTX辞書のエンコードをシフトJISかBOM付きUTF-8に変更します。読み込み時に"Tab-delimited Text File"として選択します。

     

    ダウンロード

    UTX仕様書

    UTX-Simple1.10での主な変更点

    • 用語ステータス (provisional、non-standard、approved、forbidden)
    • 辞書管理者、用語提出者
    • 概念IDと辞書ID

    UTX 1.11での主な変更点

    • UTX-Simpleの呼称を単に「UTX」と変更
    • 辞書の最初の行のバージョン表記をUTX-SからUTXに変更
    • 説明の追加

     

    辞書データ
    名称と分野 翻訳方向 著作者 ライセンス 辞書バージョン 収録語数
    Computational Linguistics Term List 英日 Francis Bond クリエイティブ コモンズ 3.0、表示(CC-BY)   4092
    日英 Francis Bond クリエイティブ コモンズ 3.0、表示(CC-BY)   4123
    医学用語集(北里大学 医療情報学研究室) 英日 北里大学医療衛生学部 医療情報学研究室 クリエイティブ コモンズ 3.0、表示(CC-BY) 1.01 27126
    法令用語日英標準対訳辞書 正式名称は「日英」だが双方向で使用可能 日本国 クリエイティブ コモンズ 3.0、表示-改変禁止(CC-BY-ND) 1.01 5451

     

    • AAMT用語辞書(サンプル)

    論文・学会発表・記事

    • 「共有ユーザー辞書仕様UTXの現状と今後の展開」2007年、言語処理学会 、第13回年次大会で発表(PDF形式)。
      この論文はUTX-Simple 0.90について述べています。
    • 2009/11 LISA China Focusで発表 (北京)。
    • 2011/2 LISA Open Standards Summit (ボストン)で発表。
    • 2011/3 自然言語処理学会で発表。
    • 2011/5 翻訳専門雑誌MultiLingual 6月号にUTX1.11仕様を掲載(英文)
      (最初の1ページのみ試読できます。冒頭にUTXの背景説明が追記されています。)

    問い合わせ先

    UTXに関してご関心のある方は以下のフォームでお問い合わせください。辞書やツールをご提供いただける方、辞書やツールの開発にご協力いただける方、仕様策定に関心のある企業や団体も募集しています。

    '*'のついた項目は必ずご記入ください。

    氏名(漢字)*
    電話番号*
    メールアドレス*
    会社・団体名
    種別* 個人 企業・団体 その他
    対象言語、分野、
    その他コメント
    今後、UTXの情報を希望される場合は、UTXメーリングリストにご参加ください。
    (AAMTの管理外となりますが、どなたでも参加できます)
     

    ご注意: 本サイトは現在SSLに対応しておりません。そのため、このフォームに入力した情報は暗号化されずにサーバーまで送信されますのでご了承ください。

     

    免責事項

    UTX、UTX-Simple、UTX-XMLの仕様(以下、これらを総称して「UTX仕様」という)またはUTX仕様に基づいて作成された辞書(以下、「UTX辞書」という)を利用した場合は、以下の事項に同意したものとみなされます。本事項のいずれかが無効または強制不能とされた場合、そのことはいかなる意味でも他の条項の有効性または強制可能性に影響を与えないものとします。

    1.AAMTおよびAAMT参加者からUTX辞書および関連ツールの作成者へ

    (1)UTX仕様は公開されており、どなたでもご使用頂けます。ただし、AAMTおよびAAMT参加者はUTX仕様に関する権利を放棄しておらず、どなたであってもUTX仕様を改変して公開することはできません。

    (2)UTX辞書の作成に際して、AAMTおよびAAMT参加者はUTX仕様を現状有姿のまま提供するものであり、UTX仕様に関する一切の事柄を保証しません。UTX仕様およびUTX辞書は、UTX辞書の作成者各位の責任においてご使用ください。

    (3)AAMTおよびAAMT参加者は、UTX辞書の作成者がUTX仕様やUTX辞書を使用した結果(権利侵害の有無・訳語の正確性・妥当性・品質を含むがこれに限らない)に関して、一切の責任を負いません。

    (4)AAMTおよびAAMT参加者は、UTX辞書の作成者が作成した辞書の著作権の正当性について確認をせず、保証もしません。従って、UTX辞書の作成者が当該UTX辞書に関するデータについて適切な著作権を保有していない場合、法律的な問題が発生しても、UTX辞書の作成者の責任となります。

    (5)AAMTおよびAAMT参加者は、UTX辞書の作成者に、適切な著作権を行使できる場合に限り、商業使用を含め、UTX辞書の使用者へのUTX辞書のライセンス条件を定めることを認めます。ただし、UTX辞書の作成者は、UTX辞書の基盤となるデータの著作権について、個別にデータの提供元に確認する義務があります。

    (6)AAMTおよびAAMT参加者は、UTX辞書に関する各種ツールの作成者に対して、当該ツールの使用結果についてなんらの保証もしません。

    2.UTX辞書の作成者からUTX辞書の使用者へ

    UTX辞書の使用者は、UTX辞書を、UTX辞書の作成者が定めるライセンス条件に応じて使用できます。UTX辞書のライセンスは辞書によってそれぞれ異なりますので、UTX辞書を構成するファイルの先頭部分に含まれるライセンス条件をご確認ください。

    3.AAMTおよびAAMT参加者からUTX辞書の使用者へ

    AAMTおよびAAMT参加者は、AAMTおよびAAMT参加者は、UTX辞書の使用者がUTX仕様やUTX辞書を使用した結果(権利侵害の有無・訳語の正確性・妥当性・品質を含むがこれに限らない)に関して、一切の責任を負いません。UTX辞書の作成者との間で解決をお願いします。
     

    ▲TOP

    Last Updated: 17 Jun. 2014