機械翻訳ユーザ辞書
共通フォーマット設定
Asia-Pacific Association for
Machine Translation
AAMTトップページ UPFトップページ 仕様書目次ページ


1 目的

▽次の章へ ▲ページ先頭へ
「日本語情報海外発信促進のための言語知識コンテンツ蓄積・流通支援ソフトの開発」の目的は、人々が個人的に所有している翻訳に関する言語知識を共有化し、相互利用していくためのしくみを提供することにある。そのしくみとは、複数の商用機械翻訳ソフトウェアで辞書データを交換できるような辞書ファイル構造を定義することと、それらを一般ユーザに広く公開してお互いのデータ交換ができるしくみであり、このしくみ全体を、言語変換ユニバーサルプラットフォーム(UPF)と名づける。

具体的にはまず、異なる機械翻訳ソフトウェア間で独立に定義されている辞書形式のうち、利用者に仕様が公開されているユーザ辞書を対象として、各メーカのユーザ辞書と相互変換が可能な「共通辞書」を想定し、記述形式と記述内容を標準化する。共通辞書の種類としては、単語の対の対訳を記述する対訳辞書を対象とする。標準化にあたっては、各メーカのユーザ辞書それぞれで記述内容のレベルや細かさの違いがあるため、それらをうまく吸収して、各メーカの翻訳ソフトにかけた場合に、翻訳品質に影響が出ないようにする必要がある。また、辞書形式は、将来の多言語への拡張を念頭においておく必要がある。

各機械翻訳ソフトウェア間でユーザ辞書の相互利用を可能とするために、対訳辞書の記述形式と記述内容の標準となる「UPF言語変換標準記述仕様」を開発する。UPF言語変換標準記述仕様は、機械翻訳処理に必須な情報である「基本言語変換標準記述仕様」と、翻訳精度を上げるために用いられる概念構造や格構造などの構造を定義するための「拡張言語変換標準記述仕様」とから構成される。

このUPF言語変換標準記述仕様を開発することで、今まで各機械翻訳ソフトウェア間では相互利用不可能だったユーザ辞書を、UPF言語変換標準記述仕様に準拠した辞書形式に変換することで、各機械翻訳ソフトウェアで利用可能なユーザ辞書となり得るとともに、新規にユーザ辞書を作成する場合は、UPF言語変換標準記述仕様に準拠して作成することにより相互利用可能な辞書とすることができる。

2 概要

▽次の章へ △前の章へ ▲ページ先頭へ
「UPF言語変換標準記述仕様」は、「基本言語変換標準記述仕様」と「拡張言語変換標準記述」に分けて開発を行なう。

一般に機械翻訳ソフトウェア用の対訳辞書に必須な情報である「品詞」や「活用」といった最低限の翻訳を可能とする情報である。これらは値まで共通化できる情報である。これが「基本言語変換標準記述仕様」である。

これに対して、「意味分類」や「英語の動詞が持つ文型(英語でSV、SVO、SVC、SVOO、SVOCのどの文型をとるか)」といった翻訳の質の向上に必要な情報が存在する。これらの情報は複数の機械翻訳ソフトウェア間でそれぞれ異なった構造を持っており、構造の異なるものを共通化することは不可能である。そこでこのような情報に対しては、情報を記述するための汎用的な記述形式だけを標準化する。これが「拡張言語変換標準記述仕様」である。

2.1 基本言語変換標準記述仕様の開発

「基本言語変換標準記述仕様」では「基本言語変換標準記述内容」と「基本言語変換標準記述形式」の開発を行なった。以下に開発作業の概要を記述する。

(1)基本言語変換標準記述内容の開発

(a)調査作業
複数の機械翻訳ソフトウェアのユーザ辞書に関する仕様を収集し、どのような辞書情報が必要なのか、各辞書情報に対してどのような値が許されるのかといった調査を行なった。

(b)標準案の作成作業

(a)の調査作業の結果を基に、各社のユーザ辞書に定義されている辞書情報の用語の定義を行なった。さらに、各ユーザ辞書に記述される辞書情報のうち、共通化できる辞書情報の検討を行ない、基本言語変換標準案を作成した。

(c)標準化検討・標準書作成作業

(b)の基本言語変換標準案を基に、各メーカーの機械翻訳ソフトウェアの開発に携わっている担当者とともに、基本言語変換標準の記述内容の検討を行なった。検討結果をもとに、基本言語変換標準の記述内容を品詞毎にまとめ、標準書を作成した。

(2)基本言語変換標準記述形式の開発

(a)調査作業
複数の機械翻訳ソフトウェアのユーザ辞書に仕様を収集し、見出し語として許される文字数制限、文字コードといった記述形式の調査を行なった。

(b)標準案の作成作業

(a)の調査作業の結果を基に、基本言語変換標準で採用する見出し語の文字数制限、文字コードといった辞書の記述形式に関する標準案の作成を行なった。

(c)標準化検討・標準書作成作業

(b)の標準案を基に、各メーカーの機械翻訳ソフトウェアの開発に携わっている担当者とともに、基本言語変換標準の記述形式の検討を行なった。検討結果をもとに、基本言語変換標準の記述形式を品詞毎にまとめ、標準書を作成した。

2.2 拡張言語変換標準記述仕様の開発

(1)拡張言語変換標準記述内容の開発

(a)調査作業
複数の機械翻訳ソフトウェアのユーザ辞書に関する仕様のうち、基本言語変換標準に採用した辞書情報以外で、どのような辞書情報が必要なのか、各辞書情報に対してどのような値が許されるのかといった調査を行なった。

(b)標準案の作成作業

(a)の調査作業の結果を基に、拡張言語変換標準に採用するべき辞書情報の整理を行なった。拡張言語変換標準案を作成した。

(c)標準化検討・標準書作成作業

(b)の拡張言語変換標準案を基に、各メーカーの機械翻訳ソフトウェアの開発に携わっている担当者とともに、拡張言語変換標準の記述内容の検討を行なった。検討結果をもとに、拡張言語変換標準の記述内容を品詞毎にまとめ、標準書を作成した。
(2)拡張言語変換標準記述形式の開発

(a)調査作業
複数の機械翻訳ソフトウェアのユーザ辞書に仕様を収集し、記述形式の調査を行なった。

(b)標準案の作成作業

(a)の調査作業の結果を基に、拡張言語変換標準で採用する辞書情報の記述形式に関する標準案の作成を行なった。

(c)標準化検討・標準書作成作業

(b)の標準案を基に、各メーカーの機械翻訳ソフトウェアの開発に携わっている担当者とともに、拡張言語変換標準の記述形式の検討を行なった。検討結果をもとに、拡張言語変換標準の記述形式を品詞毎にまとめ、標準書を作成した。

3 基本言語変換標準記述仕様の開発

▽次の章へ △前の章へ ▲ページ先頭へ
3.1 作成目的

一般に機械翻訳ソフトウェア用の対訳辞書には「品詞」や「活用」といった最低限の翻訳を可能とするための情報が記述されている。これらの辞書情報は機械翻訳ソフトウェア間で、共通化できる部分がかなりあると考えられる。そこで、これらの辞書情報を共通化することによって、複数の機械翻訳ソフトウェア間で、辞書の共有化が可能となる。辞書を共有化できれば、これまで特定の機械翻訳ソフトウェアでしか利用することができなかった辞書を、他の機械翻訳ソフトウェアで利用することが可能となる。この「基本言語変換標準記述仕様」開発することにより、複数の機械翻訳ソフトウェア間で、翻訳に最低限必要な辞書情報の共有化を図ることができる。共有化ができれば、これまで個人、あるいは企業レベルに留まっていた翻訳を行なうための言語知識が、お互いに利用できる形式になるため、機械翻訳ソフトウェアの翻訳品質向上に寄与することができる。

3.2 作業指針

基本言語変換標準は、各社のシステムで扱える最低限必要な辞書情報で、かつ各社のユーザ辞書の辞書情報で、項目値まで共通化が可能な辞書情報である必要がある。そこで、基本言語変換標準を開発する上で、以下のような方針を採った。

・ある辞書項目の項目値がユーザ辞書間で上位−下位関係にあるものは、下位のものを基本言語変換標準として採用する。
・他の情報との組み合わせによって、解釈可能なものは基本言語変換標準として採用する。
・基本言語変換標準として採用しない辞書情報は、拡張言語変換標準に採用するよう検討する。
例えば、以下のような日本語の品詞セットがあったとする。

A社のユーザ辞書で登録可能な日本語の品詞 : 名詞、動詞、形容詞、形容動詞、副詞
B社のユーザ辞書で登録可能な日本語の品詞 : 名詞、固有名詞、動詞、サ変動詞、形容詞、形容動詞、副詞、連体詞

この二つのユーザ辞書で、動詞、形容詞、形容動詞、副詞は問題無く基本言語変換標準の品詞として採用可能である。ところが、名詞と連体詞、サ変動詞はA社とB社でずれがある。そこで、上記の方針にしたがって、以下のように処理を行なった。

・名詞と固有名詞はA社のユーザ辞書では名詞として扱うことが可能なので基本言語変換標準に採用する。
・サ変動詞もA社では名詞または動詞として扱うことが可能なので基本言語変換標準に採用する。
・連体詞はA社では扱い機構がないので、基本言語変換標準に採用しない。

3.3 作業内容

(1) 調査作業

各企業が発売している機械翻訳ソフトウェアのユーザ辞書に関する資料を収集し、ユーザ辞書の仕様の調査を行なった。調査の対象とした機械翻訳ソフトウェアは以下の通りである。

機械翻訳ソフトウェア名販売会社
PIVOTNEC
ATLAS富士通
PC-Transerノヴァ
ASTRANSAC東芝
Duetシャープ

調査内容は以下中心とした。
@ユーザ辞書に登録可能な品詞。
調査対象とした機械翻訳ソフトウェアのユーザ辞書に関する資料から、登録可能な品詞に関する部分の調査を行なった。

A各品詞毎に必要な情報。
調査対象とした機械翻訳ソフトウェアのユーザ辞書に関する資料から、各品詞毎に、必要な辞書項目、およびその辞書項目に記述が許される辞書項目値の調査を行なった。

ここでは品詞、活用等を辞書項目と呼び、品詞に対する名詞、動詞、活用に対する五段活用、一段活用等を辞書項目値と呼ぶ。

(2) 標準案の作成作業

調査結果を基に、基本言語変換標準の記述内容の案を作成した。作成した標準案を以下に示す。

基本言語変換標準日本語の記述内容(案)

[活用する語の見出し語の表記]
動詞、形容詞は終止形登録。形容動詞、サ変動詞は語幹登録

[品詞]
名詞、固有名詞、動詞、サ変動詞、形容詞、形容動詞、副詞

[品詞毎の辞書情報]
名詞意味分類*1
固有名詞意味分類*1
動詞活用一段、五段
格パターン*2・格要素の意味制限 (格要素毎にその格要素に入る値を意味分類の値で記述する)
・英語の格パターンへのマッピング情報
サ変動詞活用(する型、ずる型)
格パターン*2・格要素の意味制限
・英語の格パターンへのマッピング情報 
形容詞格パターン*2・格要素の意味制限
・英語の格パターンへのマッピング情報
形容動詞活用(なだ型、のだ型、たる型)
格パターン*2・格要素の意味制限
・英語の格パターンへのマッピング情報
副詞係り先情報(動詞修飾、形容詞修飾、名詞修飾、述語修飾)

※1 意味分類
人、人以外の動物、植物、無生物、組織、こと、属性、関係、時間、場所
※格パターン
が格、がを格、がに格、がをに格、がと格、がをと格、がから格、がをから格

基本言語変換標準の英語の記述内容(案)

[見出し語]
動詞は原形登録、形容詞、副詞は原級登録

[品詞]
名詞、固有名詞、動詞、形容詞、副詞

[品詞毎の辞書情報]
名詞可算/不可算
複数形(可算の場合)
数属性(常に単数扱い/常に複数扱い)
冠詞指定(必要な場合)
先頭音(母音/子音)
意味分類*1
固有名詞冠詞指定
先頭音(母音/子音)
意味分類*1
動詞活用形*2(規則変化/不規則変化 不規則変化の場合は各変化形を記述)
格パターン*3
先頭音
格要素の意味制限
日本語の格パターンへのマッピング情報(日本語の情報と共有)
形容詞活用型(er,est型/more,most型/無変化)
用法(叙述のみ/限定のみ/叙述・限定)
先頭音(母音/子音)
格パターン*4
日本語の格パターンへのマッピング情報(日本語の情報と共有)
副詞活用型(er,est型/more,most型/無変化)
用法(文修飾、程度、状況)
先頭音

*1 意味分類
人、人以外の動物、植物、無生物、組織、こと、属性、関係、時間、場所
*2 活用形
規則変化は語尾変化の推定が可能なので、語尾変化の型までは記述する必要がない。したがって、規則変化/不規則変化の区別と不規則変化のみ変化形の文字列を記述する。規則変化は以下のものとする。
過去形 過去分詞形ing形
+ed+ed+ing
+d+d-語尾+ing
-語尾+ied-語尾+ied+ing
+語尾+ed+語尾+ed+語尾+ing
*3 格パターン(動詞用)
SV+名詞目的語
SV+前置詞句
SV+動名詞
SV+to不定詞
SV+that節
SV+wh節
SV+副詞小辞
SV+副詞小辞+目的語
SV+形容詞補語
SV+名詞補語
SV+間接目的語+直接目的語
SV+目的語+that節
SV+目的語+to不定詞
SV+目的語+名詞補語
SV+目的語+形容詞補語
SV+目的語+分詞補語
SV+目的語+前置詞句
*4 格パターン(形容詞用)
A+前置詞句、A+to不定詞、A+名詞、A+動名詞、A+that節、A+wh節

(3) 標準化検討・標準書作成作業

基本言語変換標準化の記述内容(案)を基に、UPF実行連絡会で標準化の検討を行なうため、各メーカーの機械翻訳ソフトウェアの開発に携わっている担当者によるUPF実行連絡会を開催した。メンバーは以下の通りである。

藤本正樹:株式会社NEC情報システムズ
亀井真一郎:日本電気株式会社
平井徳行:シャープ株式会社
伊藤悦雄:株式会社 東芝
斎藤由香梨:株式会社 富士通研究所
赤羽美樹子:株式会社 ノヴァ
桧山努:株式会社NEC情報システムズ

このUPF実行連絡会を4回開催し、基本言語変換標準の検討作業を行なった。
この4回のUPF実行連絡会における検討内容は、以下の通りである。

第1回UPF実行連絡会(1996年10月31日)
議題:基本言語変換標準の記述内容の検討
検討事項 ・連体詞の扱い
連体詞を基本言語変換標準の品詞として採用するかどうかの検討を行なった。

・見出し語の登録単位

日本語の活用する品詞の見出し語の登録単位についての検討を行なった。

・日英・英日の方向性

日英対訳辞書と英日対訳辞書を区別して、基本言語変換標準記述仕様を開発するのか、区別しないで開発するのかの検討を行なった。

・格パターン・意味分類の内容について

基本言語変換標準(案)日本語の記述内容、および基本言語変換標準(案)英語の記述内容にある格パターンおよび意味分類について、各社のユーザ辞書と相互変換可能か検討をお願いした。

・追加するべきフィールドについて

基本言語変換標準(案)日本語の記述内容、および基本言語変換標準(案)英語の記述内容に示した記述内容以外に、ユーザ辞書情報として必要な記述内容があるかどうかの検討を行なった。

第2回UPF実行連絡会(1996年11月18日)
議題:基本言語変換標準の記述内容の検討
検討内容: ・格フレームの記述内容について
第1回UPF実行連絡会において提示した基本言語変換標準日本語の記述内容(案)、および基本言語変換標準英語の記述内容(案)にある格パターンについて、自社の機械翻訳ソフトウェアのユーザ辞書と相互変換可能かどうかの検討結果をもちより、討議を行なった。

・意味分類について

第1回UPF実行連絡会において提示した基本言語変換標準日本語の記述内容(案)、および基本言語変換標準英語の記述内容(案)にある意味分類について、自社の機械翻訳ソフトウェアのユーザ辞書と相互変換可能かどうかの検討結果をもちより、討議を行なった。

第3回UPF実行連絡会(1996年11月29日)
議題:基本言語変換標準の記述内容の検討
検討内容: ・格フレームの記述内容の再検討
第2回UPF実行連絡会の検討をもとに、格フレームの記述内容(案)改訂1版を作成し、再度検討した。

・品詞毎の記述内容の検討

基本言語変換標準日本語の記述内容(案)、および基本言語変換標準英語の記述内容(案)にある各品詞毎の記述内容について説明を行なった。

第4回UPF実行連絡会(1996年12月13日)
議題:基本言語変換標準の記述内容、記述形式の検討
検討内容: ・格フレームの記述内容の再検討
第3回UPF実行連絡会において提示した、格フレームの記述内容(案)改訂1版の記述内容が、自社の機械翻訳ソフトウェアのユーザ辞書と相互変換可能かどうかの検討結果をもちより、討議を行なった。

・品詞毎の辞書情報の検討

基本言語変換標準日本語の記述内容(案)、および基本言語変換標準英語の記述内容(案)にある各品詞毎の記述内容が、自社の機械翻訳ソフトウェアのユーザ辞書と相互変換可能かどうかの検討結果をもちより、討議を行なった。

・基本言語変換標準の記述形式

「日本語の見出し語、および訳語の文字コード」、「英語の見出し語、および訳語の文字コード」、「見出し語、および訳語の文字数の制限」、「タグの形式」について検討を行なった。

・基本言語変換標準日英・英日対訳エディタの仕様検討

基本言語変換標準に準拠した日英・英日対訳辞書を作成するための、対訳辞書エディタの画面仕様について検討を行なった。

3.4 標準文書の内容

3.4.1 基本言語変換標準記述内容の開発

(1)概要

基本言語変換標準記述仕様の開発においては、3.2で記述した基本言語変換標準記述仕様案をもとに、記述内容の標準化のための検討作業を行なった。

検討作業は、まず基本言語変換標準記述内容の標準化検討にあたって、UPF実行連絡会内で意識を統一するために、「品詞名の統一」、「日英・英日の方向性」について検討を行なった。  次に、基本言語変換標準記述内容(案)の内容の検討を行なった。具体的には、「基本言語変換標準に採用する品詞」、「固有名詞とサ変動詞の扱い」、「日本語見出し語の表記法」、「日本語の活用」、「意味分類」、「格フレームの記述」について、検討を行なった。 最後に、基本言語変換標準記述内容の検討結果を品詞毎にまとめた。以下に検討内容の概要を示す。

(A)品詞名の統一
基本言語変換標準記述内容の検討作業を行なう際に、議論に混乱が生じないように品詞名の定義を行なった。

(B)日英・英日の方向性
基本言語変換標準記述内容の検討を行なっていく上で、日英対訳辞書と英日対訳辞書を区別して記述仕様を開発するのか、区別しないで記述仕様を開発するのかの検討を行なった。

(C)基本言語変換標準に採用する品詞
基本言語変換標準に採用する品詞の検討を行なった。

(D)固有名詞とサ変動詞の扱い
固有名詞とサ変動詞を、独立した品詞として設定するか、あるいは固有名詞は品詞の下位分類とし、サ変動詞は動詞の活用のひとつとするかの検討を行なった。

(E)日本語見出し語の表記法
日本語の活用する品詞(動詞、形容詞、形容動詞)の見出し語を、終止形登録とするか、語幹登録とするかの検討を行なった。

(F)日本語の活用
日本語の活用する品詞に必要な活用の種類について、検討を行なった。

(G)意味分類
基本言語変換標準に採用する意味分類について検討を行なった。

(H)格フレームの記述
日本語と英語の動詞の格フレームについての検討を行なった。

(I)品詞毎の情報の整理
基本言語変換標準記述内容について、品詞毎に整理した。

(2)検討結果の詳細

(1)であげた各検討内容の詳細を以下に述べる。

(A)品詞名の統一
調査の結果、機械翻訳ソフトウェア間で、品詞の呼称に相違のあることが判明した。例えば、「静か(だ)」という語に対して、形容動詞と定義している機械翻訳ソフトウェアもあれば、品詞は形容詞として扱い、その活用の一つとして形容動詞型の活用を持つ単語と定義している機械翻訳ソフトウェアが存在した。そこで標準化に際して、混乱が生じないように品詞名の定義を行なった。以下に、統一した品詞名とその定義を示す。

日本語の品詞
名詞:形態上は活用しない。固有名詞、サ変名詞を含まない。 EX)コンピューター、犬、ノート、本

固有名詞:特定の人物、組織、場所等を表わす。 EX)桧山、ニューヨーク、NEC情報システムズ

動詞:活用する自立語。サ変動詞を含まない。 EX)読む、書く

サ変動詞 「する」を伴い、動詞になるとともに、語幹では名詞として働くこともできる。 EX)処理する、検討する

形容詞:活用する自立語で終止形が「い」でおわる語 EX)美しい、早い

形容動詞:活用する自立語で終止形が「だ」で終わる語 EX)静かだ、のどかだ

副詞:活用せず、主に用言を修飾する EX)とにかく、非常に

連体詞:活用せず、体言を修飾する EX)あらゆる、この

接続詞:活用しない自立語。文と文または、語と語を結ぶ。 EX)しかし、そして

感動詞:それだけで文節となる EX)はい、ああ

助詞:活用しない付属語 EX)が、として

助動詞:活用する付属語 EX)かもしれない。

単位・助数詞:数字に接続する。 EX)kg、dpi

英語の品詞
名詞:事物の名前を表わす EX) book office

固有名詞:特定の人物、組織、場所等を表わす。 EX)New York Tom

動詞:動作や状態を表わす EX) go come

形容詞:名詞を修飾する EX) good big

副詞:動詞、形容詞、他の副詞、文を修飾する EX) fast very  therefor

代名詞:名詞の変わりとなる EX) it this I

接続詞:語や文を結び付ける EX) and but because

前置詞:名詞や代名詞の前において、その名詞(代名詞)と他の語との関係を示す EX) on in

助動詞:動詞と結びついて、その動詞にいろいろな意味を与える EX) will must

冠詞 名詞の前に置かれる

EX) a an the

疑問詞:疑問を表わす EX) what which

(B)日英・英日の方向性
日英と英日で辞書情報は統一する方向で作成した。これは、多言語化を考えた場合、日英・英日といった方向性を持った記述仕様では、拡張性に欠けると考えたためである。

(C)基本言語変換標準に採用する品詞
一般に機械翻訳ソフトウェアは、翻訳するために以下のような処理を行なっている。

・形態素解析:文中の単語を切り出す処理である。特に分かち書きされていない日本語文においては、語切りもこの処理に含まれる。

・構文解析 原文中の各単語の係り受け関係を認定する処理である。係り受けには、主語―述語の関係、修飾―被修飾の関係などが含まれる。

・変換:解析過程で作成された中間表現と呼ばれる依存構造を、生成用の依存構造に変換する処理である。機械翻訳ソフトウェアの中には、この変換処理を行なわず、解析・生成の中間表現を一致させているものもある。

・構文生成:中間表現から、訳文の構文構造を生成する処理である。

・形態素生成:単語の形態的な変形を行なう処理である。例えば、英語であれば、動詞の原形を過去形に置き換える等の処理である。

品詞は、上記に述べたような処理を行なう上で、形態素解析、構文解析、構文生成、形態素生成において、必須の情報である。そこで、各機械翻訳ソフトウェアに登録可能な品詞の中で、どの品詞を基本言語変換標準に採用するか日本語、および英語について検討を行なった。

調査の結果、各社のユーザ辞書で扱うことのできる品詞は、以下の通りである。

日本語の品詞

名詞、固有名詞、動詞、サ変動詞、形容詞、形容動詞、連体詞、副詞、接続詞、感動詞、助動詞、格助詞、接続助詞、接辞助動詞、機能詞、単位

英語の品詞

名詞、動詞(自動詞、他動詞)、形容詞、副詞、接続詞、前置詞、限定詞、関係詞、助動詞、前置詞句、動詞句、従属副詞句、単位

実際には、すべての品詞が基本言語変換標準に採用することが望ましい。しかし、基本言語変換標準に採用する品詞は、各社機械翻訳ソフトウェアのユーザ辞書と相互変換可能であることが必要である。

また、ユーザ辞書ということを考えると、どの品詞をユーザ辞書に多く登録するかという、ユーザニーズも考慮した。

これらの点から、次の二点を基準として、品詞の設定を行なった。

・これまでの各社のユーザ辞書の資産を活用するために、なるべく各社のユーザ辞書で扱うことのできる品詞であること。
・ユーザ辞書に登録される可能性が高い品詞であること。

日本語では、ユーザ辞書に登録される見出し語を考えると、ほとんどが名詞、固有名詞であると考えられる。また、その他の品詞では、サ変動詞は「名詞+する」、形容動詞は「名詞+的だ」で生成可能なので、ユーザが登録する必要性が高いと思われる。また、動詞、形容詞も「トラブる」であるとか、「ナウい」等の造語が可能である。副詞については、擬態語、擬声語などが新語として生まれる可能性があるので、これも必要である。したがって、日本語に関しては、「名詞、固有名詞、動詞、サ変動詞、形容詞、形容動詞、副詞 」の7品詞を採用する。

英語では、日本語の見出しに対する訳語の品詞を考え、「名詞、固有名詞、動詞、形容詞、副詞」の5品詞を採用する。

(D)固有名詞とサ変動詞の扱い
(C)の検討の結果、基本言語変換標準の日本語の品詞として「名詞、固有名詞、動詞、サ変動詞、形容詞、形容動詞、副詞 」を採用することが決定した。

しかしながら、「固有名詞は名詞の下位分類の一つである。また、サ変動詞は動詞の活用の一つと考えてよい。したがって、この二つの品詞は基本言語変換標準に採用した他の品詞とは、レベルが違うのではないか」という意見があり、再検討を行なった。再検討の結果、上記の意見を取り入れて、次のように決定した。

・基本言語変換標準に採用する日本語の品詞

名詞、動詞、形容詞、形容動詞、副詞 ・固有名詞は、名詞の下位分類として登録する。
・サ変動詞は、動詞の活用の一つとして登録する。

(E)日本語見出し語の表記法
日本語の活用する品詞(動詞、サ変動詞、形容詞、形容動詞)の見出し語の表記方法について検討した。

[動詞] 案1 語幹登録(EX行) 利点:特になし
欠点:五段活用でカ行、サ行というように活用する行を明記する必要がある。また、見出し語が「行」である場合、「行く」なのか「行う」なのか見出し語を見ただけでは判断できない。ユーザに語幹に切るという作業を強いることになる。

案2 終止形登録(EX行く)

利点:五段活用のときに、カ行、サ行というように活用する行を明記する必要がない。見出し語が明確に理解される。

[形容詞] 案1 語幹登録(EX美し) 利点:特になし
欠点:ユーザに語幹に切るという作業を強いることになる。

案2 終止形登録 (EX美しい)

利点:見出し語が明確に理解される。

[形容動詞] 案1 語幹登録(EX静か) 利点:無駄がない
欠点:活用形(な型・の型・たる型)は別指定

案2 終止形登録(EX 静かだ)

利点:動詞・形容詞との統一性がある
欠点:活用形(な型・の型・たる型)は別指定

案3 連体形登録(EX 静かな)

利点:活用の型を別指定する必要なし
欠点:あまり一般的な登録方法ではない。

[サ変動詞] 案1 語幹登録(EX 処理) 利点:無駄がない。名詞と見出し語を共有できる

案2 終止形登録(EX処理する)

利点:動詞・形容詞との統一性が図られる。活用の型を明示している。

語幹登録を行なう場合は、動詞の五段活用でカ行、サ行というように活用する行を明記する必要がある。これに対して、「終止形登録」では五段、一段といった活用の種類のみを明記すればよく、活用する行の情報は必要ではない。

また、終止形登録を行なった方が見出し語が明確に理解される。例えば見出し語が「行」である場合、「行く」なのか「行う」なのか見出し語を見ただけでは判断できない。

以上のような検討の結果、日本語の動詞の見出し語の表記は、すべて終止形登録とした。また、動詞との統一性を考えて、サ変動詞、形容詞、形容動詞とも終止形登録とする。したがって、日本語の活用する品詞の見出し語の表記は、すべて終止形登録とした。

(F)日本語の活用
日本語の活用は、基本言語変換標準の記述内容(案)では、五段、一段活用のみを設定していたが、サ行変格活用(処理する)、ザ変活用(奉ずる)、カ行変格活用(来る)も必要であろうという意見があり、これを採用した。

(G)意味分類
意味分類は、各社の詳細度が異なっており、品詞や活用とは違い、共通化が難しい辞書情報である。したがって、本来ならば拡張言語変換標準に採用するべき辞書情報である。しかしながら、各社の機械翻訳システムでは、曖昧性を解消するために、何らかの形で意味情報を用いている。

例えば、「eat」という単語を訳す場合に、主語が人間であれば、「食べる」という訳語が選択され、「酸」であるとか「波」といった無生物であれば「侵食する」という訳語を選択する。そこで、基本言語変換標準の品詞に、動詞を採用するのであれば、意味による訳語の選択のためにも、最低限の意味分類は必要となる。そこで、格フレームの意味制限に使用するために基本言語変換標準言語変換標準の記述内容にも意味分類の情報を設定した。意味分類を付与する対象品詞は、名詞、固有名詞のみとする。

名詞、固有名詞のみに限定すると、必要な分類は「人、組織、その他の具体物、場所、時間、その他の抽象物」で最低限必要であると考える。これ以上に詳細化しようとすると、ユーザが指定するのが難しくなると同時に、各社でレベルのばらつきがあり、各社の機械翻訳システムで、どのような結果になるのかが明確ではないので、基本言語変換標準の値としては、上記6分類のみにした。

(H)格フレームの記述
原案では、英語の語順を保持し、その語順に対応する格助詞を各々に記述する形式を提案した。以下に提案した原案を示す。

(a)一般形
(日本語格助詞と英語文法項目名;英語の構文形;意味制限;"語彙指定")
(述語;能動態,受動態)
(日本語格助詞と英語文法項目名;英語の構文形;意味制限;"語彙指定")
(日本語格助詞と英語文法項目名;英語の構文形;意味制限;"語彙指定")

(b)具体例
与える (訳語 give)
(が格=主語;名詞句;人,生物;)
(述語;能動態,受動態)
(に格=間接目的語;名詞句;;)
(を格=直接目的語;名詞句;;)

(c)各フィールドに記述する値
・日本語格助詞の値 が格、を格、に格、で格、から格、より格、まで格、へ格、と格、形容詞連用形、形容動詞連用形、指定なし(副詞的小辞対応するため)
・述語部 能動態、受動態(直接目的語が主語になれることを示す)
・英語の文構成要素名 主語、述語、直接目的語、間接目的語、補語
・英語の構文形(複数選択可) 名詞句、代名詞、原形不定詞、to不定詞、動詞ing形、形容詞、wh節、that節、副詞的小辞、前置詞句
・意味分類(複数選択可) 人、組織、その他の具体物、時間、場所、その他の抽象物
・語彙制限(複数記述可) 自由入力とする。ただし、任意の文字列であることを明記するために""で括って記述する。

しかしながら、基本言語変換標準の格フレームの記述には、英語の構文形は入れないでほしいという意見がある。これは、ユーザ辞書情報に英語構文形の情報がないので、基本言語変換標準からのダウンロードは可能であるが、アップロードができないという理由からである。

基本言語変換標準は、各社のユーザ辞書とアップロード、ダウンロード可能であるという方針がある。言語現象としては、英語の構文形は記述するべき項目であるが、各社ユーザ辞書情報との兼ね合いを考える必要がある。

また、「原案で格フレームと呼んでいるものは、トランスファールールである。格フレームと呼ぶには違和感がある。」と指摘があった。原案では、日本語の格助詞の値と英語の構文要素名の対応を記述している。多言語化を考えた場合、日本語と英語で独立した辞書情報になっていることが望ましい。そこで、検討した結果、以下のような結論を得た。

・日本語と英語の格フレームの記述は独立とする。

・格フレームに記述する日本語の格助詞の値 が、を、に

・英語の格フレームに記述する値 SV、SVC、SVO

・日本語と英語の対応関係は、別の辞書項目とする。

・日本語と英語の対応関係に記述する構文要素名 主語、目的語、補語

・日本語と英語の対応関係に記述する英語の構文形 名詞句、前置詞句

(I)品詞毎の情報の整理
各品詞毎に必要な辞書情報の整理を行なった。以下に整理した「基本言語変換標準の日本語の記述内容」と「基本言語変換標準の英語の記述内容」を示す。

(a)基本言語変換標準の日本語の記述内容
日本語の記述内容は以下の通りである。

[見出し語表記] 活用語(動詞、形容詞、形容動詞)は終止形登録

[品詞] 名詞、動詞、形容詞、形容動詞、副詞

[品詞毎の辞書情報]
名詞:意味分類*1
名詞のタイプ(普通名詞、固有名詞から選択)
動詞:活用 (一段活用、五段活用、カ行変格活用、サ行変格活用、ザ行変格活用)
取り得る格助詞の値(「が」、「を」、「に」から選択)
英語の格との対応
形容詞:
形容動詞:活用(なだ型、のだ型)
副詞:

*1 意味分類

人、組織、その他の具対物、場所、時間、その他の抽象物

(b)基本言語変換標準の英語の記述内容
[見出し語] 動詞は原形登録、形容詞、副詞は原級登録

[品詞] 名詞、動詞、形容詞、副詞

[品詞毎の辞書情報]
名詞:名詞のタイプ(普通名詞、固有名詞から選択)
可算/不可算
複数形(可算の場合)
数属性(常に単数扱い/常に複数扱い/指定なし)
冠詞指定(無冠詞/定冠詞/指定なし)
先頭音(母音/子音)
意味分類*1
動詞:活用形(三単現、過去形、過去分詞形、ing形)
先頭音(母音/子音)
文型(SV,SVO,SVCから選択)
日本語の格との対応関係(日本語の情報と共有)
形容詞:活用形(比較級、最上級)
先頭音(母音/子音)
副詞:活用形(比較級、最上級)
先頭音(母音/子音)

*1 意味分類:人、組織、その他の具対物、場所、時間、その他の抽象物

3.4.2 基本言語変換標準記述形式の開発

(1)概要

基本言語変換標準の記述形式の標準化のために検討を行なった。

検討作業は、まず、基本言語変換標準を記述するための「ファイル形式」の検討を行なった

次に、見出し語、及び訳語といった、任意の文字列を記述する際の「文字コード」、「文字数の制限」について検討を行なった。

さらに、基本言語変換標準の個々の記述内容を記述するための「記述形式」について検討を行なった。

(2)検討内容、および検討結果の詳細

基本言語変換標準記述形式の開発における検討内容、および検討結果の詳細を述べる。

(A)ファイル形式

ファイル形式は、一太郎やMS-WORD等での修正を可能とするために、特殊な構造をもったファイル形式ではなく、一般的なテキスト形式とした。

(B)文字コード

文字コードは、各社の機械翻訳ソフトウェアがWindows95上で動作しているものがメインであることを考え、シフトJISを採用した。また、EUC等の他の文字コードとの互換性を考えて、日本語の見出し語と訳語に記述できる文字は、全角文字のみとする。半角カタカナ、丸付き数字は認めない。

英語の見出し語、訳語、活用に記述する文字は、半角英数字、記号のみとする。

(C)文字数の制限

各社のユーザ辞書に登録できる見出し語、および訳語には、以下のような文字数に制限がある。

PIVOT:日本語29文字(58byte) 英語58文字(58byte)
ATLAS:日本語80文字(160byte)英語80文字(80byte)
Duet:日本語96文字(192byte)英語28文字(28byte)
PC-Transer:日本語16文字(32byte)英語60文字(60byte)
ASTRANSAC:日本語19文字(38byte)英語39文字(39byte)

基本言語変換標準は各社のユーザ辞書と相互変換可能である必要があるので、最も制限の厳しいものを採用する。したがって、日本語の文字数が全角で16文字(32byte)、英語の文字数が28文字(28byte)とした。

(D)個々の記述内容の記述形式

基本言語変換標準の記述形式は、タグを用いた記述形式を採用する。各記述内容に対応するタグを用意し、開始タグと終了タグによって値を括る形式を採用する。

4 基本言語変換標準記述仕様

▽次の章へ △前の章へ ▲ページ先頭へ
4.1 概要

基本言語変換標準記述仕様の以下の項目について述べる。

(1)基本言語変換標準記述内容

基本言語変換標準で規定した日本語、および英語の記述内容

(2)基本言語変換標準記述形式 基本言語変換標準で規定したファイル形式、および個々の記述内容を記述するための記述形式

(3)具体的な辞書記述例 基本言語変換標準記述内容、および記述形式に準拠した、具体的な辞書記述例

4.2 基本言語変換標準記述内容

4.2.1 日本語の記述内容

日本語の記述内容は以下の通りである。

[見出し語表記]
活用語(動詞、形容詞、形容動詞)は終止形登録

[品詞]
名詞、動詞、形容詞、形容動詞、副詞

[品詞毎の辞書情報]
名詞:意味分類*1
名詞のタイプ(普通名詞、固有名詞から選択)
動詞:活用 (一段活用、五段活用、カ行変格活用、サ行変格活用、ザ行変格活用)
取り得る格助詞の値(「が」、「を」、「に」から選択)
英語の格との対応
形容詞:
形容動詞:活用(なだ型、のだ型)
副詞:

*1 意味分類:人、組織、その他の具体物、場所、時間、その他の抽象物

4.2.2 英語の記述内容

英語の記述内容は、以下の通りである。

[見出し語]
動詞は原形登録、形容詞、副詞は原級登録

[品詞]
名詞、動詞、形容詞、副詞

[品詞毎の辞書情報]
名詞:名詞のタイプ(普通名詞、固有名詞から選択)
可算/不可算
複数形(可算の場合)
数属性(常に単数扱い/常に複数扱い/指定なし)
冠詞指定(無冠詞/定冠詞/指定なし)
先頭音(母音/子音)
意味分類*1
動詞:活用形(三単現、過去形、過去分詞形、ing形)
先頭音(母音/子音)
文型(SV,SVO,SVCから選択)
日本語の格との対応関係(日本語の情報と共有)
形容詞:活用形(比較級、最上級)
先頭音(母音/子音)
副詞:活用形(比較級、最上級)
先頭音(母音/子音)

*1意味分類:人、組織、その他の具体物、場所、時間、その他の抽象物

4.3 基本言語変換標準記述形式

4.3.1 基本言語変換標準のファイル形式

基本言語変換標準記述仕様のファイル形式を以下に示す。

<dict> ← 辞書ファイルの開始
<dicttype>jedict</dicttype> ←辞書種の指定
<entry> ←日英対訳対の開始
<japanese> ←日本語情報の開始

</japanese> ←日本語情報の終了
<english> ←英語情報の開始

</english> ←英語情報の終了
</entry> ←日英対訳対の終了
<entry> ←日英対訳対の開始
<japanese> ←日本語情報の開始

</japanese> ←日本語情報の終了
<english> ←英語情報の開始

</english> ←英語情報の終了

</entry> ←日英対訳対の終了
</dict> ←辞書ファイルの終了

4.3.2 個々の記述内容の記述形式

基本言語変換標準の記述内容は、以下に示すタグと値によって記述する。

4.3.3 日英の対応(<jetrans>)の記述形式

日本語と英語の格の対応情報である<jetrans>の形式は、他の記述内容の記述形式と異なり、構造を持つ記述形式である。ここで、その記述形式について述べる。

(1)基本型

<jetrans>
(
(日本語格助詞と英語文法項目名;英語の構文形;意味制限;"語彙指定")
(日本語格助詞と英語文法項目名;英語の構文形;意味制限;"語彙指定")
(日本語格助詞と英語文法項目名;英語の構文形;意味制限;"語彙指定")
)
</jetrans>

(2)各フィールドに許される値

(A)日本語格助詞の値
が、を、に

(B)英語の文構成要素名
主語、目的語、補語

(C)英語の構文形
名詞句、前置詞句 ※前置詞句の場合は、前置詞を記述する。

(D)意味分類(複数選択可)
<sem>に許される値

(E)語彙制限(複数記述可)
任意の文字列。ただし、任意の文字列であることを明記するために""で括って記述される。

4.4 具体的な辞書記述

基本言語変換標準記述仕様に準拠した辞書形式の具体例を以下に示す。

(1)名詞

<entry>
<japanese>
<jentry>本</jentry>
<jpos>名詞</jpos>
<jnountype>普通名詞</jnountype>
<sem>その他の具体物</sem>
</japanese>
<english>
<eentry>book</eentry>
<epos>noun</epos>
<enum>c</enum>
<epl>books</epl>
<eheadpron>consnant</eheadpron>
</english>
</entry>

(2)動詞

<entry>
<japanese>
<jentry>行く</jentry>
<jpos>動詞</jpos>
<jinfl>五段</jinfl>
<jcase>が,に</jcase>
</japanese>
<english>
<eentry>go</eentry>
<epos>verb</epos>
<evpresent>gose</evpresent >
<evpast>went</epast >
<evpp>gone</evpp>
<eving>going</eving>
<eheadpron>consnant</eheadpron>
<ecase>svc</ecase>
</english>
<jetrans>
(
(が=主語;名詞句;人;)
(に=補語;前置詞句“to”);その他の具体物;)
)
</jetrans>
<entry>

(3)形容詞・形容動詞・副詞

<entry>
<japanese>
<jentry>速い</jentry>
<jpos>形容詞</jpos>
</japanese>
<english>
<eentry>fast</eentry>
<epos>adjective</epos>
<ecomparative>faster</ecomparative>
<esuperlative>fastest</esuperlative>
<eheadpron>consnant</eheadpron>
</english>
</entry>

5 拡張言語変換標準記述仕様の開発

▽次の章へ △前の章へ ▲ページ先頭へ
5.1 作成目的

基本言語変換標準では、機械翻訳ソフトウェアにおいて、翻訳という処理を行なうためには必須の辞書情報で、かつ複数の機械翻訳ソフトウェア間で共通化可能なものを基本言語変換標準記述仕様として開発した。それとは別に、基本的に翻訳品質を向上させるために行なう様々な工夫や仕掛けのための辞書情報が存在する。これらの辞書情報は定義が複雑であったり、情報を網羅する範囲が異なっていたりしている傾向が強く、複数の機械翻訳ソフトウェア間で単純にマッピングは行なえず、共通化が困難である。しかし、完全な共通化が困難であるからといって、UPF言語変換標準記述仕様の対象からはずしてしまうことは、拡張性を損なうことになる。そこで、自然言語処理に用いられる辞書情報をできるかぎり変換、伝達し、すこしでも機械翻訳ソフトウェアの翻訳品質を向上させるための記述仕様として、拡張言語変換標準記述仕様を開発する。

5.2 作業指針

拡張言語変換標準は、基本言語変換標準で採用しなかった辞書情報を記述する枠組みを開発するものである。したがって、まずは各社の機械翻訳ソフトウェアで扱える辞書情報を記述できる必要がある。しかしながら、各社の機械翻訳ソフトウェアのみを対象としていたのでは、機械翻訳に必要な情報が偏ってしまう可能性がある。そこで、拡張言語変換標準を開発する上で、以下のような方針を採った。

5.3 作業内容

(1) 調査作業

各企業が発売している機械翻訳ソフトウェアのユーザ辞書に関する資料を収集し、ユーザ辞書の仕様の調査を行なった。調査の対象とした機械翻訳ソフトウェアは以下の通りである。

機械翻訳ソフトウェア名販売会社
PIVOTNEC
ATLAS富士通
PC-Transerノヴァ
ASTRANSAC&東芝
Duetシャープ
Dr. Surf九州松下電器

調査内容は以下中心とした。

@ユーザ辞書に登録可能な品詞。
調査対象とした機械翻訳ソフトウェアのユーザ辞書に関する資料から、基本言語変換標準から除いた品詞に関する部分のリストアップを行なった。

A各品詞毎に必要な情報。
調査対象とした機械翻訳ソフトウェアのユーザ辞書に関する資料から、リストアップした各品詞毎に、必要な辞書項目、およびその辞書項目に記述が許される辞書項目値の調査を行なった。

ここでは品詞、活用等を辞書項目と呼び、品詞に対する名詞、動詞、活用に対する五段活用、一段活用等を辞書項目値と呼ぶ。

(2) 標準案の作成作業

調査結果を基に、拡張言語変換標準の記述内容の案を作成した。品詞に関しては、「5.2作業指針」に述べたように、「各社の機械翻訳ソフトウェアの辞書情報にないものでも、機械翻訳ソフトウェアの辞書情報として必要なものがあれば、拡張言語変換標準記述仕様に採用する。」という方針から、各社のユーザ辞書に登録可能な品詞を日英・英日方向に翻訳した場合、どのような品詞になるかをリストアップし、これを整理して拡張言語変換標準案の品詞とした。

例)

日本語の品詞が名詞の場合
考えられる英語の品詞:名詞、形容詞、動名詞、分詞構文、to不定詞

英語の品詞が名詞の場合
考えられる日本語の品詞:名詞、形容詞、形容動詞、連体詞、接頭語、単位

また、品詞毎の情報では、基本言語変換標準に採用した品詞でも、品詞毎の情報で基本言語変換標準から除いた情報は、拡張言語変換標準の記述内容に採用した。作成した標準案を以下に示す。

拡張言語変換標準日本語の記述内容(案)

[品詞] 連体詞、接続詞、単位、感動詞、助詞、助動詞、接頭語

[品詞毎の情報]
名詞:名詞のタイプ/接続助詞的名詞(EX.場合)
動詞:取り得る格助詞の値/へ、と、から、より、まで、と(引用)、で
形容詞:取り得る格助詞の値/が、に、と
形容動詞:取り得る格助詞の値/が、に、と
副詞:用法/動詞修飾、数量修飾、形容詞・副詞修飾、文修飾
連体詞:種類/いわゆる型、の型、たる型、指示型
接続詞:品詞名のみ必須
単位:品詞名のみ必須
感動詞:品詞名のみ必須
助詞:種類/格助詞、連体助詞、接続助詞、副助詞、並列助詞、終助詞、係助詞、間投助詞
助動詞:品詞名のみ必須
接頭語:品詞名のみ必須

拡張言語変換標準英語の記述内容(案)

[品詞] 限定詞、接続詞、単位、間投詞、前置詞、助動詞、名詞句、代名詞

[品詞毎の情報]
動詞:文型/svoo、svoc
形容詞:用法/叙述、限定
副詞:用法/動詞修飾、数量修飾、形容詞・副詞修飾、文修飾
限定詞:種類/指示、数量
接続詞:種類/等位、従属
単位:品詞のみ必須
間投詞:品詞のみ必須
前置詞:品詞のみ必須
助動詞:品詞のみ必須
名詞句:種類/動名詞、to不定詞、分詞構文
代名詞:種類/人称、疑問、指示
変化形(人称代名詞のみ)/主格、所有格、目的格、目的所有格

拡張言語変換標準日英の対応の記述内容(案)

[英語の構文形] 動名詞、to不定詞、原形不定詞、that節、wh節、副詞小辞、形容詞

[相情報] 動作、状態、準状態

(3) 標準化検討・標準書作成作業

拡張言語変換標準の記述内容(案)を基に、UPF実行連絡会で標準化の検討を行なうため、各メーカーの機械翻訳ソフトウェアの開発に携わっている担当者によるUPF実行連絡会を開催した。メンバーは以下の通りである。

浜田和彦:株式会社NEC情報システムズ
亀井真一郎:日本電気株式会社
平井徳行:シャープ株式会社
伊藤悦雄:株式会社 東芝
高橋雅仁:九州松下電器株式会社
斎藤由香梨:株式会社 富士通研究所
赤羽美樹子:株式会社 ノヴァ
桧山努:株式会社NEC情報システムズ

このUPF実行連絡会を5回開催し、拡張言語変換標準の検討作業を行なった。

この5回のUPF実行連絡会における検討内容は、以下の通りである。

第5回UPF実行連絡会(1997年5月22日)

議題:拡張言語変換標準の検討内容
検討事項
・基本言語変換標準に採用しなかった品詞の記述仕様
各社の機械翻訳ソフトウェアで扱うことのできる品詞で、基本言語変換標準に採用されなかった品詞について検討を行なった。
・熟語の記述仕様
熟語を取り扱う際に必要と思われる辞書情報の記述形式について検討を行なった。
・基本言語変換標準に採用しなかった品詞の対応関係
基本言語変換標準では、日英の品詞の対応に以下のような制限を設けた。個例外の対応関係について検討を行なった。
・意味分類の詳細情報
基本言語変換標準では、格要素の意味制限に用いるために、意味分類は「人、組織、その他の具対物、場所、時間、その他の抽象物」に制限した。これ以外の意味分類について検討を行なった。
・格パターン・日英の対応
基本言語変換標準では、動詞の格パターン、および日英の対応に関しては、制限を設けた。意味分類同様、これ以外の情報について検討を行なった。

第6回UPF実行連絡会(1997年6月6日)
議題:拡張言語変換標準に採用する品詞の検討
・拡張言語変換標準に採用する品詞の検討
拡張言語変換標準日本語の記述内容(案)、および拡張言語変換標準英語の記述内容(案)をもとに、拡張言語変換標準で採用する品詞についての検討を行なった。

第7回UPF実行連絡会(1997年6月27日)
議題:拡張言語変換標準に採用する品詞の検討
・基本言語変換標準では、制限を設けた日英の品詞の対応関係について、拡張言語変換標準に検討を行なった。

第8回UPF実行連絡会(1997年7月11日)
議題:拡張言語変換標準に採用する品詞毎の情報の検討
・拡張言語変換標準に採用する品詞毎の辞書情報の検討を行なった。

第9回UPF実行連絡会(1997年9月9日)
議題:意味分類の記述方法の検討
・拡張言語変換標準に採用する意味分類の検討
各社ユーザ辞書の意味分類のうち、基本言語変換標準に採用した意味分類以外のものについて、どれを拡張言語変換標準に採用するかについて検討を行なった。
・拡張言語変換標準に採用する日英の対応の検討
基本言語変換標準に採用した日英の対応の情報以外で、拡張言語変換標準に採用するべき情報の検討を行なった。

5.4 標準文書の内容

5.4.1 拡張言語変換標準記述内容の開発

(1)概要

拡張言語変換標準記述仕様においては、3.3の(2)で記述した拡張言語変換標準記述仕様案をもとに、記述内容標準化のための検討作業を行なった。

拡張言語変換標準記述仕様案は、各社のユーザ辞書情報で、基本言語変換標準から除いた辞書情報を整理したものである。この拡張言語変換標準案をもとに、「見出し語の拡張」、「品詞の拡張」、「日英、英日の品詞の対応制限の拡張」、「品詞毎の辞書情報の拡張」、「意味分類の拡張」、「日英の対応の拡張」の検討を行なった。

最後に、拡張言語変換標準記述内容の検討結果を品詞毎にまとめた。以下に検討内容の概要を示す。

(A)見出し語の拡張

「油を売る」といったような熟語の見出し語をどのように扱うかの検討を行なった。

(B)品詞の拡張

拡張言語変換標準記述仕様案にある品詞をもとに、日本語の名詞を英語に訳した場合どのような品詞になるか、逆に英語の名詞を日本語に訳した場合どのような品詞になるかといった日本語と英語の対応関係をキーとして品詞の拡張を行なった。

(C)日英、英日の品詞の対応制限の拡張

基本言語変換標準では制限を設けた日本語と英語の対応関係を拡張言語変換標準ではどう扱うかの検討を行なった。

(D)品詞毎の辞書情報の拡張

基本言語変換標準に採用した品詞で、基本言語変換標準には採用しなかった品詞毎の情報、および拡張言語変換標準に採用した品詞の品詞毎の情報の検討を行なった。

(E)意味分類の拡張

基本言語変換標準に採用しなかった意味分類で、拡張言語変換標準に採用するものの検討を行なった。

(F)日英の対応の拡張

日英の対応で、基本言語変換標準に採用しなかった日本語の助詞、英語の文法項目名、英語の構文形で、拡張言語変換標準に採用するべきものの検討を行なった。

(2)検討結果の詳細

(1)であげた検討内容の詳細を以下に述べる。

(A)見出し語の拡張

「油を売る(さぼる)」、「鼻が高い(得意げだ)」といったような日本語の熟語は、「彼は油ばかり売っている」のように格助詞と副助詞の交替や、「鼻がとても高い」もように副詞の挿入などが考えられる。したがって、見出し語を記述する場合、「どの部分が交替可能か」、「どの部分に挿入可能か」といった情報を付与する必要がある。しかし、この情報は見出し語に設けるのではなく、用言(「油を売る」であれば「売る」)を見出し語として、日英の対応の語彙制限に記述することで表現可能である。辞書記述者が、見出し語に特殊な記述をするよりも、日英の対応の語彙制限に記述するほうが、情報の整理等が容易であると考え、熟語の記述は、日英の対応の語彙制限に記述することとした。具体的には、以下のように記述する。

油を売る

<entry>
<japanese>
<jentry>売る</jentry>
<jpos>動詞</jpos>
<jinfl>五段</jinfl>
<jcase>が</jcase>
</japanese>
<english>
<eentry>idle</eentry>
<epos>verb</epos>
<evpresent>loaf</evpresent >
<evpast>loafed</epast >
<evpp>loafed</evpp>
<eving>loafing</eving>
<eheadpron>consnant</eheadpron>
<ecase>sv</ecase>
</english>
<jetrans>
(
(が=主語;名詞句;人;"油")
)
</jetrans>
<entry>

(B)品詞の拡張

各社のユーザ辞書に登録可能な品詞の中で、基本言語変換標準から除いた品詞、すなわち拡張言語変換標準記述仕様案であげた品詞は以下の通りである。

日本語:

連体詞、接続詞、単位、接尾助数詞、格助詞、接続助詞

英語:
接続詞、前置詞、単位、限定詞、関係詞、動詞句、副詞句、前置詞句

これらの品詞と基本言語変換標準で採用した品詞を、日本語なら英語に、英語なら日本語に訳した場合どのような品詞になるかといった日本語と英語の対応関係をキーとして品詞の拡張を行なった。例えば、名詞であれば実際に考えられる品詞対応は、以下の通りである。

日本語の品詞考えられる英語の品詞
名詞名詞
形容詞
動名詞
分詞構文
to不定詞
前置詞(相当語)

このような手順で、拡張言語変換標準の品詞を決定した。決定した品詞は以下の通りである。

@日本語の品詞

連体詞、接続詞、単位、感動詞、助詞、助動詞、接頭語、文

A英語の品詞
限定詞、接続詞、単位、間投詞、前置詞、助動詞、代名詞(人称、指示)、疑問詞、文

(C)日英、英日の品詞の対応制限の拡張

基本言語変換標準では制限を設けた。しかし、拡張言語変換標準では広く辞書情報を記述するための仕様とする必要があるため、日英間で品詞の対応関係をあえて設けないことに決定した。

(D)基本言語変換標準に採用した品詞の品詞毎の辞書情報の拡張

基本言語変換標準に採用した品詞で、基本言語変換標準には採用しなかった品詞毎の情報は以下の通りである。

(a)日本語

名詞
名詞のタイプ:形式名詞

動詞
格助詞の値:へ、と、から、より、まで、と(引用)
相情報:動作、状態

形容詞

取り得る格助詞の値:が、に

形容動詞
取り得る格助詞の値:が、に

副詞
用法(文修飾、状況、程度)

(b)英語
動詞
文型:svoo、svoc

形容詞
用法:叙述、限定

副詞
用法:文修飾、状況、程度

これらの辞書情報について、以下の検討を行なった。

@日本語の名詞のタイプについて

形式名詞(〜すること)を実際に登録ることは無いのではないか。むしろ「場合」のような接続助詞的名詞を登録できるようにした方がよい。

A日本語の動詞の格助詞の値について
「ピアノで演奏する」のように、格助詞の「で」も必要である。

B日本語の動詞の相情報の値について
一般に日本語の相情報は、次のように分類することができる。

補助用言「ている」が接続不可(状態) 例)ある
補助用言「ている」が接続して、状態を表わす。(準状態) 例)知る
補助用言「ている」が接続して、進行をを表わす。(動作) 例)走る

したがって、記述するならば「状態、準状態、動作」の3つが必要である。しかし、実際にはほとんどが動作であるから、日本語の動詞の相情報は必要とは思えない。

C日本語の形容詞・形容動詞の格助詞の値について
「Aと等しい」、「Aと同じだ」という表現が可能なので、格助詞「と」も必要である。また、「Aから遠い」、「Aで忙しい」という表現から、格助詞「で」、および「から」も必要である。

D日本語の副詞の用法について
「状況、程度」というのはわかりにくい。直接修飾する品詞を明示した「文修飾、動詞修飾、形容詞・副詞修飾・数量修飾」にしたほうがよい。

E英語の形容詞の用法について
限定用法には、「前置修飾のみ」、「後置修飾のみ」、「前置後置修飾可」の3種類ある。したがって、限定用法をこの3つに分けて記述できるようにする必要がある。

F英語の副詞の用法について
日本語の副詞の用法同様の記述にするほうがよい。

(E)拡張言語変換標準に採用した品詞の品詞毎の辞書情報の拡張

(D)同様に、拡張言語変換標準で採用した品詞について、その品詞毎の情報の検討を行なった。拡張言語変換標準で採用した品詞の品詞毎の情報は以下の通りである。

(a)日本語

連体詞
種類:いわゆる型、の型、たる型、指示型

助詞
種類:格助詞、連体助詞、接続助詞、副助詞、並列助詞、終助詞、係助詞、間投助詞

これ以外の品詞は、品詞のみが必須情報である。

(b)英語
限定詞
種類:指示、数量

接続詞
種類:等位、従属

代名詞
種類:人称、指示
変化形(人称代名詞のみ):主格、所有格、目的格

疑問詞
種類:who型、what型、where型、which型、why型、how型

これ以外の品詞は、品詞のみが必須情報である。

@日本語の連体詞の種類について
日本語の連体詞は案にあるように分類できるが、機械翻訳ソフトウェアの辞書ということを考えた場合、上記の区別は必要ではない。

A英語の限定詞の種類について
英語の限定詞は案にあるように分類できるが、機械翻訳ソフトウェアの辞書ということを考えた場合、上記の区別は必要ではない。

(F)意味分類の拡張

基本言語変換標準に採用しなかった意味分類で、拡張言語変換標準に採用するものの検討を行なった。本来ならば、各社のユーザ辞書に記述できる意味分類を網羅するような意味分類を設定するのが望ましい。しかし、各社の意味分類は、各社独自の観点で構築されているため、全てを網羅する意味分類を定義することは難しい。そこで、拡張言語変換標準では、3社以上で共通している意味分類を採用することにした。さらに、辞書記述者が独自の意味分類を定義できるような記述形式を設定することにした。

(G)日英の対応の拡張

基本言語変換標準では、各社のユーザ辞書と相互変換可能とするために、英語の構文形を名詞句と前置詞句に限定した。拡張言語変換標準ではより広範な記述をするための記述仕様とするために、以下の構文形を追加した。

動名詞、to不定詞、原形不定詞、that節、wh節、副詞小辞、形容詞

また、基本言語変換標準では日英の対応を動詞にのみ記述可能となっている。これは、基本言語変換標準では、動詞にのみ取り得る格助詞の値が記述できるからである。拡張言語変換標準では、形容詞および形容動詞にも取り得る格助詞の値が記述できる。そこで、形容詞、形容動詞にも日英の対応を記述可能とする。

(H)拡張言語変換標準の辞書情報の整理

検討結果を品詞毎にまとめた。以下に整理した「拡張言語変換標準の日本語の記述内容」と「拡張言語変換標準の英語の記述内容」を示す。

(a)拡張言語変換標準の日本語の記述内容

[品詞]
連体詞、接続詞、単位、感動詞、助詞、助動詞、接頭語、文

[品詞毎の辞書情報](基本言語変換標準の品詞も含む)
名詞
名詞のタイプ:(接続助詞的名詞)

動詞
取り得る格助詞の値:(へ、と、から、より、まで、と(引用)、で)

形容詞
取り得る格助詞の値:(が、に、と、から、で)

形容動詞
取り得る格助詞の値:(が、に、と、から、で)

副詞
用法:(動詞修飾、数量修飾、形容詞・副詞修飾、文修飾)

連体詞
品詞のみ必須

接続詞
品詞のみ必須

単位
品詞のみ必須

感動詞
品詞のみ必須

助詞
種類:(格助詞、連体助詞、接続助詞、副助詞、並列助詞、終助詞、間投助詞)

助動詞
品詞のみ必須

接頭語
品詞のみ必須


品詞のみ必須

(b)拡張言語変換標準の英語の記述内容
[品詞]
限定詞、接続詞、単位、間投詞、前置詞、助動詞、代名詞、疑問詞、文

[品詞毎の辞書情報]
動詞
文型:(svoo、svoc)
進行形 :(可能、不可能)

形容詞
用法 :(叙述、前置修飾、後置修飾、前後修飾可)

副詞
用法 :(動詞修飾、数量修飾、形容詞・副詞修飾、文修飾)

限定詞
品詞のみ必須

接続詞
種類 :(等位、従属)

単位
品詞のみ必須

間投詞
品詞のみ必須

前置詞
品詞のみ必須

助動詞
品詞のみ必須

代名詞
種類:人称、指示
変化形:(主格、所有格、目的格) *人称代名詞のみ記述

疑問詞
種類:(who型、what型、where型、which型、why型、how型)


品詞のみ必須

(c)拡張言語変換標準の意味分類(基本言語変換標準の意味分類を含む)

具体、自然物、生物、動物、人、人以外の動物、植物、その他の生物、無生物、人工物、その他の具体物、抽象、行為、現象、関係、抽象物、属性、その他の抽象物、場所、時間、組織

(d)拡張言語変換標準の日英の対応

英語の構文形 動名詞、to不定詞、原形不定詞、that節、wh節、副詞小辞、形容詞

5.4.2 拡張言語変換標準記述形式の開発

(1)概要

拡張言語変換標準の記述形式の標準化のために検討を行なった。

検討作業は、まず拡張言語変換標準の個々の記述内容を記述するための「記述形式」について検討を行なった。さらに、拡張性を保証するための「新規タグ定義の方法」、「新規意味分類の定義方法」、「新規定義部分の記述規則」について検討を行なった。

(2)検討内容、および検討結果の詳細

拡張言語変換標準記述形式の開発における検討内容、および検討結果の詳細について述べる

(A)記述形式

個々の内容を記述するための記述形式は、基本言語変換標準の記述形式と同様に、タグを用いた記述形式を採用する。各記述内容に対応するタグを用意し、開始タグと終了タグによって値を括る形式とする。

(B)新規タグの定義方法
拡張言語変換標準は、広範な辞書情報を記述できることを一つの方針としてあげている。そこで、辞書記述者がUPF言語変換標準には定義されていない新たな辞書情報を追加することができるように、新規タグの定義方法を検討した。

新規タグの定義方法として以下の方法を案としてあげた。

<tagdefine>
(タグ名{タグ名の定義・説明};親のタグ名;許される値{値の定義・説明},…;コメント)
</tagdefine>

例)連体詞の型を記述するタグ<rentaitype>を定義する場合

<tagdefine>
(
<rentaitype>{日本語連体詞の型を記述する}
;<japanese>;いわゆる型{いわゆる、あらゆる等},の型{名詞+ので連体になるもの},たる型{形容動詞のたる活用のもの},指示型{この、その等};
)
</tagdefine>

バリューの定義(追加)はタグ名に既存のタグを指定する。

これに対して、「もっとSGMLに準拠した形で、記述可能とならないか」と意見があり、検討の結果以下のように改訂した。

<tagdefine>
<tag_name> タグ名 </tag_name>
<tag_descript> 説明 </tag_descript>
<parent_tag> 親のタグ名 </parent_tag>
<value_sets> 値のリスト </value_sets>
<value_sets_descript> 値の説明 </value_sets_descript>
<tagdefine_comment> コメント <<tagdefine_comment>
</tagdefine>

(C)新規意味分類の定義方法

新規タグ定義と同様に、辞書記述者がUPF言語変換標準には定義されていない新たな意味分類を追加することができるように、意味分類の定義方法を検討した。

意味分類の定義方法として以下の方法を案としてあげた。

<semanticdefine>
<semvalue>
(親ノード,親ノード.....;子ノード,子ノード,.....;コメント)
</semvalue>
</semanticdefine>

例)
<semanticdefine>

<semvalue>
(具体物;自然物,人工物,組織,その他の具体物)
(自然物;生物,無生物,その他の自然物)
(生物;動物,植物,その他の生物)
(動物;人間,四足獣,鳥,昆虫,魚,その他の生物)


</semvalue>
</semanticdefine>

これに対して、「もっとSGMLに準拠した形で、記述可能とならないか」と意見があり、検討の結果以下のように改訂した。

<semanticdefine>
<parent_node> 親ノード名,親ノード名,… <parent_node>
<child_node> 子ノード名,子ノード名,… <child_node>
<parent_node> 親ノード名,親ノード名,… <parent_node>
<child_node> 子ノード名,子ノード名,… <child_node>
<semdefine_comment> コメント </semdefine_comment>
</semanticdefine>

(D)新規定義部分の記述規則

新規タグの定義、および新規意味分類の定義部分は、UPF言語変換標準で定義されていない辞書情報を記述するためのものである。したがって、辞書中に記述する場所は、辞書ファイルの開始を表わす<dict>から実際の辞書データの開始を表わす<entry>までの間に記述する。

<dict>
<dicttype>jedict</dicttype>
<tagdefine>
:
</tagdefine>
<semanticdefine>
:
</semanticdefine>
<entry>
:
</entry>
</dict>

6 拡張言語変換標準記述仕様

△前の章へ ▲ページ先頭へ
6.1 概要

拡張言語変換標準記述仕様の以下の項目について述べる。

(1)拡張言語変換標準記述内容

拡張言語変換標準で規定した日本語、英語、意味分類、日英の対応の記述内容

(2)拡張言語変換標準記述形式

拡張言語変換標準で規定したファイル形式、および個々の記述内容を記述するための記述形式 6.2 拡張言語変換標準記述内容

6.2.1 日本語の記述内容

拡張言語変換標準の日本語の記述内容は以下の通りである。

[全体]

見出し語の読み、作成者名、作成日付、コメント

[品詞]
連体詞、接続詞、単位、感動詞、助詞、助動詞、接頭語、文

[品詞毎の辞書情報](基本言語変換標準の品詞も含む)
名詞
名詞のタイプ:(接続助詞的名詞)

動詞
取り得る格助詞の値:(へ、と、から、より、まで、と(引用)、で)

形容詞
取り得る格助詞の値:(が、に、と、から、で)

形容動詞
取り得る格助詞の値:(が、に、と、から、で)

副詞
用法:(動詞修飾、数量修飾、形容詞・副詞修飾、文修飾)

連体詞
品詞のみ必須

接続詞
品詞のみ必須

単位
品詞のみ必須

感動詞
品詞のみ必須

助詞
種類:(格助詞、連体助詞、接続助詞、副助詞、並列助詞、終助詞、間投助詞)

助動詞
品詞のみ必須

接頭語
品詞のみ必須


品詞のみ必須

6.2.2 英語の記述内容

拡張言語変換標準の英語の記述内容は以下の通りである。

[全体]

作成者名、作成日付、コメント

[品詞]
限定詞、接続詞、単位、間投詞、前置詞、助動詞、代名詞、疑問詞、文

[品詞毎の辞書情報](基本言語変換標準の品詞も含む)
動詞
文型:(svoo、svoc)
進行形 :(可能、不可能)

形容詞
用法:(叙述、前置修飾、後置修飾、前後修飾可)

副詞
用法:(動詞修飾、数量修飾、形容詞・副詞修飾、文修飾)

限定詞
品詞のみ必須

接続詞
種類 :(等位、従属)

単位
品詞のみ必須

間投詞
品詞のみ必須

前置詞
品詞のみ必須

助動詞
品詞のみ必須

代名詞
種類:人称、指示
変化形:(主格、所有格、目的格) *人称代名詞のみ記述

疑問詞
種類:(who型、what型、where型、which型、why型、how型)


品詞のみ必須

6.2.3 意味分類の記述内容

拡張言語変換標準の意味分類は以下の通りである。(基本言語変換標準の意味分類を含む)
具体、自然物、生物、動物、人、人以外の動物、植物、その他の生物、無生物、人工物、その他の具体物、抽象、行為、現象、関係、抽象物、属性、その他の抽象物、場所、時間、組織

6.2.4 日英の対応の記述内容

拡張言語変換標準では、日英の対応に記述する英語の構文形に、以下の構文形を認める。

英語の構文形
動名詞、to不定詞、原形不定詞、that節、wh節、副詞小辞、形容詞

6.3 拡張言語変換標準記述形式

6.3.1 個々の記述内容の記述形式

拡張言語変換標準の記述内容は、以下に示すタグと値によって記述する。

6.3.2 新規タグ定義の記述形式

新規タグ定義は、以下の形式で記述する。記述の場所は、<dict>タグから<entry>タグの間とする。

<tagdefine>
<tag_name> タグ名 </tag_name>
<tag_descript> 説明 </tag_descript>
<parent_tag> 親のタグ名 </parent_tag>
<value_sets> 値のリスト </value_sets>
<value_sets_descript> 値の説明 </value_sets_descript>
<tagdefine_comment> コメント <<tagdefine_comment>
</tagdefine>

6.3.3 新規意味分類の記述形式

新規意味分類は、以下の形式で記述する。記述の場所は、<dict>タグから<entry>タグの間とする。

<semanticdefine>
<parent_node> 親ノード名,親ノード名,… <parent_node>
<child_node> 子ノード名,子ノード名,… <child_node>
<parent_node> 親ノード名,親ノード名,… <parent_node>
<child_node> 子ノード名,子ノード名,… <child_node>
<semdefine_comment> コメント </semdefine_comment>
</semanticdefine>

△最後の章へ ▲ページ先頭へ


Last Update : 1 Mar. 1998