DSpace 北海学園学術情報リポジトリ
Hokkai-Gakuen Organization of Knowledge Ubiquitous through Gaining Archives
 

HOKUGA >
北海学園大学 >
工学部・工学研究科 >
研究紀要 >
北海学園大学工学部研究報告 >
第32号 >

このアイテムの引用には次の識別子を使用してください: http://hokuga.hgu.jp/dspace/handle/123456789/784

タイトル: アイヌ語-日本語対訳コーパスを対象とした局所着目型学習による対訳語の自動抽出
その他のタイトル: Automatic Extraction of Bilingual Word Pairs Using Local Focus-based Learning from an Ainu-Japanese Parallel Corpus
著者: 越前谷, 博
荒木, 健治
桃内, 佳雄
ECHIZENYA, Hiroshi
ARAKI, Kenji
MOMOUCHI, Yoshio
発行日: 21-Feb-2005
出版者: 北海学園大学工学部
抄録: 対訳辞書の品質向上のために対訳コーパスから対訳語を抽出することは、より自然な訳語や新たな表現の訳語を得るために非常に有効である。しかし、これまでの対訳コーパスから対訳語を自動抽出する研究では、大規模な対訳コーパスが不可欠となる。様々な言語を対象とした場合、常に大規模な対訳コーパスが得られるとは限らないため、この問題は深刻である。我々は、この問題点を解決するために新たな手法として、局所着目型学習を用いた対訳語の自動抽出手法を提案する。本手法は、対訳文中の局所部分を対象に語の対応関係を決定するため探索範囲を限定できる。さらに、言語間のコロケーションを利用することで、抽出対象の対訳語そのものの出現頻度が低い場合でも対訳語を効率よく自動抽出することが可能である。性能評価実験では、名詞および動詞対訳語の平均出現頻度が1.96である小規模なアイヌ語-日本語対訳コーパスを対象に名詞対訳語と動詞対訳語の自動抽出を試みた。実験の結果、再現率として54.0%、適合率として60.8%が得られた。この結果は、統計的手法の再現率に比べ10%以上高い値であり、本手法の有効性を示すものである。さらに、既存の辞書には存在しない、より自然な訳語や新たな表現の訳語の抽出も確認された。
Using a parallel corpus is effective to obtain many high-quality equivalents. Most of methods that extract bilingual word pairs requires a large parallel corpus. However, it is difficult to obtain such a large parallel corpus easily for various languages.
URI: http://hokuga.hgu.jp/dspace/handle/123456789/784
出現コレクション:第32号

このアイテムのファイル:

ファイル 記述 サイズフォーマット
KOUGAKU-32-5.pdf1.39 MBAdobe PDF見る/開く

このリポジトリに保管されているアイテムは、他に指定されている場合を除き、著作権により保護されています。