DSpace
Hokkai-Gakuen Organization of Knowledge Ubiquitous through Gaining Archives
 

HOKUGA >
北海学園大学 >
工学部・工学研究科 >
研究紀要 >
北海学園大学工学部研究報告 >
第32号 >

Please use this identifier to cite or link to this item: http://hokuga.hgu.jp/dspace/handle/123456789/784

Title: アイヌ語-日本語対訳コーパスを対象とした局所着目型学習による対訳語の自動抽出
Other Titles: Automatic Extraction of Bilingual Word Pairs Using Local Focus-based Learning from an Ainu-Japanese Parallel Corpus
Authors: 越前谷, 博
荒木, 健治
桃内, 佳雄
ECHIZENYA, Hiroshi
ARAKI, Kenji
MOMOUCHI, Yoshio
Issue Date: 21-Feb-2005
Publisher: 北海学園大学工学部
Abstract: 対訳辞書の品質向上のために対訳コーパスから対訳語を抽出することは、より自然な訳語や新たな表現の訳語を得るために非常に有効である。しかし、これまでの対訳コーパスから対訳語を自動抽出する研究では、大規模な対訳コーパスが不可欠となる。様々な言語を対象とした場合、常に大規模な対訳コーパスが得られるとは限らないため、この問題は深刻である。我々は、この問題点を解決するために新たな手法として、局所着目型学習を用いた対訳語の自動抽出手法を提案する。本手法は、対訳文中の局所部分を対象に語の対応関係を決定するため探索範囲を限定できる。さらに、言語間のコロケーションを利用することで、抽出対象の対訳語そのものの出現頻度が低い場合でも対訳語を効率よく自動抽出することが可能である。性能評価実験では、名詞および動詞対訳語の平均出現頻度が1.96である小規模なアイヌ語-日本語対訳コーパスを対象に名詞対訳語と動詞対訳語の自動抽出を試みた。実験の結果、再現率として54.0%、適合率として60.8%が得られた。この結果は、統計的手法の再現率に比べ10%以上高い値であり、本手法の有効性を示すものである。さらに、既存の辞書には存在しない、より自然な訳語や新たな表現の訳語の抽出も確認された。
Using a parallel corpus is effective to obtain many high-quality equivalents. Most of methods that extract bilingual word pairs requires a large parallel corpus. However, it is difficult to obtain such a large parallel corpus easily for various languages.
URI: http://hokuga.hgu.jp/dspace/handle/123456789/784
Appears in Collections:第32号

Files in This Item:

File Description SizeFormat
KOUGAKU-32-5.pdf1.39 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.