形態素解析プログラムの作成(情報メディア創成学類)
自然言語処理(情報(科)学類)
- 辞書と日本語単語分割 -
-
担当教官
- 山本幹雄 ; myama AT cs.tsukuba.ac.jp ( 内線6559, 総B908 )
-
実施学期
-
実験テキストと資料
- 実験テキストのpdfファイルはここ(32ページ)。
(テキストには「情報学類」と書いてありますが、情報メディア創成学類も情報科学類も同じテキストでよいです)
- 上記テキストだけでも実験できるように書いてはありますが、関連授業の
資料も参考になるはずです。ホームページにはここから。
-
実験概要
自然言語処理とは日本語や英語のように人間が使用する言語で
書かれたテキストを計算機で処理する技術である。
本実験では、日本語テキストを対象とした単語分割(専門用語では形態素解析という)の実験を行う。
日本語テキストは英語等とは異なり、テキスト中の単語境界が明示的ではなく、
何をするにもまず単語に分割する必要があるため、
日本語単語分割技術は高度な日本語自然言語処理の基本技術となっている。
本実験の目的は以下の2つを体験的に学習することである。
- 様々な日本語単語分割法
- 辞書を計算機上で実装するためのデータ構造とアルゴリズム
具体的な課題は、いくつかの分割手法を用いた日本語単語分割システムの作成と、
その応用として日本語テキストを入力とする簡単な日英辞書引きシステムを
作成することである。
様々な単語分割手法があるが、本実験では、
以下のような単語分割手法を取り上げる(実際に作成するのはこのうちの2つ〜3つ)。
- 字種による分割
- 最長一致法による分割
- 単語数最小法による分割
- 文節数最小法による分割
- コスト最小法
- 確率的形態素解析
実装に関しては、計算機上での辞書の実装方法(トライや二分探索)が重要である。
本実験を通して、基本的なデータ構造とアルゴリズムの理解を深める。
関連科目
- データ構造とアルゴリズム(2年生; 1学期)
- 知識・自然言語処理(情報メディア創成学類3,4年生; 2学期)
- 自然言語処理(情報(科)学類3,4年生; 2学期)
備考
本実験は、授業「知識・自然言語処理(情報メディア創成学類)」
あるいは「自然言語処理(情報(科)学類)」を受講していることを前提とする。
授業のホームページはここから。