形態素解析プログラムの作成(情報メディア創成学類)

自然言語処理(情報(科)学類)

- 辞書と日本語単語分割 -


  1. 担当教官


  2. 実施学期


  3. 実験テキストと資料


  4. 実験概要

     自然言語処理とは日本語や英語のように人間が使用する言語で 書かれたテキストを計算機で処理する技術である。 本実験では、日本語テキストを対象とした単語分割(専門用語では形態素解析という)の実験を行う。 日本語テキストは英語等とは異なり、テキスト中の単語境界が明示的ではなく、 何をするにもまず単語に分割する必要があるため、 日本語単語分割技術は高度な日本語自然言語処理の基本技術となっている。 本実験の目的は以下の2つを体験的に学習することである。


    具体的な課題は、いくつかの分割手法を用いた日本語単語分割システムの作成と、 その応用として日本語テキストを入力とする簡単な日英辞書引きシステムを 作成することである。 様々な単語分割手法があるが、本実験では、 以下のような単語分割手法を取り上げる(実際に作成するのはこのうちの2つ〜3つ)。


    実装に関しては、計算機上での辞書の実装方法(トライや二分探索)が重要である。 本実験を通して、基本的なデータ構造とアルゴリズムの理解を深める。

  5. 関連科目


  6. 備考

    本実験は、授業「知識・自然言語処理(情報メディア創成学類)」 あるいは「自然言語処理(情報(科)学類)」を受講していることを前提とする。 授業のホームページはここから。