パターン認識

  [ GB40201 ]
Pattern Recognition
対象:3・4学年 開設学期:秋AB 曜日・時限:木3・4 単位数:2単位
担当教員:平井有三

概要

文字認識、音声認識、画像認識、テキスト・データマイニング、知識処理、バイオインフォーマティクスなど、 幅広い分野の必需品である統計的パターン認識の基礎的概念や代表的な学習・認識アルゴリズムの理解を目指す。

学習・教育目標

  1. パターン認識の世界を例題を用いながら概観し、パターン認識が「特徴抽出」、「学習」、「識別規則」からなることを理解する。さらに、学習データを用いて設計した識別機械が実世界で犯す誤りを予測すること、すなわち汎化能力を予測することの重要性を理解する。
  2. パターン認識の代表的な学習・識別アルゴリズムである、ベイズの識別規則、kNN法、線形識別関数、パーセプトロン型学習規則、サポートベクトルマシン、部分空間法、クラスタリング、識別器の組み合わせによる性能強化などについてその原理を理解するとともに、それらの特性について理解を深める。

キーワード

汎化能力、線形・非線形識別関数、サポートベクトルマシン、カーネルトリック、識別機の組み合わせによる性能強化

Keywords

generalization capability, linear and nonlinear discriminant functions, support vector machines, kernel trick, enhancement of discriminative capability by combining recognizers

時間割

講義内容
第1週1.統計的パターン認識の概要
統計的パターン認識が広範な応用分野で利用されていることを多くの例を用いて示し、パターン認識の処理の流れと、認識性能の評価基準である汎化能力について解説する。また、特徴空間の次元の呪いについて触れる。
第2週2. ベイズの識別規則
統計的パターン認識の最も基本的な手法である、事後確率最大基準に基づくベイズの識別規則が、誤り最小、損失最小であることを説明する。さらに、広く使われている認識性能評価手法である受信者動作曲線について解説する。
第3週3. 確率モデルと識別関数
学習データの統計量を用いた種々の線形変換とその役割について解説する。確率モデルとして正規分布を用いた場合の識別関数を導く。また、確率モデルのパラメータを学習データから推定する重要な手法の一つである最尤推定法について解説する。
第4週4. k最近傍法
学習データそのものを識別に用いるk最近傍法の原理を解説し、その誤り率とベイズの識別規則の誤り率が密接に関連していることを示す。k最近傍法は入力データと全ての学習データとの距離計算を行うため時間がかかるので、その緩和法について解説する。
第5週5. 線形識別関数
線形識別関数によって構成される識別超平面について解説し、多クラス問題への拡張法について議論する。線形識別関数のパラメータを求める3つの手法、最小2乗誤差基準に基づく正規方程式、線形判別関数、ロジスティック回帰について解説する。
(ここまでを範囲として中間試験を行う予定)
第6週6.パーセプトロン型学習規則
2クラスの線形識別関数を求める古典的な学習規則であるパーセプトロンの学習規則について解説する。学習の難しさを表すマージンの概念を導入し、学習データが線形分離可能であれば学習が収束することを示す。パーセプトロンを多層化し、線形分離可能性という厳しい制約を外した誤差逆伝搬法について解説し、非線形識別関数が持つ様々な性質について議論する。また、最近話題のDeep Learningについても触れる予定である。
第7週7. サポートベクトルマシン
現在最も広く利用されている、最大マージンを持つ線形識別関数を求める手法であるサポートベクトルマシンの原理を解説する。また、線形分離可能でない学習データを非線形特徴写像により高次元特徴空間に写像することで線形識別関数でも識別可能になるという予測と、高次元特徴空間における内積計算を原空間での内積計算で効率的に行うことができるカーネルトリックについて解説する。 サポートベクトルマシンに関するRを用いた実習課題を課す予定である。
第8週8. 部分空間法
特徴空間の次元は低い方がよい。次元を縮約する手法の一つである主成分分析について解説した後、クラス毎に学習データの主成分分析を行って作った部分空間を用いて識別する部分空間法について解説する。さらに、カーネルトリックを用いたカーネル主成分分析、カーネル部分空間法について触れる。
第9週9. クラスタリング
学習データ間の類似度を手がかりに、学習データをいくつかのクラスタにグループ分けし識別を行うクラスタリングについて解説する。非階層的、階層的なクラスタリングの手法について説明した後、混合正規分布モデルを用いた確率的なクラスタリングと、確率モデルパラメータを求めるためのEMアルゴリズムを紹介する。
第10週10. 識別器の組み合わせによる性能強化
どのような識別問題に対しても最も性能がよい識別器は存在しないことを示したノーフリーランチ定理について紹介した後、複数の識別器を組み合わせて全体として識別性能を上げる手法について紹介する。組み合わせる識別器として決定木を用い、代表的な手法であるバギング、アダブースト、ランダムフォレストについて解説する。
第11週   期末試験

教材

教科書として、平井有三著「はじめてのパターン認識」森北出版を使用する。授業の前に入手しておくことが望ましい。

参考書籍

授業の中で随時紹介する。

予備知識・前提条件

線形代数の復習をしておくこと。確率論と統計学の講義を受けていることが望ましい。必要な知識は必要に応じて講義の中で説明する。大体1日1章のペースで授業を行うが、休むとついてくるのがしんどくなる。教科書に従って授業を進めるのでリカバー可能であるが要注意。どの科目でも同じではあるが。

成績評価

線形識別関数までを範囲とした中間試験と残りの範囲を対象とした期末試験、およびRの実習課題などのレポート提出課題により成績評価を行う。試験を上限80%、提出課題などを下限20%の割合で評価する予定である。全体評価で60%の得点を得ることが単位取得の条件である。

教員メールアドレス

連絡は世話人の狩野先生(kanoh AT cs.tsukuba.ac.jp)を通して行うこと。

講義のWebページ

特になし。