情報検索概論

  [ GB31701 ]
Information Retrieval
対象:3・4学年 開設学期:秋AB 曜日・時限:木1・2 単位数:2単位
担当教員:北川博之

概要

情報検索の基本的事項について講義する。テキスト検索に関する主要な技術を解説した後、マルチメディア情報検索、WWWサーチエンジン、XMLなどに関する入門的な説明を行う。講義を主体とするが,演習を適宜組み合わせて授業を行う。

学習・教育目標

  1. 情報検索の基本概念およびブール検索モデルについて理解する。(第1週)
  2. 索引語の抽出と重み付け手法について学ぶ。(第2週)
  3. 情報検索システムを効率的に実現するための索引手法について理解する。(第3週)
  4. ベクトル空間モデルとそれに関連する検索手法について学ぶ。(第4週)
  5. 情報検索の有効性評価尺度について学ぶ。(第5週)
  6. 文書群のクラスタリング手法の基礎について学ぶ。(第6週)
  7. マルチメディア情報検索の基本概念について学ぶ。(第7週)
  8. 構造化文書、特にXMLの役割、および関連する技術を学ぶ。(第8〜9週)
  9. WWW情報探索、WWWサーチエンジンについて学び、情報検索技術の果たす役割を理解する。(第9〜10週)

キーワード

情報検索,文書検索,マルチメディア検索,構造化文書,WWW

Keywords

Information Retrieval, Document Retrieval, Maltimedia Retrieval, Structured Document, WWW

時間割

講義内容/理解すべき項目
第1週情報検索の基本概念/ブール検索モデル
基本用語、情報検索の特徴、情報検索の分類、応用と関連分野/ブール検索モデルとは、転置ファイルによる実装
第2週索引語の抽出と重み付け
索引語・不要語、接辞処理、日本語における索引語抽出、索引語の重み付け
第3週ベクトル空間モデル
ベクトル空間モデルとは、適合性フィードバック、潜在的意味インデクシング(LSI)
第4週情報検索のための索引手法
転置ファイルによるベクトル空間モデルの実装、文字列索引(接尾辞配列)、シグネチャファイル
第5週 情報検索システムの評価
有効性の指標、再現率、適合率、再現率・適合率曲線、平均適合率、F尺度、E尺度
第6週文書のクラスタリング
クラスタリングとは、階層的クラスタリング、単一パス法、k-means法
第7週マルチメディア情報検索
マルチメディア検索の基本概念、特徴ベクトルと類似度、画像データ検索、時系列データ検索、空間索引、空間充填曲線
第8〜9週構造化文書
構造化文書の概念、XML、XML操作ツール(XPath、DOM、XQuery等)
第9〜10週WWW情報検索
WWW検索の仕組み、WWW検索の特徴と課題、WWWサーチエンジン、ハイパーリンク情報の利用、PageRank、HITS

教材

毎週プリントを配布する。

参考書籍

「情報検索と言語処理」(徳永健伸著、東京大学出版会)
「情報検索アルゴリズム」(北研二、津田和彦、獅々堀正幹著、共立出版)

予備知識・前提条件

線形代数の初歩的知識があることが望ましい。また、理解を深めるためにはデータベース概論Iを履修していることが望ましい。

成績評価

演習・実習課題レポート(25%)、出席(10%)、学期末試験(65%)により評価を行う。演習・実習課題レポートは採点後返却するので、各自の理解度を確認すること。毎回出欠をとる。

教員メールアドレス

北川博之:kitagawa(AT)cs.tsukuba.ac.jp

TF・TA

TAまたはTFを配置

オフィスアワー

水 12:00〜13:30 総B903(北川)
それ以外も随時メールにて対応