検索、正規表現、Emacsによる検索と置き換え
2017年06月23日
情報科学類 コンピュータリテラシ
筑波大学 システム情報系 情報工学域
新城 靖
<yas@cs.tsukuba.ac.jp>
このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~yas/coins/literacy-2017/2017-06-23
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~yas/
http://www.cs.tsukuba.ac.jp/~yas/
■連絡事項
- 次回 6月27日火曜日 は、講義室 3A209 に集合。
■補足
- 検索エンジンよりも、人(TA、教員、隣人)に聞いた方が早い
特に、プログラミングでは。
- 他人をうまく使う方法(相互なので、他人からうまく使われる方法)を鍛
えたい。
■検索に必要な考え方
◆ヒット率と選択率
- ヒット率
- 欲しかった情報のうち、どのくらい見つかったか。
- 選択率
- 見つかった情報のうち、どのくらいが本当に欲しかったものか。

図? ヒット率と選択率
あちらを立てればこちらが立たず。
トレードオフ。
◆3つの論理演算
- AND、両方)、(&)
- OR、どちらか、または (|)
- NOT、否定、ふくまない (!)
外枠は、全体(たとえば、インターネット上の膨大な数のWWWページ)を表す。
色が付いている所が、見つかったデータを表す。
「keyword1」で検索。

図? キーワードを1つ与えた時
keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)
keyword1 OR keyword2 OR keyword3

図? キーワードを3つ与えた時(OR)
NOT keyword1

図? キーワードを1つ与えた時(NOT)
キーワードを1つ与えた時の NOT は使えない。
NOT keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND,NOT)
NOT は、AND といっしょにつかう。
NOT 単独では、使えない。
◆絞込検索
絞込検索(しぼりこみけんさく)のイメージ

図? キーワードを1つ与えた時

図? キーワードを2つ与えた時

図? キーワードを3つ与えた時
絞込検索は、基本的には、AND と同じ(注意: キーワードの順番に反応する検
索エンジンもある。AND では順番は関係ない。)。
keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)
■WWW検索エンジン
The Unix Super Text 28.5節,34章 参照。
インターネット上にある膨大な情報から、必要な情報を見つけ出すためには、
次のような方法がある。
- 興味のあるWWWページに埋め込まれているリンクを次々と手繰っていく。
- 雑誌やテレビなど、一般のメディアに掲載されたURLを打ち込む。
- 人間によってよく整理されたメニュー(ディレクトリ)を次々に選択していく。
- キーワードを打ち込んで探す(キーワード検索)。
検索対象のデータ(今の場合、WWWページ)にも、キーワードが与えられて
いる。キーワード検索とは、利用者から与えられたキーワードを持つ対象デー
タを利用者に返すことである。
検索するより、人に聞いた方が速いことも多い。
◆検索エンジンとWWWロボット
- 検索エンジン(サーチエンジン)
-
WWWで検索機能を使う時、実際に検索を行うプログラム。
インターネット上のあるWWWサーバで動いていてる。
検索結果は、手元のWWWブラウザの画面に表示される。
検索対象のデータにキーワードを与える方法
- 内容すべてをキーワードと考える(全文検索)
- 特定のキーワードを与える
- WWWページを作った人がキーワードを与える
- 検索エンジンの提供者(人間)がキーワードを与える
- プログラムでキーワードを自動抽出する
自動抽出したものは、ヒット率はよいが選択率が悪い。
人間が整理したものは、選択率はよいがヒット率が悪い。
- WWWロボット。クローラ。
- WWWページからプログラムでキーワードを自動抽出するプログラム。
WWWロボットの動き
- ロボットは、あるURLが与えられると、そのページ
を訪れる(ページの内容を得る)。
- 得たページの内容を解析して、キーワードを抽出する。
- そのページにリンクが含まれていたら、1 に戻って繰り返す。
このような繰り返しの方法を、コンピュータ・サイエンスの用語では
再帰(recursion)
とう。ロボットは、世界中の WWWページを歩き回り、キーワードを抽出する。
ただし、一度訪れたことがあるページは記録しておいて、2度訪れないようす
る。
◆まとめページ、まとめサイトの危険性
ある話題について、掲示板やブログ等に投稿された特定の話題のメッセージを
読みやすいようにまとめたページやまとめたページをまとめページ、あるいは、
まとめサイトと呼ぶことがある。有用なデータがまとめられていることもある
が、恣意的な編集がなされていることも多い。単にアクセス数を増やして広告
表示回数を増やす目的のために設置されているものも多い。
◆検索エンジンでのAND、OR、NOT
多くの検索エンジン(Google、Yahoo!Japan、Microsoft Bing, DuckDuckGo等)では、
次の方法で、AND、OR、NOT を用いた検索が可能。
- AND
- 空白で区切り、キーワードを並べる。「AND」と書かない。
- OR
- OR と大文字書く。
- NOT
- マイナス「
-
」を使う。単独では使えない。「keyword1
-keyword2」のように使う。
参考
◆検索エンジンの高度な検索機能
- 特定の Web サーバ内で検索する。
site:ドメイン名
site:http://www.coins.tsukuba.ac.jp
site:tsukuba.ac.jp
- フレーズによる検索。単に AND ではなく、その順番で出てくる。
(ダブルクォートで括る)
"word1 word2"
"University of Tsukuba"
"筑波大学"
"情報科学類"
ダブルクォート無しでは、"情報" "科学" "類", "情" "報科" "学類", "情報科
" "学類", "情報科学" "類" のような切り方で探す。
- ワイルドカード。単語の途中に入る。
"word1 * word2"
"University * Tsukuba"
- 更新された日時を指定する(例:過去1週間以内)
- 英語、日本語等の言語を指定する。
- 地域を指定する。
- ファイルの型(テキスト、PDF、等)を指定する。
◆フィルタ・バブル
検索エンジンの結果が、ユーザの好みに合うように変化する。
ユーザは、泡(バブル)の中に閉じこめられる。
参考
■ファイルの検索
◆コマンドによるファイルの検索
Unix では、次のようなコマンドでファイルの検索ができる。
- シェル
-
ファイル名置換
(
*,?,[]
) のパタンを使って、ファイル名で検索できる。
- find コマンド
- ファイル名、属性(所有者、グループ、日付、モード)等で検索できる。
外部のコマンドも実行できる。
The Unix Super Text 33.1.5 参照
- grep コマンド
- ファイルの内容で検索できる。
The Unix Super Text 33.1.5 参照。
The Unix Super Text 第32章 正規表現 参照。
◆lv
lv コマンドは、less コマンドと同様に、表示しているファイルを検索する機
能がある。次のようなキーが使える。
キー | 説明 |
/パタン | 順方向検索 |
n | 順方向検索次候補 |
/![[←]](../icons/screen-return.gif) | 順方向検索次候補 |
?パタン | 逆方向検索 |
?![[←]](../icons/screen-return.gif) | 逆方向検索次候補 |
手引き 2.6.2 参照。
The Unix Super Text 33.1.4 参照。
■正規表現(regular expression)
- 正規表現とは、文字列の集合を表す方法の一種。
対象となる文字列と適合するかしないか(マッチング)を行い、
適合するものだけを取り出す/適合しないものだけを取り出す。
- 検索や置換えで使う。
- オートマトン理論や言語理論に基づいた高速な実現方法がある。
- 単純な「ワイルドカード」よりも、高い表現能力を持つ。
- grep コマンド、Emacs、less (lv) での検索で使える。
単純な検索。
- 完全一致/部分一致/前方一致/後方一致
- 単純なワイルドカード(*)。1カ所だけにに使える。複数箇所にはつかえない。
たとえば、「a*b*c」とは書けない。
正規表現の例:「^a.*tion$
」。「aで始まり、tionで終わるもの」。
「^
」、「.
」、「*
」、「$
」 は、
メタキャラクタ。特別の意味を持つ。
メタキャラクタを含まない文字列も、正規表現として意味を持つ。
◆正規表現とファイル名置換
ファイル名
置換と grep を使い分ける。orが入っているものは、grep ではなく egrep
(eがあるgrep)を使う。
$ cd /usr/bin
$ ls at*
at atos atq atrm atsutil
$ ls | grep '^at'
at
atos
atq
atrm
atsutil
$ ls *[89]*
c89 tclsh8.4 wish8.4
c99 tclsh8.5 wish8.5
$ ls | egrep '8|9'
c89
c99
tclsh8.4
tclsh8.5
wish8.4
wish8.5
$
grep コマンド、egrep コマンド、Emacs での正規表現の使い方。
■Emacs
◆Emacsの検索
Emacs には、通常の検索とインクリメンタルな検索の2種類の検索がある。
The Unix Super Text 12.4.6 参照
手引き 3.3.7 参照。
- インクリメンタル: 文字を1文字入力する度に、カーソルを移動する。
C-s (下方向)、C-r (上方向) で開始。RET (Return キー、Enter キー、
) で終了。
- 非インクリメンタル: 検索したい文字列を全て打ち終えてから検索を開始する。
C-s (下方向)、C-r (上方向) 直後に、RET と打つ。
インクリメンタル・サーチの途中で、検索する文字を打つ代わりに、C-s, C-r
を打つと次に見つかった場所にカーソルが移動する。
◆Emacsの検索と文字列の置換え
The Unix Super Text 12.4.6 参照。
手引き 3.3.7 参照。
M-x query-replace (M-%, Esc %) が便利。
M-% と打つと、ミニバッファで次のように聞かれる。
Query replace: 置き換え前の文字列
Query replace 置き換え前の文字列 with: 置き換え後の文字列
キー | 意味 |
y (または SPC) | 置き換え |
n | 次の候補に移動 |
q | 終了 |
! | 以降すべて置換 |
その他に、次のような置換え機能がある。
The Unix Super Text 33.2 参照。
- replace-string: y/n を聞かないで一気に置換える
- replace-regexp: 正規表現を使って置換える。
- query-replace-regexp: 正規表現を使って置換える。y/n を聞いて来る。
■実習
実習時間中には、
以下の課題をできるだけ多く行いなさい。全部を行う必要はない。
★練習問題(2001) Emacs インクリメンタルな検索
手引き 3.3.7 参照。
Emacs のインクリメンタルサーチ機能を使ってみなさい。
- Emacs を実行する
- C-x C-f で大きなファイル(1画面に入らないくらい)を開く
- C-s と打ち、インクリメンタルサーチを開始する。
- ファイルの下の方に存在するであろう文字列のうち、先頭の何文字かを打つ。
たとえば、abc123 を検索したい場合、abc 程度で止める。
- 見つかれば、RET で終了する
- 見つかななければ、C-s で次に進むか、さらに追加の文字を打つ
C-s (上から下方向の検索)の代わりに、C-r (下から上方向の検索)を利用してみなさい。
- Emacs を実行する
- C-x C-f で大きなファイル(1画面に入らないくらい)を開く
- Esc > (M->) で、ファイルの末尾に移動する。
- C-r と打ち、インクリメンタルサーチを開始する。
- ファイルの「上の方」に存在するであろう文字列のうち、先頭の何文字かを打つ。
たとえば、abc123 を検索したい場合、abc 程度で止める。
- 見つかれば、RET で終了する
- 見つかななければ、C-r で次に進むか、さらに追加の文字を打つ
インクリメンタル・サーチとカーソル移動(矢印キー、C-v, M-v)とを比較して、
インクリメンタル・サーチの利点を考えなさい。
★練習問題(2002) Emacs 非インクリメンタルな検索
Emacs で非インクリメンタルな検索機能を使ってみなさい。
- インクリメンタル・サーチで、文字を打つ前に RET (
) を打つ
- 文字を打ち、RET
★練習問題(2003) Emacs query-replace
Emacs で query-replace を利用してみなさい。
- 練習用に、内容が破壊されても問題ないファイルを用意する。
たとえば、過去に提出したレポートを cp コマンドでコピーする。
- そのファイルを emacs 開く
- M-% (Esc %)と打つ
- 以後、Emacsの検索と文字列の置換え参照。
★練習問題(2004) lvの検索機能
手引き 2.6.2 参照。
ページャ lv には、検索機能がある。
表
にあるキーの動きを確かめなさい。
- lv を実行する。lv でファイルを表示したり、
man コマンドでマニュアルを表示する。
$ man lv
$ lv -h
- 「/文字列
」で検索。例「/-l
」
- 「n」 で次を検索
- 「/
」 で次を探す
- 「G」でファイルの末尾に移動
- 「?文字列
」で逆方向に検索
- 「?
」で逆方向に次を検索
★練習問題(2005) Firefoxの検索機能
Firefox には、表示しているページ内の文字列を検索する機能がある。
この機能を確認しなさい。
- 一番上のメニューバーの「編集」メニューから「検索」を選ぶ(Command+F)。
すると、左下に、キーワードを打ち込むための箱が現れる。
- 「
/
」キーを打つ。キーワードを1文字打つ度に、Emacs と同様に
インクリメンタル・サーチが行われる。
- 一番上のメニューバーの「編集」メニューから「次を検索(Command+G)」を選ぶと、次の候補に移動する。
ページ内検索
参照。
★練習問題(2006) Thunderbirdの検索機能
Thunderbirdには次のような検索機能がある。
- 現在のメッセージ内のテキストを検索(Command+F)
- 現在のメッセージ内で再検索(Command+G)
- 現在のメッセージ内で前を再検索(Command+Shift+G)
- クイックフィルタバー。現在表示中のフォルダを検索。
- すべてのメッセージを検索 (グローバル検索)。
これらの機能を確認しなさい。
詳しくは、「ヘルプ」メニューから「Thunderbird ヘルプ」を選びなさい。
★練習問題(2007) オフィース・ツールの検索機能
オフィース・ツール(MS Word, Excel等)の検索機能を利用してみなさい。
置換え機能もある。
★練習問題(2008) WWW検索エンジンの利用
自分が普段つかっているWWW検索エンジンで次の演算を実行するためには、どの
ように記述すべきかを調べなさい。そして、その方法がうまく動作することを
確認しなさい。
★練習問題(2009) WWW検索エンジンの利用、site:、フレーズ、ワイルドカード
検索エンジンの高度な検索機能
を利用してみなさい。
- 特定の Web サーバ内で検索する。
- フレーズによる検索。
- ワイルドカード。
- 更新された日時の指定。
- 地域の指定。
- ファイルの型の指定。
- その他
参考
★練習問題(2010) 検索エンジンの一時的な変更
Firefox で、一時的に他の検索エンジンで検索してみなさい。
- (検索ボックスに検索したいキーワードを打ち込む。後でもよい)
- 検索ボックスの左側の虫眼鏡の部分をクリックして、
登録されている検索エンジンの一覧表を表示する。
(クリックで拡大)
- 一覧表の中かから、検索エンジンを選ぶ。
★練習問題(2011) 検索エンジンの変更
Firefox で、検索エンジンを変更する方法を確認しなさい。
- 一番上のメニューバーで、「Firefox」をクリックし、表示されたメニュー
から「環境設定...」を選び、
Firefox、環境設定タブ
を開く。
- 「検索」パネルを開く。
- 「デフォルト検索エンジン」の下の「▼」の部分をクリックし、
目的のものを選択する。
(クリックで拡大)
★練習問題(2012) 筑波大学付属図書館の検索機能
http://www.tulips.tsukuba.ac.jp/,筑波大学付属図書館
で図
書の検索を行いなさい。3つの演算(AND, OR, NOT)をどのようにして利用する
かを調べなさい。
★練習問題(2013) フィルタ・バブルの観測
検索エンジンの結果が、過去の検索結果やクリックした広告等で変化すること
を観測しなさい。
★練習問題(2014) ジョブ制御
The Unix Super Text 22.3節 参照。
次の機能を確認しなさい。
- ^Z (Control+Z) キー
-
jobs
コマンド
-
fg
コマンド
-
bg
コマンド
-
%
によるジョブの指定方法
-
stop
コマンド (%
による指定)
-
kill
コマンド (%
による指定)
★練習問題(2015) 制御構造
The Unix Super Text 40.15 参照。
次の機能を確認しなさい。
-
if then else fi
-
for
-
while
-
case
-
exec
-
eval
-
exit
-
.
★練習問題(2016) bashの関数
bash の関数を利用してみなさい。
The Unix Super Text 40.15.5 参照。
★練習問題(2017) bash算術計算
bash では $((式))
で簡単な計算ができる。
この機能を確認しなさい。
The Unix Super Text 41.3.8項 参照。
$ cat add
#!/bin/bash
a=$1
b=$2
x=$(($a + $b))
echo $x
$ ./add 10 20
30
$
★練習問題(2018) 条件付きでplatexを2回実行する
platexを2回実行するシェル・スクリプト
で、
1回目の実行でエラーが出た時には、2回目は実行しないようにしなさい。
ヒント: if を使う。
「&&」を使う方法もある。
★練習問題(2019) 条件付きでのplatex、dvipdfmx、Preview.appの連続実行
platex、dvipdfmx、Preview.appの連続実行
で、前のプログラムの
実行でエラーが出た時には、次のプログラムは実行しないようにしなさい。
★練習問題(2020) C言語のソース・プログラムだけを表示するls
与えられたディレクトリのC言語のソース・プログラムだけを表示するシェル・
スクリプトを作りなさい。
$ ls-c ~/syspro/file/
fd-print.c
file-copy.c
mmap-head.c
stdio-thru.c
utmp-print.c
wtmp-last10.c
ystat.c
ystat.h
ヒント:シェルの
ファイル名置換
で *.c や *.h といったファイル名のものだけを取り出す。
余裕があれば、-l などのオプションが付けられるようにしなさい。
★練習問題(2021) バックアップ・ファイルとのdiff(複数ファイル)
バックアップ・ファイルとのdiff
で複数のファイルを引数に取れるよう
にしなさい。
$ diff-backup kadai10.txt kadai11.txt kadai12.txt
ヒント:for 文で、引数のファイルについて、"$file"~ のような名前のファイ
ルが存在するかを調べる。存在すれば、diff コマンドで表示する。
★練習問題(2022) 小文字のファイル名への変更
Windows 系のコンピュータから Unix へファイルをコピーすると大文字のファ
イル名になってしまうことがある。そのようなファイル名を全て小文字にする
ようなスクリプトを書きなさい。
$ mv-lower [A-Z]*
ヒント:ファイル名を echo して、tr で小文字にして、それを
`` でシェル変数に入れる。元の名前から小文字
の名前に mv で変える。
余裕があれば、大文字と小文字を変換することで、ファイルが上書きされる時
には警告を出したり、ユーザに問い合わせたりするようにしなさい。
★練習問題(2023) ファイルのn行目からm行目までの表示
引数として2つの数 n, m 、および、ファイル名を取り、そのファイルの n
行めから m 行目までを表示するシェル・スクリプトを作りなさい。
たとえば、次の例では、ファイルの 10 行目から 20 行目までを表示する。
$ show-n-m 10 20 filename
余裕があれば、-n オプションを付けなさい。これは、ファイルに行番号を振
るものである。nl コマンドを使うとよい。(cat -n が使えるシステムもある。)
★練習問題(2024) カウント・ダウン
秒単位でカウント・ダウンをするようなシェル・スクリプトを作りなさい。
$ countdown 5
5
4
3
2
1
0
$
ヒント:sleep 1 で、1秒ごとに止める。
■課題20 検索、正規表現、Emacsによる検索と置き換え
回答をテキスト・ファイルに記述し、(レポート提出
ページ)から提出しなさい。
(1) 検索エンジンを利用しなさい。100件以下の Web ページがヒットするよう
な、キーワード(できるだけ少なく)の組み合わせを探しなさい。この時、AND演
算、OR演算、NOT演算を利用してよい。レポートには、次の情報を含めなさい。
- 利用した検索エンジンの URL
- 検索エンジンに与えた表現
- AND、OR、NOTによる式
練習問題 WWW検索エンジンの利用、
練習問題 WWW検索エンジンの利用、site:、フレーズ、ワイルドカード
参照
(2) 次のプログラムから4つ選び、検索機能を利用してみなさい。
- Emacs
- Firefox (ページ内の検索。検索エンジンを使わないもの。)
- Thunderbird
- lv コマンド
- grep コマンドによる複数のファイルの検索
- ls コマンドと grep コマンドのパイプによる組み合わせ
- find コマンド
- MS-Word
- Excel
次のことを報告しなさい。
- 用いたプログラム。
- 検索の目的。何を検索したいのか。
- 行ったキー操作。ショートカットを使ったどうか。
- 検索機能を使わなかった時に、同じ目的を達成するための方法。
(例: 全てのメールを目で読んで探す。)
- 検索機能を使うことの利点。
練習問題 Emacs インクリメンタルな検索、
練習問題 Emacs 非インクリメンタルな検索、
練習問題 lvの検索機能、
練習問題 Thunderbirdの検索機能、
練習問題 オフィース・ツールの検索機能
参照。
(3) Emacs の query-replace の機能を
使って、次の文書の Emacs の部分を自分の学籍番号に変えなさい。
GNU Emacs is a version of Emacs, written by the author of the original
(PDP-10) Emacs, Richard Stallman. The primary documentation of GNU
Emacs is in the GNU Emacs Manual, which you can read on line using
Info, a subsystem of Emacs. Please look there for complete and
up-to-date documentation. This man page is updated only when someone
volunteers to do so; the Emacs maintainers' priority goal is to
minimize the amount of time this man page takes away from other more
useful projects. The user functionality of GNU Emacs encompasses
everything other Emacs editors do, and it is easily extensible since
its editing commands are written in Lisp.
練習問題 Emacs query-replace
参照
(4) [加点] The Unix Super Text の次の部分を読みなさい。
- Unix Super Text 上巻「第40章 sh」
- Unix Super Text 上巻「第41章 いろいろなシェル」(bash関連)
- Unix Super Text 上巻「第11章 csh入門」(適宜)
- Unix Super Text 上巻「第35章 フィルタのテクニック」
次のコマンドを1つ以上使うシェル・スクリプトを、合計2つ作成し
なさい。
- testコマンド、「[」コマンド
- 「&&」
- 「||」
- if コマンド
- for
- while
作成したシェル・スクリプトについて、それぞれ次のことを報告しなさい。
- コマンド名
- 目的(例:こういう操作を簡単に実行できるようにするため。)
- 使い方(引数の説明など)
- ls -l の結果
- シェル・スクリプトの内容(ファイルを emacs C-x i 等で挿入する)
作成するシェル・スクリプトとしては、このページにある
練習問題
練習問題(2018) から
練習問題(2024) まで
から選んでもよい。
(5) [加点] 正規表現の検索機能を用いて、次のファイルやコマンドの出力から
目的のもの検索して画面に表示しなさい。選択ではなく、全て実行しなさい。
なお、grepコマンドには、or の機能がない。orが必要な場合、grep コマンド
を複数回実行してもよい。egrep コマンドの「|
」を用いれば 1 回で終
わることもある。
- ファイル:
Webサーバ・アクセスログ
。
目的: 自分が作成したWWWページのうち、HTMLファイルへのアクセス。
(ssh で www にログインして行う。)
- コマンドの出力: ps auxw。
目的: 自分のプロセスだけ表示。(この課題では、ps の -U オプションを使わないこと。)
- コマンドの出力: ls -l。目的: ディレクトリだけ表示。
- コマンドの出力: ls -l。目的: 普通のファイル「以外」表示。
- コマンドの出力: ls -l。目的: グループ、または、他人が読めるものだけ表示。
レポートには、コマンドラインと実行結果を含めなさい。実行結果が10行以上
に渡る時には、途中を省略しなさい。アクセス・ログに時分のページへのアク
セスがない場合には、Web ブラウザでアクセスしてログに含ませなさい。
Last updated: 2017/06/23 11:37:08
Yasushi Shinjo / <yas@cs.tsukuba.ac.jp>