システムプログラム（第6週）: ネットワーク・プログラミング／クライアント側

                                       筑波大学 システム情報工学研究科 
                                       コンピュータサイエンス専攻, 電子・情報工学系
                                       新城 靖
                                       <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~syspro/2011/2011-06-01
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~syspro/2011/
http://www.coins.tsukuba.ac.jp/~yas/

今日の重要な話

TCP/IP の考え方
- プロトコルスタック
- IP アドレス(IPv4)とポート番号
- ストリーム
- 通信路の開設
クライアント・サーバ・モデル
汎用TCP/IPクライアントとしての telnet コマンド
クライアント側のプログラム、tcp_connect() の考え方
HTTP

■補足

TA、教員、隣の人の活用

授業中は，話の途中でも，わからないことが出てきたら，手を上げて質問しましょう．
実習中は，教員，ＴＡ，周りの席の人を活用しましょう．

Google プログラミングの禁止。人(教員，ＴＡ，周りの席の人)に聞いた方が 100倍早い。時間の節約。

さらに時間の節約をするには、印刷物やWebページの資料を読むより、授業をちゃんと聞いた方がよい。授業では、大事な所に重点を置きながら説明している。印刷物やWebページ資料の中から自分で大事な所を抜き出すのは、それなりに時間がかかる。

トップダウン的な理解

今後のシステムプログラムの例題では、例題のプログラムの一部を意図的に省略してある。

cp コマンドを使わせ、(人手による疲れる)行番号削除をやめさせるため。
プログラムのトップダウン的な理解を練習してもらうため。ある部分より先は、ブラックボックスのまま理解を進める練習をしてもらう。
細かい部分よりも本質的な部分を理解してもらうため。細かい部分は、リンクの先におき、重要な部分だけを配布資料に入れるようにしている。何か分からない部分があった時には、リンクをたどり細かい部分に進むのは良くない。大事な部分を人に聞くなどして理解するように勤めるのがよい。

例題のプログラムの利用方法

プログラムの先頭にファイル名が書いてある。cp コマンドでコピーできる。たとえば、~yas/syspro/ipc/echo-client-fdopen-one.c なら次のようにしてコピーできる。

$ cp ~yas/syspro/ipc/echo-client-fdopen-one.c .

「$」は、プロンプトであり、実際には、「

cosmos38:~
s0912345$

」のようになっている。コピーする時には、打たない。また、末尾の「.」を打つこと。これはカレント・ワーキング・ディレクトリの意味である。

Emacs Tips

行番号を削除するなら、Emacs の正規表現によるM-x replace-regexp が使える。以下の例では、行の先頭(^)から始まる任意の文字(.)6個を空文字列に置き換えている。

M-x replace-regexp
Replace regexp (default 省略): ^......
Replace regexp ^...... with:

ただし、Web ページにあるプログラム(行番号があるもの)は、一部省略されているので、そのまま行番号を削除しただけでは動作しないことがある。したがって、cpコマンドでコピーすべきである。

字下げが気に入らない時には、M-x indent-region を使うとよい。region を設定するには、C-SPC (control + space) でマークを設定して、カーソルを移動させる。タブ・キーも使えるが、1行ずつしかできない。

ことえりでバックスラッシュを入力できるようにすると良い。また、 MacOSX の Spotlight のショートカット・キーを解除すべきである。

カーソル移動には、M-< やM-> も使える。

Java

本日の課題では、Java言語でプログラムを作成してもよい。ただし、利用してもよいのは、Socket, ServerSocket, DatagramSocket 等の Socket API に近いレベルのAPI を提供するクラスのみである。高レベルのクラス、たとえば、 HttpURLConnection を用いてはならない。

TCP/IPの基本的な考え方

インターネット上のアプリケーションの多くは、TCP/IPという仕組みを用いて通信を行っている。

ストリーム

TCP/IPは、信頼性のある（reliable）双方向のストリーム転送サービス（stream transport service）を提供する通信プロトコルである（図１）。ストリームは、次のような性質がある転送サービスである。

データの送り手と受けての間に結合(connection，通信路)が作られる
複数回に分けて送り出したデータの順番が入れ替わることはないが、データの区切りは保存されない
送り出したデータが相手に届くようにする（途中で失われた時には、再送する）

Unixのパイプは、双方向ではなく単方向であるが、同じストリームに分類される転送サービスを提供するものである。

図１(a)　TCP/IPにより提供される双方向ストリーム

図１(b)　Unixのパイプにより提供される単方向ストリーム

なお、Ｃ言語のライブラリ関数である fopen(), fgets(), fputs() なども、ストリームと呼ばれることがある。これは、もともとランダム・アクセス可能で、メモリ中の配列と同じようにアクセスするすることもできるファイルを、まるでプロセス間通信のストリームと同じように扱うことができることにも関係している。

層（プロトコル・スタック）

TCP/IPによる通信では、図２に示すように、４つのプロトコル（規約、約束事）の層が使われる。TCP/IP自身は、TCP層と IP層という２つのプロトコルに分解される。このようにさまざまなプロトコルが決められ、全体として層をなしている。この様子を、プロトコル・スタックと呼ぶ。

図２　TCP/IPにおけるプロトコル・スタック

IPアドレス

TCPで通信をする時に、通信相手を識別するには IPアドレスとポート番号が必要になる。 IPアドレスとしては、IPv4 では、32ビットの整数が使われてる。IPv6 では、128 ビットの整数が使われる。

IPアドレスの表記(IPv4)

32ビットのアドレスを 8 ビットずつに 4 つ分ける
各8ビットを、10進数(0～255)で表す。
4つの10進数を、「.」で区切りつなげる

例：

12.34.56.78

これは、１０進数でいくつになるかを計算したい時には、次のようにして計算する。

12 * 256 ³ + 34 * 256 ² + 56 * 256 ¹ + 78 * 256 ⁰
(((12 * 256)+34)*256+56)*256+78

IPアドレスの表記(IPv6)

128ビットのアドレスを 16 ビットずつに 8 に分ける
各16ビットを、16進数4桁(0～ffff)で表す。
8個の16進数を、「:」で区切りつなげる。ただし、0 が続く場所は、全体で1カ所だけは、「::」と省略してもよい。

例：

2001:2f8:3a:1701::86:1
fe80::1
fe80::212:51fe:fe88:8ed2

TCPで通信をする時に、通信相手を識別するにはIPアドレスとポート番号(port number) が必要になる。ポート番号は、同じホストの中で提供されている様々なサービスを区別するために使われる。ポート番号は、16ビットの整数であり、よく使われるアプリケーションでは、あらかじめどの番号を使うかが決められている。これを well-knownポート番号(well-known port number) という。Unix では、1024 番より小さいポート番号を使うには、特権ユーザ(スーパー・ユーザ、管理者)の権限が必要であり、このようなポート番号は、特権ポート番号(privileged port number) と呼ばれる。

応用層

TCP層の上には、応用層が定義されている。この層では、ftp, ssh, Firefox, Thunderbird などの、TCP/IP を利用するプログラムの間の会話の方法が定義される。

TCP/IPを使った通信は、まるでプロセス同士が電話で会話するように進められる。普通の電話では、日本語を話す人と英語を話す人は、電話で情報交換を行うことができない。同様に、同じTCP/IPを使っていても、会話の方法が違うと、まったく情報交換を行うことができない。ゆえに、TCP/IPの上にさらに、情報交換のためにさまざまなプロトコルが取り決められている。

TCP/IPの上に構築されているプロトコルの例を、表１に示す。

表１　TCP/IPの上に構築されているプロトコルの例

TCP/IPの上に構築されているプロトコルの例
ポート番号プロトコルの名前目的

21 FTP(File Transfer Protocol) ファイル転送

22 SSH (Secure Shell) 暗号通信路によるログイン

23 Telnet 遠隔ログイン(telnet)

25 SMTP(Simple Mail Transfer Protocol) 電子メールの転送

79 finger finger name の取得

80 HTTP(HyperText Transfer Protocol) WWWのデータ転送

110 POP(Post Office Protocol) 電子メールのアクセス

119 NNTP(Network News Transfer Protocol) ネットワーク・ニュースの記事の転送

143 IMAP(Internet Message Access Protocol) 電子メールのアクセス

513 login 遠隔ログイン(rlogin)

TCP/IPの上に構築されているプロトコルの例
ポート番号	プロトコルの名前	目的
21	FTP(File Transfer Protocol)	ファイル転送
22	SSH (Secure Shell)	暗号通信路によるログイン
23	Telnet	遠隔ログイン(telnet)
25	SMTP(Simple Mail Transfer Protocol)	電子メールの転送
79	finger	finger name の取得
80	HTTP(HyperText Transfer Protocol)	WWWのデータ転送
110	POP(Post Office Protocol)	電子メールのアクセス
119	NNTP(Network News Transfer Protocol)	ネットワーク・ニュースの記事の転送
143	IMAP(Internet Message Access Protocol)	電子メールのアクセス
513	login	遠隔ログイン(rlogin)

/etc/services に、他のポート番号が掲載されている。

物理層

IPのデータグラムを転送するためには、さまざまな物理的な媒体が使われる。物理媒体は、IP層と同様にデータグラム転送サービスを提供するものが多い。ただし、アドレスとしては、IPアドレスではなく、それぞれの物理層に独自のものを用いる。

現在LANでは、イーサネットがよく使われいる。イーサネットは、同軸ケーブル、より対線(Twisted Pair Cable)、または、光ファイバを使ってデータグラムを転送する。無線LAN (IEEE 802.11b/g/a) も、データグラムを転送する。

IPのデータグラムを転送する時に、物理的なデータグラム転送サービスではなく、他のプロトコルが使われることもある。モデムなどを使ったシリアル回線では、PPP(Point to Point Protocol)というプロトコルの上に、IPデータグラムが流される。

IP上に構築された UDP（User Datagram Protocol）も、IPとほとんど同じ機能を提供する。

ホストとルータ

ネットワークに接続されている計算機の中で、ネットワークに１ヵ所の出入り口（インタフェース）を持っているものは、ホストと呼ばれる。２ヵ所以上の出入り口を持っている計算機は、ルータと呼ばれる。ルータは、ネットワークとネットワークを接続するための計算機である。ルータは、入ってきたIPのパケットのIPアドレスを見て、どのネットワークに送ればよいかを判断する。

図１で、左端と右端にあり、４層全てそろっている部分がホストである。 TCP/IPの通信は、ホストとホストの間で行われる。中央の、２層しかない部分は、ルータである。ルータの仕事は、IP層において行われる。

OSI 7層参照モデル

TCP/IP は、OSI参照モデルよりも古い。OSI参照モデルでは、プロトコル・スタックは 7層からなるが、TCP/IPでは 4 層しかない。

通信路の開設

TCP/IP では、プロセスとプロセスが、電話で会話をするように通信が行われる。普通の電話で人間同士が話をするには、まず電話番号を指定して、話相手に電話をとってもらわなければならない。TCP/IP においても同様である。 TCP/IPでは、電話を掛ける方をクライアント・プロセス、電話を待つ方をサーバ・プロセスと言いう。

TCP/IPにおいて、プロセス間に形成されたストリーム通信路のことを、計算機間に張られた物理的な回線に似ていることから、仮想的回線(virtual circuit)とも言う。TCP/IP では、回線を接続する段階では、クライアント・プロセスとサーバ・プロセスは非対称である。一度仮想回線が接続された後は、両方のプロセスは、TCP/IPのレベルでは、まったく対称的になる。

TCP/IPにおいてプロセス間に仮想回線を開設するには、IPアドレスとポート番号が必要である。ポート番号は、同じIPアドレスを持つホスト上で動いているプロセスを区別するために使われる。

以下に、通信路が開設される手順を示す。

サーバ・プロセスがポート番号を指定して、接続要求受付用ポートを作る。サーバ・プロセスは、クライアント・プロセスからの接続要求を待つ（図３（ａ））。（注意：要求受付用ポートでは、データの送受信はできない。）
クライアント・プロセスが通信用ポートを作る。このポートを、サーバ・プロセスが動いているホストのＩＰアドレスと、サーバ・プロセスが作った接続要求受付用ポートのポート番号を使って、接続要求を行う（図３（ｂ））。
接続要求が受け付けられると、サーバ・プロセスには、新たに通信用ポートが作られる（図３（ｃ））。これは、特定のクライアントとの通信のために使われる。

こうして一度通信路が開設されると、クライアントとサーバは、どちらからでもデータを送り始めることができる。

図３（ａ）　TCP/IP通信路の開設（１）

図３（ｂ）　TCP/IP通信路の開設（２）

図３（ｃ）　TCP/IP通信路の開設（３）

TCP/IPにおける通信路開設において、クライアントは、サーバ側の接続要求受付用ポートのポート番号を、事前に知っている必要がある。表１に、いくつかの応用層のプロトコルについて、公に利用目的が決められているポート番号を示す。

クライアント側の通信用ポートのポート番号は、通常は、オペレーティング・システムにより自動的に割り当てられる。サーバ側の通信用ポートのポート番号も、同様である。

クライアントとサーバ

　プロセスは、本来、いつでも自由にメッセージを送信でき、いつでも自由に、メッセージを受信できる。しかし、本当に自由に送信と受信を行うと、プログラムが複雑になり、見通しが悪くなり、バグも混入しやすくなる。そこで、通信を行うプログラムを書く時に意図的に制約を設定してプログラムを単純化して見通しのよいものにしようという考え方が生まれた。たとえば、図？で、(a) と (b) を比較すると、プロセスの数とメッセージの数は同じであるが、(b) の方がはるかに見通しがよい。

図？(a)　構造化されていないもの

図？(b)　構造化されたもの

　クライアント・サーバ・モデルは、プロセス間通信を構造化したものであり、最近の用語でいうと、デザイン・パターンの１つである。

プログラミングの歴史の中で「構造化」という言葉は、まず、「制御構造」に対して使われた。構造化プログラミングとは、goto文を、よい goto 文と悪い goto文に分け、よい goto 文だけを使うようにしようとするものである。初期のプログラミングでは、アセンブリ言語や貧弱な制御構造しか持たない Fortran が使われていたが、その時は、jump 命令や goto 文が多用されていた。そのような jump 命令や goto 文にも、分かりやすいものとわかりにくいものがあった。そこで、よい goto 文のパターンを整理して、それだけを使ってプログラムを書くのがよいとされた。そしてよい goto 文にはプログラミング言語のレベルでif、 while、continue、break、そして、手続き呼出し(call)とreturn という特別な形式が割り当てられた。Ｃ言語や Pascal では、goto 文が残されたが、 Java などの最近の言語ではgoto 文が記述できなくなっている。

　プロセス間通信を構造化するという意味でのクライアント・サーバ・モデルでは、まずプロセスをクライアントとサーバの２種類に分ける。

図? 通信のパタンからみたクライアントとサーバの定義

クライアントもサーバも、多くの場合、内部に１つループを持ち、次の動作を繰り返す。

クライアント: 先に要求を送る、後で結果を受け取る
サーバ: 先に要求を受け取る、後で結果を返す

クライアント・サーバ・モデルに基づくプログラムには次のようなことを行うプロセスは存在しない。

送信しかやらない
受信しかやらない
送信を２回して受信を１回だけやる
受信したら、処理の内容によって送信したりしなかったりする

注意：クライアントとサーバは、いろいろな意味で使われる。これらの意味は、多くの場合、一致しているが、一致していないこともある。

クライアントのパタン

    connect(s);   // 接続要求。accept() と対応。

    send(s,message);        // 要求
    receive(s,message);     // 応答
    send(s,message);        // 要求
    receive(s,message);     // 応答
    ...                     // 必要回数繰り返す

    close(s);     // 接続の切断。

注意1：ここで、connect(), send(), receive() は、抽象的な意味。具体的なシステム・コールの使い方を説明したものではない。

send() や receive() は、複数の具体的なシステム・コールと対応することがある。たとえば、1回のシステム・コールでは送信できない場合、（ループして）複数回のシステム・コールを用いることもある。

サーバのパタン

    make_port(a); // 受付端の登録。
    while( 1 )
    {
        s=accept(a);    // 実際の受付。connect() と対応。
        while( !eof(s) )
        {
            receive(s,message);     // 要求の受信
            send(s,message);        // 応答の送信
        }
        close(s);     // 接続の切断。
    }

ソケットAPI

UNIX オペレーティング・システム上で動作するプログラムがTCP/IPの機能を使う場合、UNIXオペレーティング・システムが提供するソケットAPIというAPIを通じて利用することになる。ソケットは、TCP/IP をはじめとして、XNS, OSI などさまざまな通信プロトコルを UNIX オペレーティング・システム上で使うために設計されたものである。TCP/IP だけを考えると、ソケットAPI は、繁雑であり、使いにくくなっている。

DNS(Domain Name System)

TCP/IPで通信する時には、通信相手のIPアドレス（IPv4で32ビット/IPv6で128ビットの整数、番号）が必要になる。IPアドレスは、コンピュータにとって扱いやすいが、人間にとって分かりにくい。

人間にとってわかりやすい記号（文字列）を使ったコンピュータの名前から IPアドレスに変換するサービスがあれば便利である。このサービスを、名前サービス(name service)、という。名前サービスを提供するプログラム（プロセス）を、名前サーバという。

名前から名前を指している番号に変換することを名前解決(name resolution) という。

インターネットで使われている名前サービスは、 DNS(Domain Name System) と呼ばれる。 DNS では、膨大な数のホスト名を含む名前空間を階層的にドメイン（領域）に分割して管理ている。この空間の構造は、木構造と同じものでいる。

クライアントを作成するためのAPI

TCP/IPのクライアント側のプログラムで大事な標準のシステムコールとライブラリ関数は、一般に、次の通りである。

socket()
connect()
getaddrinfo() (DNSの参照)

この講義では、次の独自のAPIを用いる。

int tcp_connect( char *server, int portno ) [独自]: 通信用ポートを作成し、ホスト名 server のポート番号 (portno) へ TCPで通信路を開設する。そのTCPのソケットに対応したファイル記述子を返す。ホスト名は、DNS を用いて IP アドレスに変換される。
int fdopen_sock( int sock, FILE **inp, FILE **outp ) [独自]: TCP/IPの通信を、FILE *を取るようなライブラリ関数(例えば、 fprintf() や fgets() )で行えるようにするためもの。入力は、第1引数のソケット sock で、結果の FILE * を、第2引数と第3引数の場所へ返す。標準のライブラリ関数 fdopen() を、入力と出力の両方が扱えるように拡張したもの。
int snprintf(バッファ,バイト数,書式,...) [標準]: printf() と同じことを、画面ではなく、バッファ(メモリ) に対して行う。

FILE *については、前半第3週「11. ファイルアクセス」参照。 snprintf()については、前半第2週「9. 文字，文字列操作ライブラリ」参照。

marshaling/unmarshaling

TCP/IPでプログラムを作成する場合、メモリ中のデータ項目とネットワーク上を流れるデータを対応づける必要がある。これを、 marshaling/unmarshalingという。

システムプログラムの授業では、主に次のデータを扱うことにし、 marshaling/unmarshalingの問題を深くは取り扱わない。

文字列: 主にASCII コードで表現された文字データの並び。行単位なら、行末に\n や \r\n 等の行末を意味する制御文字を置く。C言語の文字列操作ライブラリ(前半第2週) で操作できる。
バイト列: 内容を解釈する必要がないバイトの並び。

整数でも、ビット数バイト・オーダの問題がある。

TCP/IP の汎用クライアント・プログラムとしての telnet コマンド

telnet コマンドとは

telnet コマンドは、本来は、遠隔ログインのコマンドであり、通常次のように使われる。

$ telnet hostname

以後、ユーザ名とパスワードを打ち、そのホストへログインできる。そしてシェルにより対話的に利用できる。(coins では、telnet による遠隔ログインのサービスを提供していない。)

TCPの汎用クライアントとしてのtelnet

telnet コマンドに、次のようにポート番号(23のtelnetサービス以外)を与えることで、文字列を送受信するようなプロトコルについては汎用のTCPのクライアントとして使える。

$ telnet hostname portno

図？ TCPの汎用クライアントとしてのtelnet

送受信されるデータは、テキストのみ。
キーボードから打ち込んだ文字列は、サーバへ送られる(要求)。
サーバから送られてきた文字列(応答)は、画面へ表示される。

telnetによるecho サーバへの接続

telnet コマンドは、^D (control+D) を打っても終了しない。 ^] を打つと、ローカルの telnet コマンドを制御することができる。ここで、quit などのコマンドが使える。

以下の例は、echo サービス(ポート番号7番)を提供しているサーバに telnet コマンドをクライアントとして接続している。echo サービスは、送られて来た文字列（最後に改行）をそのまま送り返すものである。

$ egrep '^echo[ ].*/tcp' /etc/services 
echo              7/tcp     # Echo
$ telnet cosmos10.coins.tsukuba.ac.jp 7 
Trying 130.158.86.150...
Connected to cosmos10.coins.tsukuba.ac.jp.
Escape character is '^]'.
hello
hello
exit
exit
quit
quit
^]
telnet> quit
Connection closed.
$

注意：coins では、echo サービスを iMac で動作させている。セキュリティ上の理由から、echo などの、システムプログラムの講義くらいでしか役に立たないようなサービスを停止することが、最近では一般的である。

echoサービスのクライアント

TCP/IP のポート番号 7 では、送られてきた文字をそのまま返すサービスを提供している。実行例については、上の telnetによるecho サーバへの接続を参照しなさい。

echo-client-fdopen-one.c

以下のプログラムは、echo サービスを利用するクライアントである。実行例を先に示す。

$ cp ~yas/syspro/ipc/echo-client-fdopen-one.c . 
$ make echo-client-fdopen-one 
cc     echo-client-fdopen-one.c   -o echo-client-fdopen-one
$ ./echo-client-fdopen-one  
Usage: ./echo-client-fdopen-one host port 'message'
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 hello 
sent: 6 bytes [hello
]
received: 6 bytes [hello
]
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 exit 
sent: 5 bytes [exit
]
received: 5 bytes [exit
]
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 quit 
sent: 5 bytes [quit
]
received: 5 bytes [quit
]
$

このプログラムは、コマンドラインから３つの引数をとる。第１引数で指定されたホスト上の、第２引数で指定されたポートで動作しているサーバに接続する。そして、第３引数で与えられたメッセージをサーバへ送る。echo サービスのサーバは、同じ文字列を送り返して来る。このプログラムは、サーバから送り返されてきた文字列を受取り、結果を画面に表示する。 telnet コマンドとは異なり、文字列を１つしか送受信しない。

echo-client-fdopen-one.c のmain()

   1:	/*
   2:	        echo-client-fdopen-one.c -- 文字列を送受信するクライアント(TCP/IP版)
   3:	        ~yas/syspro/ipc/echo-client-fdopen-one.c
   4:	        Created on: 2009/06/01 21:13:38
   5:	*/
   6:	#include <stdio.h>
   7:	#include <stdlib.h>     /* exit() */
   8:	#include <string.h>     /* memset(), memcpy() */
   9:	#include <sys/types.h>  /* socket() */
  10:	#include <sys/socket.h> /* socket() */
  11:	#include <netinet/in.h> /* struct sockaddr_in */
  12:	#include <netdb.h>      /* getaddrinfo() */
  13:	#include <string.h>     /* strlen() */
  14:	
  15:	extern  int echo_client_one( char *server, int portno, char *message );
  16:	extern  int echo_send_request( FILE *out, char *message );
  17:	extern  int echo_receive_reply( FILE *in, char buf[], int size );
  18:	extern  int tcp_connect( char *server, int portno );
  19:	extern  int fdopen_sock( int sock, FILE **inp, FILE **outp );
  20:	
  21:	main( int argc, char *argv[] )
  22:	{
  23:	     char *server ;
  24:	     int portno ;
  25:	     char *message ;
  26:	        if( argc != 4 )
  27:	        {
  28:	            fprintf( stdout,"Usage: %s host port 'message'\n",argv[0] );
  29:	            exit( -1 );
  30:	        }
  31:	        server  = argv[1] ;
  32:	        portno  = strtol( argv[2],0,10 );
  33:	        message = argv[3];
  34:	        echo_client_one( server, portno, message );
  35:	}
  36:

main() 関数は、コマンドラインの引数を調べて、echo_client_one() を呼んでいる。第2引数のポート番号については、strtol() で、文字列として与えられた数を、int に変換している。

echo_clien_onet()

  37:	#define BUFFERSIZE      1024
  38:	
  39:	int
  40:	echo_client_one( char *server, int portno, char *message )
  41:	{
  42:	    int sock ;
  43:	    FILE *in, *out ;
  44:	    char rbuf[BUFFERSIZE];
  45:	    int res;
  46:	
  47:	        sock = tcp_connect( server, portno );
  48:	        if( sock<0 )
  49:	            exit( 1 );
  50:	        if( fdopen_sock(sock,&in,&out) < 0 )
  51:	        {
  52:	            fprintf(stderr,"fdooen()\n");
  53:	            exit( 1 );
  54:	        }
  55:	        res = echo_send_request( out, message );
  56:	        if( res < 0 )
  57:	        {
  58:	            fprintf(stderr,"fprintf()\n");
  59:	            exit( 1 );
  60:	        }
  61:	        fprintf( stdout, "sent: %d bytes [%s\n]\n",res,message );
  62:	        res = echo_receive_reply( in, rbuf, BUFFERSIZE );
  63:	        if( res < 0 )
  64:	        {
  65:	            fprintf(stderr,"fprintf()\n");
  66:	            exit( 1 );
  67:	        }
  68:	        printf("received: %d bytes [%s]\n", res, rbuf );
  69:	        fclose( in );
  70:	        fclose( out );
  71:	}
  72:

echo_client_one() では、tcp_connect() という関数を呼び出している。この結果、サーバとの間に TCP/IP通信路の開設され、通信可能なファイル記述子 (ファイルディスクリプタ) が返される。このファイル記述子は、標準入出力(0,1,2)や open() システム・コールの結果と同じもので、 write() システムコールや read() システムコールの第一引数として使うことができる。つまり、write() システムコールを使うと、ネットワークに対してデータを送り出すことができ、read() システムコールを使うとネットワークからデータを受け取ることができる。最後に不要になったら close() で解放する。

このプログラムでは、fdopen_sock() を使って、通信可能なファイル記述子 com から２つの FILE * を作成している。１つは、入力用、１つは出力用である。その結果、高水準入出力ライブラリを使って通信が行えるようになっている。fprintf() で出力用の FILE * に書き込むと、ネットワークに対してデータが送り出される。入力用の FILE * に fgets() を行うと、ネットワークからデータを受け取ることができる。

echo_send_request() を呼び出して、要求メッセージを送信している。 echo_receive_reply() を呼び出して、応答メッセージを受信している。

echo_send_request()

  74:	echo_send_request( FILE *out, char *message )
  75:	{
  76:	    int res;
  77:	        res = fprintf( out, "%s\n", message ); /* send a request with '\n' */
  78:	        return( res );
  79:	}
  80:

echo_send_request() は、エコー・サービスで、要求メッセージを送信する関数である。 TCP/IP の通信では、行単位(最後に\n)でデータを送受信することが多い。このプログラムでは、fprintf() で行末に改行(\n)を付加している。

echo_receive_reply()

  81:	int
  82:	echo_receive_reply( FILE *in, char buf[], int size )
  83:	{
  84:	    char *res;
  85:	        res = fgets( buf, size, in ); /* receive a reply message */
  86:	        if( res )
  87:	            return( strlen(buf) );
  88:	        else
  89:	            return( -1 );
  90:	}

echo_receive_reply() は、エコー・サービスで、要求メッセージを送信する関数である。 fgets() を使って、文字列のデータを行末「\n」まで受信している。

echo サービスでは、１行送り、１行受け取る。他のサービスでは、１行送って複数行受け取ったり、受け取る方では行の概念がなくなるもの(HTTPで画像データを受け取る場合など)もある。その場合は、fprintf() や fgets() ではなくて、fwrite() や fread() を使う必要がある。

tcp_connect()

tcp_connect() は、通信路の開設の仕事のうち、クライアント側の仕事をする関数である。

fdopen_sock()

fdopen_sock() は、TCP/IP による通信を、fprintf(), fgets(), fread() 等で行えるようにする関数である。

echoサービスのクライアント(Java版)

Java 言語で記述した echo-client-fdopen-one.c である。

HTTP

WWW (the World-Wide Web)では、TCP/IP の上にさらに HTTP (HyperText Transfer Protocol)と呼ばれるプロトコルを構築し、データの転送を行っている。Firefox や Lynx などのブラウザは、WWW サーバとの間に TCP/IP による通信路を開設する。そして、クライアントは、必要なデータを得るための命令を送る。これに対してサーバは、命令に応じた処理を行い結果を返す。この命令の形式や結果の形式を定めたものが、HTTP である。HTTP 通信プロトコルを受け付けるサーバを、HTTP サーバと呼ぶ。

HTTPの要求

HTTP の要求は、最初に要求の種類（メソッド）を含む行があり、以後、オプションが続く。最後に、空行があり、要求の終わりを示す。たとえば、次のような URL を持つデータをアクセスすることを考える。

http://www.coins.tsukuba.ac.jp:80/index.html

Firefox などのクライアントは、まずホスト名 www.coins.tsukuba.ac.jp とポート番号 80 を使ってサーバとの間に TCP/IP の通信路を開設する。そして、クライアントは、開設した通信路を使って、サーバに次のような文字列を送る。

GET /index.html HTTP/1.0←↓
←↓

ここで、"GET" が命令の種類、"/index.html" は、GETの引数の、要求しているデータを表わす URL (ファイル名)、"HTTP/1.0" は、使っているプロトコルのバージョンである。次の空行は、命令のヘッダ部分の終りを意味するものであり、必要である。「←」は、キャリッジ・リターンのコード(0x0d,C言語で' \r')、「↓」は、ニューラインのコード(0x0a,C言語で'\n')である。HTTP のヘッダでは、行末に「←↓」を付けるように規定されている。（サーバを構築する場合には、「←」か「↓」のどちらか１つしかこない場合でもきちんと動作することが求められている。）

HTTPの応答

GET による要求に対して、サーバは、クライアントへ次のような応答メッセージを送り返す。

HTTP/1.1 200 OK←↓
Date: Sun, 29 May 2011 11:39:47 GMT←↓
Server: Apache←↓
Accept-Ranges: bytes←↓
Content-Length: 15885←↓
Connection: close←↓
Content-Type: text/html←↓
←↓  (空行)
本文（HTML）

応答のうち、最初の行が、状態行（status line）と呼ばれる、要求が成功したか失敗したかわ表わしている行である。"200" とは、成功したという意味である（表３参照）。２行目から最初の空行（「←↓」だけの行）までは、応答メッセージのヘッダである。応答メッセージのヘッダには、データの型や、サーバのバージョン、データが更新された日付と時刻、バイト数などが記録されている。

応答で、最初の空行（「←↓」だけの行）の次が、データの本体である。この例では、HTMLで記述されたデータが返されている。サーバは、データ転送が完了すると、TCP/IP の通信路を切断する。

クライアントは、受け取ったデータを整形して利用者に対して表示する。たとえば、インライン・イメージとして指定されたデータを続けてサーバに要求して展開したり、フォントを変えたりして表示する。

telnetによるWWWサーバへのアクセス

以下の例は、telnet コマンドを用いて coins の Web サーバをアクセスした例である。（注意：データは、常に更新されるので、必ずしもこの通りのデータが返されるとは限らない。）

$ telnet www.coins.tsukuba.ac.jp 80↓
Trying 130.158.86.1...
Connected to www.coins.tsukuba.ac.jp.
Escape character is '^]'.
GET /index.html HTTP/1.0↓
↓
HTTP/1.1 200 OK←↓
Date: Sun, 29 May 2011 11:39:47 GMT←↓
Server: Apache←↓
Accept-Ranges: bytes←↓
Content-Length: 15885←↓
Connection: close←↓
Content-Type: text/html←↓
←↓

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">↓
↓
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">↓
<head>↓
・・・中略・・・
<title>筑波大学 情報学群 情報科学類</title>↓
・・・中略・・・
</head>↓
<body>↓
<div id="header">↓
・・・中略・・・
</div>↓
</body>↓
</html>↓

telnet で接続した後に、HTTP の要求メッセージを2行(空行含む)送っている。それに対して、HTTP/1.1 200 OK 以下が、HTTPの応答である。

HTTPのメソッド

表２に、よく使われるHTTP で定義されている命令（メソッド）の例を示す。これらの命令に対して、サーバは、表３に定義されたような応答を行う。

表２　HTTPで定義されている命令（methods）の例

命令		説明
--------------------------------------------------------------------
GET		情報を得る（ヘッダと本体の両方）
HEAD		情報のヘッダのみを得る
POST		新しく情報を作る

HTTPの応答

HTTPの応答では、次のようなコードがよく使われる。 200番台は、エラーが無いことを意味する。

表３　HTTPで定義されている状態コードの例

状態コード	説明
--------------------------------------------------------------------
200		OK(エラーなし)
301		要求されたデータが移動した
302		見つからない
303		別のページを見よ
304		ページは変更されていない
400		要求の形式にエラーがある
401		ページの閲覧が承認されななかった
403		アクセスが許されていない
404		要求されたデータが見つからない
501		メソッドが実装されていない

参考

RFC2616 Hypertext Transfer Protocol -- HTTP/1.1

練習問題

練習問題(601) telnetコマンドによるWebサーバへのアクセス

telnetコマンドを使って、Web サーバに接続しなさい。

$ telnet サーバ名 80 
接続後、キーボードからHTTPに従い要求メッセージを打ち込む。

たとえば、以下の例は、coins のトップページを得るための要求を示す。

$ telnet www.coins.tsukuba.ac.jp 80 
GET /index.html HTTP/1.0

...

最初の行は、空白で区切られた３つの部分がなること、改行が２個あることに注意しなさい。要求を打つと、問題がなければ画面には目的の HTML ファイルが表示される。

coins のトップページは、文字コードとして UTF-8 を用いている(2011年 5月)。自分で試す時には、端末の文字コードを UTF-8 にするか、 /index.html 以外で、英語や端末の文字コードと一致しているページを選ぶとよい。たとえば、自分のホーム・ページ(~/public_html/index.html) をアクセスするには、GET に次のようなファイル名を与える。

GET /~ログイン名/index.html HTTP/1.0←↓
←↓

Web サーバとしては、coins 以外のものにも接続してみなさい。また、要求するファイルとして、/index.html 以外のものを指定してみなさい。

練習問題(602) wgetコマンド

wget は、URLを引数として取り、その資源をサーバから取得してファイルに保存するコマンドである。wget コマンドを使ってみなさい。

$ wget  http://www.coins.tsukuba.ac.jp/index.html

詳しくは、man wget か、wget -h を実行しなさい。次のオプションを使ってみなさい。

-d (--debug): デバッグ。HTTPの要求と応答を画面に出力する。
--save-headers: 応答メッセージも保存する。
-c (--continue): 中断したダウンロードを再開する。

練習問題(603) HTTP要求メッセージの作成

練習問題(601) で、キーボードからどのような文字列を打ったのかを思い出しなさい。そして、それを printf() で画面に表示するプログラムを作成しなさい。

$ ./http-print-request-get-index-html 
GET /index.html HTTP/1.0

$

練習問題(604) HTTP要求メッセージの作成/引数付き

練習問題(603) で、どのようなファイルを取るかを main の引数で取れるようにしなさい。

$ ./http-print-request /index.html 
GET /index.html HTTP/1.0

$ ./http-print-request /01_compliment.html 
GET /01_compliment.html HTTP/1.0

$

練習問題(605) HTTP応答メッセージの解析(ヘッダの表示)

HTTPの応答メッセージを解析するプログラム http-response-header を作りなさい。 http-response-header は、引数として指定されたファイルに含まれるHTTPのヘッダのみを表示するプログラムである。

$ ./http-response-header file.txt 
（ここにヘッダ部分が表示される）
$

このプログラムを作成する時に用いるデータは、 wget コマンドを用いて作成することができる。

$ wget --save-headers URL -O file.txt

注意：wget の -O は、大文字である。小文字-o は、別の意味がある。 wget のバージョンによっては、--save-headers の代わりに-S が使えることもある。

練習問題(606) HTTP応答メッセージの解析(本体の表示)

練習問題(605) と同様に、HTTPの応答メッセージを解析するプログラムhttp-response-content を作りなさい。 http-response-content は、引数として指定されたファイルに含まれるHTTPの本体のみを表示するプログラムである。

$ ./http-response-content file.txt 
（ここに本体部分が表示される）
$

練習問題(607) テキストを扱うHTTPクライアント

HTTPサーバに HTML 等のテキスト・ファイルを要求し、その内容を画面に表示するプログラムを作りなさい。このプログラムの名前を、wcat とする。

wcat コマンドは、次のように３つの引数を与えて利用するものとする。

$ ./wcat host port file 
（ここに、サーバから取得したテキストが表示される）
$

ここで、host は、ホスト名、port は、TCP/IP のポート番号、file は、得るべきファイル名である。これは、URL の文法で記述すると、次のようになる。

http://host:port/file

なお、wcat では、ポート番号の引数を省略しないものとする（省略可能なように工夫してもよい）。HTTP プロトコルで用いられる標準のポート番号は、 80である。

プログラム全体の構造は、次のようになる。

main() の引数を解析する。 (echo-client-fdopen-one.cのmain() を真似る。)
ホスト名とポート番号を用いて、TCP/IPで通信路を作る。 (echo-client-fdopen-one.cのecho_clien_onet()で、 tcp_connect(), fdopen_sock() の使い方を参考にする。)
HTTP で要求のヘッダを送信する。送信内容は、練習問題(604) と同じで、送信先が画面ではなく、TCP/IP の通信路である。
HTTP で応答のヘッダを受信する(行単位でループ)。
HTTP で応答の本体を受信し、それを画面(標準出力)へ出力する(行単位でループ)。出力の内容は、練習問題(606) と同様に、本体だけのことが望ましい。

HTTPの応答のヘッダ部分は、複数行から構成される。ヘッダの終わりには空行がある。従って、空行が来るまで、ループして行単位でヘッダを読み込む。読み込んだヘッダは、画面に表示してもよい。

空行に続いて、本体を受信する。テキストのみを扱う場合、ヘッダと同じ方法で受信してもよい。受信したデータは、必ず画面(標準出力)に表示する。

プログラムをつくる時には、できれは行末の扱い(CR-LF)に注意しないさい。余裕があれば、受け取ったデータを画面に表示する前に、Unix に合わせて行末のキャリッジ・リターンのコードを削除するようにしなさい。

練習問題(608) バイナリを扱うHTTPクライアント

練習問題(607) で、テキストだけでなくバイナリ・データを受け取り、また、受け取ったデータをファイルに保存するプログラムを作成しなさい。このプログラムの名前を、wsave とする。 wcat コマンドは、次のように４つの引数を与えて利用するものとする。

$ ./wsave host port file localfile 
（画面には何も出力されない）
$

最初の3つの引数は、練習問題(607) のwcatと同じである。最後の引数は、保存するローカル・ファイルである。

このプログラムでは、本体部分ではバイナリデータを扱う必要がある。 fdopen_sock() を使う場合、ヘッダについては、fgets() を使ってデータを送受信してもよい。しかし、ヘッダが終わった後、本体部分では、 fread() を使う必要がある。

本体をファイルに保存する部分は、前半第３週／ファイルアクセス（応用）のプログラムと似たものになると思われる。ただし、コピー元は、ネットワークで、コピー先はファイルになる。 fread() を使う場合には、入力したバイト数(読み込んだ要素の数)を調べ、そのバイト数の分を fwrite() 等でファイルに出力する。

HTTPの応答は、バッファ・サイズよりも大きくなる可能性がある。１回の fread() では受信できないことがある。そのため、すべてのデータを受信するまで、バッファ単位でループする必要がある。

また、fread() で文字列を読み込んだとしても、最後に 0 (NULL) で終端されないので、注意しなさい。

練習問題(609) NNTPPクライアントの作成

NNTPクライアントを作成しなさい。

まず、telnet で、これらのサーバに接続しなさい。そして、それぞれのプロトコルに従って、要求を打ち込み、どのような結果が返ってくるかを調べなさい。

次に、telnet で行った要求の送信と結果の受信を行うようなプログラムを作りなさい。このとき、必要なパラメタは、main() の引数から取りなさい。 NNTP は、テキスト・ベースのプロトコルなので、全ての通信にfprintf() や fgets() を使ってもよい。

この課題では、fgets() でキーボードからデータを読み込むことはしてはならない。main() の引数で得られるパラメタ以外で、サーバに送るべきデータは、プログラムの内部で fprintf() や snprintf() 等を用いて作成すること。たとえば、"GET " や "HTTP/1.0" などは、fprintf() のフォーマット文字列で指定する方法がある。キーボードや main() の引数として、本来プログラムで生成すべき文字列を与えてはならない。

接続先として次のホストを使いなさい。

news (news.coins.tsukuba.ac.jp $NNTPSERVER)

プログラムをつくる時には、行末の扱い(CR-LF)にも注意しないさい。

練習問題(610) SMTPクライアントの作成

練習問題(609) と同様に、 SMTP のクライアントを作成しなさい。接続先として次のホストを使いなさい。

lilac-nwc (lilac-nwc.coins.tsukuba.ac.jp)

練習問題(611) 並列wsave

練習問題(608) で、 wget コマンドと同様に複数の URL を引数に取り、複数のファイルを並列にコピーするものを作成しなさい。ただし、並列度としては、最大ｎ（１＜ｎ＜＝３）とし、それ以上の URL が与えられた時でも、その並列度の範囲内で同時にコピーするようにしなさい。

ヒント：最大ｎまで、fork() して、それぞれ子プロセスで１個のファイルをコピーする。子供が終了したら、次の子供を fork() する。

実行速度に差があるので、複数のプロセスに均等にURL をばらまく方法では最速にはならない。

練習問題(612) 中断・再開可能なwsave

練習問題(608) で、（大きな）ファイルをコピーする時、中断する機能をつけなさい。中断とは、 HTTP 1.1で定義されている Range: の機能を使い、一度プログラムを終了しても、次に再開した時に続きを要求する機能である。

プログラムを終了した後でもう一度実行したときに続きを行う行うことができるものだけをこの課題を満たしたと認める。プログラムを終了しないものは、この課題では中断とは認めない。この課題ではシグナルでプロセスを中断することは行わない。

wget コマンドは、-c オプションを指定すると、中断した続きから再開する。

練習問題(613) Time Protocol のクライアント

RFC868 に定義されている Time Protocol のクライアント(TCP) を作成しなさい。そして、date コマンドと類似の結果を表示しなさい。

$ ./time-client host 37 
Sun May 29 20:54:23 JST 2011
$

このプログラムでは、TCP/IP でサーバに接続した後、何も送らずにサーバから４バイトの数を読み込む。その４バイトの数は、ネットワーク・バイト・オーダになっているので、ntohl() で、ホストのバイト・オーダに変換する。この値に、ある値で補正して、Unix で使われているtime_t に変換する。最後に、 strftime() や localtime() でカレンダーの形式に変換する。

RFC868 Time Protocol では、値は、1900年1月1日 0:00 (GMT) を基準にした秒数を返す。time() システムコールや gettimeofday() システムコールでは、 1970 年を基準にしている。strftime() や localtime() を使う前に、差分を補正する必要がある。

この課題では、ポート番号 37 の time を使いなさい。ポート番号 13 の daytime を使ってはならない。

接続先のホストとしては、次のどれかを使いなさい。

acacia01-acacia50, burnet01-burnet50, cosmos01-cosmos50

練習問題(614) サービス名によるポート番号

上の echo-client-fdopen-one.c では、ポート番号を数で与えている。これを、サービス名によりポート番号が指定できるように書き換えなさい。

練習問題(615) netstatコマンド

netstat コマンドを使うと、その時利用されている結合(connection)を表示することができる。このコマンドを使って、ネットワークの利用状況を表示しなさい。

次のようなオプションがよく使わせる。

-a (all): 全て。接続を待っているサーバのソケットも表示する。
-n (number): ネットワークのアドレスを番号で表示する。

練習問題(616) lsofコマンド

lsof コマンドは、プロセスが開いているファイルを表示するコマンドである。-i オプションを付けると、ファイルではなくネットワーク (Internet) の利用状況が表示される。lsof -i を利用して、ネットワークの利用状況を表示しなさい。

Last updated: 2011/06/15 12:15:03

Yasushi Shinjo / <yas@is.tsukuba.ac.jp>