システムプログラム（第6週）: ネットワーク・プログラミング／クライアント側

                                       筑波大学 システム情報系 情報工学域
                                       新城 靖
                                       <yas@cs.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~syspro/2012/2012-05-23
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~syspro/2012/
http://www.coins.tsukuba.ac.jp/~yas/

今日の重要な話

TCP/IP の考え方
- プロトコルスタック
- IP アドレス(IPv4)とポート番号
- ストリーム
- 通信路の開設
- クライアント・サーバ・モデル
telnet コマンドによる接続
クライアント側のプログラム、tcp_connect() の考え方
HTTP

TA、教員、隣の人の活用

授業中は，話の途中でも，わからないことが出てきたら，手を上げて質問しましょう．
実習中は，教員，ＴＡ，周りの席の人を活用しましょう．

Google プログラミングの禁止。人(教員，ＴＡ，周りの席の人)に聞いた方が 100倍早い。時間の節約。

トップダウン的な理解

今後のシステムプログラムの例題では、例題のプログラムの一部を意図的に省略してある。

cp コマンドを使わせ、(不毛な人手による)行番号削除をやめさせるため。
プログラムのトップダウン的な理解を練習してもらうため。ある部分より先は、ブラックボックスのまま理解を進める練習をしてもらう。
細かい部分よりも本質的な部分を理解してもらうため。細かい部分は、リンクの先におき、重要な部分だけを配布資料に入れるようにしている。何か分からない部分があった時には、リンクをたどり細かい部分に進むのは良くない。大事な部分を人に聞くなどして理解するように勤めるのがよい。

例題のプログラムの利用方法

プログラムの先頭にファイル名が書いてある。cp コマンドでコピーできる。たとえば、~yas/syspro/ipc/echo-client-fdopen-one.c なら次のようにしてコピーできる。

$ cp ~yas/syspro/ipc/echo-client-fdopen-one.c .

「$」は、プロンプトであり、実際には、「

cosmos38:~
s0812345$

」のようになっている。コピーする時には、打たない。また、末尾の「.」を打つこと。これはカレント・ワーキング・ディレクトリの意味である。

Emacs Tips

行番号を削除するなら、Emacs の正規表現によるM-x replace-regexp が使える。以下の例では、行の先頭(^)から始まる任意の文字(.)6個を空文字列に置き換えている。

M-x replace-regexp
Replace regexp (default 省略): ^......
Replace regexp ^...... with:

ただし、Web ページにあるプログラム(行番号があるもの)は、一部省略されているので、そのまま行番号を削除しただけでは動作しないことがある。したがって、cpコマンドでコピーすべきである。

字下げが気に入らない時には、M-x indent-region を使うとよい。region を設定するには、C-SPC (control + space) でマークを設定して、カーソルを移動させる。タブ・キーも使えるが、1行ずつしかできない。

ことえりでバックスラッシュを入力できるようにすると良い。また、 MacOSX の Spotlight のショートカット・キーを解除すべきである。

カーソル移動には、M-< やM-> も使える。

Java

本日の課題では、Java言語でプログラムを作成してもよい。ただし、利用してもよいのは、Socket, ServerSocket, DatagramSocket 等の Socket API に近いレベルのAPI を提供するクラスのみである。高レベルのクラス、たとえば、 HttpURLConnection を用いてはならない。

TCP/IPの基本的な考え方

インターネット上のアプリケーションの多くは、TCP/IPという仕組みを用いて通信を行っている。

ストリーム

TCP/IPは、信頼性のある（reliable）双方向のストリーム転送サービス（stream transport service）を提供する通信プロトコルである（図１）。ストリームは、次のような性質がある転送サービスである。

データの送り手と受けての間に結合(connection，通信路)が作られる
複数回に分けて送り出したデータの順番が入れ替わることはないが、データの区切りは保存されない
送り出したデータが相手に届くようにする（途中で失われた時には、再送する）

Unixのパイプは、双方向ではなく単方向であるが、同じストリームに分類される転送サービスを提供するものである。

図１(a)　TCP/IPにより提供される双方向ストリーム

図１(b)　Unixのパイプにより提供される単方向ストリーム

なお、Ｃ言語のライブラリ関数である fopen(), fgets(), fputs() なども、ストリームと呼ばれることがある。これは、もともとランダム・アクセス可能で、メモリ中の配列と同じようにアクセスするすることもできるファイルを、まるでプロセス間通信のストリームと同じように扱うことができることにも関係している。

通信路の開設

TCP/IP では、プロセスとプロセスが、電話で会話をするように通信が行われる。普通の電話で人間同士が話をするには、まず電話番号を指定して、話相手に電話をとってもらわなければならない。TCP/IP においても同様である。 TCP/IPでは、電話を掛ける方をクライアント・プロセス、電話を待つ方をサーバ・プロセスと言いう。

TCP/IP では、回線を接続する段階では、クライアント・プロセスとサーバ・プロセスは非対称である。一度仮想回線が接続された後は、両方のプロセスは、TCP/IPのレベルでは、まったく対称的になる。

TCP/IPにおいてプロセス間に仮想回線を開設するには、IPアドレスとポート番号が必要である。ポート番号は、同じIPアドレスを持つホスト上で動いているプロセスを区別するために使われる。

以下に、通信路が開設される手順を示す。

サーバ・プロセスがポート番号を指定して、接続要求受付用ポートを作る。サーバ・プロセスは、クライアント・プロセスからの接続要求を待つ（図３（ａ））。（注意：要求受付用ポートでは、データの送受信はできない。）
クライアント・プロセスが通信用ポートを作る。このポートを、サーバ・プロセスが動いているホストのＩＰアドレスと、サーバ・プロセスが作った接続要求受付用ポートのポート番号を使って、接続要求を行う（図３（ｂ））。
接続要求が受け付けられると、サーバ・プロセスには、新たに通信用ポートが作られる（図３（ｃ））。これは、特定のクライアントとの通信のために使われる。

こうして一度通信路が開設されると、クライアントとサーバは、どちらからでもデータを送り始めることができる。

図３（ａ）　TCP/IP通信路の開設（１）

図３（ｂ）　TCP/IP通信路の開設（２）

図３（ｃ）　TCP/IP通信路の開設（３）

TCP/IPにおける通信路開設において、クライアントは、サーバ側の接続要求受付用ポートのポート番号を、事前に知っている必要がある。サーバは、普通、ポート番号を固定する。いくつかの主要なサービスでは、利用すべきポート番号が決められている。たとえば、HTTP ならば、80 を使う。

クライアント側の通信用ポートのポート番号は、通常は、オペレーティング・システムにより自動的に割り当てられる。

情報科学類「システムプログラム」独自のクライアントを作成するためのAPI

TCP/IPのクライアント側のプログラムで大事な標準のシステムコールとライブラリ関数は、一般に、次の通りである。

socket()
connect()
getaddrinfo()

この講義では、次の独自のAPIを用いる。

int tcp_connect( char *server, int portno ) [独自]: 通信用ポートを作成し、ホスト名 server のポート番号 (portno) へ TCPで通信路を開設する。そのTCP/IPのストリームに対応したファイル記述子を返す。
int fdopen_sock( int sock, FILE **inp, FILE **outp ) [独自]: tcp_connect() で得られた、TCP/IPのファイル記述子を、2つの FILE *に変換する。2つのうち、1つは受信用、もう1つは送信用。

tcp_connect() と fdopen_sock() の働きにより、次の標準の関数を用いてネットワークのデータを送受信することができる。

int fprintf(FILE *out,char *fmt, ...) [標準]: out に結びついた TCP/IP のストリームに対してメッセージを送信する。
char *fgets(char *buf, int n, FILE *in ) [標準]: in に結びついた TCP/IP のストリームに対からメッセージを 1行受信する。
size_t fwrite(void *buf, size_t size, size_t nitems, FILE *out) [標準]: out に結びついた TCP/IP のストリームに対してbuf 番地にある長さ size バイトの構造体を nitems 個送信する。構造体ではなく、バイト単位で送信したい場合には、size には 1 を指定し、nitems には、バッファの大きさを指定する。
size_t fread(void *buf, size_t size, size_t nitems, FILE *in)) [標準]: in に結びついた TCP/IP のストリームから size バイトの長さの構造体を nitems だけ受信する。構造体ではなく、バイト単位で受信したい場合には、 size には 1 を指定し、nitems には、バッファの大きさを指定する。

FILE *については、前半第3週「11. ファイルアクセス」も参照。

　プロセスは、本来、いつでも自由にメッセージを送信でき、いつでも自由に、メッセージを受信できる。しかし、本当に自由に送信と受信を行うと、プログラムが複雑になり、見通しが悪くなり、バグも混入しやすくなる。そこで、通信を行うプログラムを書く時に意図的に制約を設定してプログラムを単純化して見通しのよいものにしようという考え方が生まれた。たとえば、図？で、(a) と (b) を比較すると、プロセスの数とメッセージの数は同じであるが、(b) の方がはるかに見通しがよい。

図？(a)　構造化されていないもの

図？(b)　構造化されたもの

　クライアント・サーバ・モデルは、プロセス間通信を構造化したものであり、最近の用語でいうと、デザイン・パターンの１つである。

プログラミングの歴史の中で「構造化」という言葉は、まず、「制御構造」に対して使われた。構造化プログラミングとは、goto文を、よい goto 文と悪い goto文に分け、よい goto 文だけを使うようにしようとするものである。初期のプログラミングでは、アセンブリ言語や貧弱な制御構造しか持たない Fortran が使われていたが、その時は、jump 命令や goto 文が多用されていた。そのような jump 命令や goto 文にも、分かりやすいものとわかりにくいものがあった。そこで、よい goto 文のパターンを整理して、それだけを使ってプログラムを書くのがよいとされた。そしてよい goto 文にはプログラミング言語のレベルでif、 while、continue、break、そして、手続き呼出し(call)とreturn という特別な形式が割り当てられた。Ｃ言語や Pascal では、goto 文が残されたが、 Java などの最近の言語ではgoto 文が記述できなくなっている。

　プロセス間通信を構造化するという意味でのクライアント・サーバ・モデルでは、まずプロセスをクライアントとサーバの２種類に分ける。

図? 通信のパタンからみたクライアントとサーバの定義

クライアントもサーバも、多くの場合、内部に１つループを持ち、次の動作を繰り返す。

クライアント: 先に要求を送る、後で結果を受け取る
サーバ: 先に要求を受け取る、後で結果を返す

クライアント・サーバ・モデルに基づくプログラムには次のようなことを行うプロセスは存在しない。

送信しかやらない
受信しかやらない
送信を２回して受信を１回だけやる
受信したら、処理の内容によって送信したりしなかったりする

注意：クライアントとサーバは、いろいろな意味で使われる。これらの意味は、多くの場合、一致しているが、一致していないこともある。

クライアントのパタン

    connect(s);   // 接続要求。accept() と対応。

    send(s,message);        // 要求
    receive(s,message);     // 応答
    send(s,message);        // 要求
    receive(s,message);     // 応答
    ...                     // 必要回数繰り返す

    close(s);     // 接続の切断。

注意1：ここで、connect(), send(), receive() は、抽象的な意味。具体的なシステム・コールの使い方を説明したものではない。

send() や receive() は、複数の具体的なシステム・コールと対応することがある。たとえば、1回のシステム・コールでは送信できない場合、（ループして）複数回のシステム・コールを用いることもある。

サーバのパタン

    make_port(a); // 受付端の登録。
    while( 1 )
    {
        s=accept(a);    // 実際の受付。connect() と対応。
        while( !eof(s) )
        {
            receive(s,message);     // 要求の受信
            send(s,message);        // 応答の送信
        }
        close(s);     // 接続の切断。
    }

TCP/IP の汎用クライアント・プログラムとしての telnet コマンド

telnet コマンドとは

telnet コマンドは、本来は、遠隔ログインのコマンドであり、通常次のように使われる。

$ telnet hostname

以後、ユーザ名とパスワードを打ち、そのホストへログインできる。そしてシェルにより対話的に利用できる。(coins では、telnet による遠隔ログインのサービスを提供していない。)

TCPの汎用クライアントとしてのtelnet

telnet コマンドに、次のようにポート番号(23のtelnetサービス以外)を与えることで、文字列を送受信するようなプロトコルについては汎用のTCPのクライアントとして使える。

$ telnet hostname portno

図？ TCPの汎用クライアントとしてのtelnet

送受信されるデータは、テキストのみ。
キーボードから打ち込んだ文字列は、サーバへ送られる(要求)。
サーバから送られてきた文字列(応答)は、画面へ表示される。

telnetによるecho サーバへの接続

telnet コマンドは、^D (control+D) を打っても終了しない。 ^] を打つと、ローカルの telnet コマンドを制御することができる。ここで、quit などのコマンドが使える。

以下の例は、echo サービス(ポート番号7番)を提供しているサーバに telnet コマンドをクライアントとして接続している。echo サービスは、送られて来た文字列（最後に改行）をそのまま送り返すものである。

$ egrep '^echo[ ].*/tcp' /etc/services 
echo              7/tcp     # Echo
$ telnet cosmos10.coins.tsukuba.ac.jp 7 
Trying 130.158.86.150...
Connected to cosmos10.coins.tsukuba.ac.jp.
Escape character is '^]'.
hello
hello
exit
exit
quit
quit
^]
telnet> quit
Connection closed.
$

注意：coins では、echo サービスを iMac で動作させている。セキュリティ上の理由から、echo などの、システムプログラムの講義くらいでしか役に立たないようなサービスを停止することが、最近では一般的である。

echoサービスのクライアント

TCP/IP のポート番号 7 では、送られてきた文字をそのまま返すサービスを提供している。実行例については、上の telnetによるecho サーバへの接続を参照しなさい。

echo-client-fdopen-one.c

以下のプログラムは、echo サービスを利用するクライアントである。実行例を先に示す。

$ cp ~yas/syspro/ipc/echo-client-fdopen-one.c . 
$ make echo-client-fdopen-one 
cc     echo-client-fdopen-one.c   -o echo-client-fdopen-one
$ ./echo-client-fdopen-one  
Usage: ./echo-client-fdopen-one host port 'message'
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 hello 
sent: 6 bytes [hello
]
received: 6 bytes [hello
]
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 exit 
sent: 5 bytes [exit
]
received: 5 bytes [exit
]
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 quit 
sent: 5 bytes [quit
]
received: 5 bytes [quit
]
$

このプログラムは、コマンドラインから３つの引数をとる。第１引数で指定されたホスト上の、第２引数で指定されたポートで動作しているサーバに接続する。そして、第３引数で与えられたメッセージをサーバへ送る。echo サービスのサーバは、同じ文字列を送り返して来る。このプログラムは、サーバから送り返されてきた文字列を受取り、結果を画面に表示する。 telnet コマンドとは異なり、文字列を１つしか送受信しない。

echo-client-fdopen-one.c のmain()

   1:	/*
   2:	        echo-client-fdopen-one.c -- 文字列を送受信するクライアント(TCP/IP版)
   3:	        ~yas/syspro/ipc/echo-client-fdopen-one.c
   4:	        Created on: 2009/06/01 21:13:38
   5:	*/
   6:	#include <stdio.h>
   7:	#include <stdlib.h>     /* exit() */
   8:	#include <string.h>     /* memset(), memcpy() */
   9:	#include <sys/types.h>  /* socket() */
  10:	#include <sys/socket.h> /* socket() */
  11:	#include <netinet/in.h> /* struct sockaddr_in */
  12:	#include <netdb.h>      /* getaddrinfo() */
  13:	#include <string.h>     /* strlen() */
  14:	
  15:	extern  int echo_client_one( char *server, int portno, char *message );
  16:	extern  int echo_send_request( FILE *out, char *message );
  17:	extern  int echo_receive_reply( FILE *in, char buf[], int size );
  18:	extern  int tcp_connect( char *server, int portno );
  19:	extern  int fdopen_sock( int sock, FILE **inp, FILE **outp );
  20:	
  21:	main( int argc, char *argv[] )
  22:	{
  23:	     char *server ;
  24:	     int portno ;
  25:	     char *message ;
  26:	        if( argc != 4 )
  27:	        {
  28:	            fprintf( stdout,"Usage: %s host port 'message'\n",argv[0] );
  29:	            exit( -1 );
  30:	        }
  31:	        server  = argv[1] ;
  32:	        portno  = strtol( argv[2],0,10 );
  33:	        message = argv[3];
  34:	        echo_client_one( server, portno, message );
  35:	}

main() 関数は、コマンドラインの引数を調べて、echo_client_one() を呼んでいる。第2引数のポート番号については、strtol() で、文字列として与えられた数を、int に変換している。

echo_clien_onet()

  36:	
  37:	#define BUFFERSIZE      1024
  38:	
  39:	int
  40:	echo_client_one( char *server, int portno, char *message )
  41:	{
  42:	    int sock ;
  43:	    FILE *in, *out ;
  44:	    char rbuf[BUFFERSIZE];
  45:	    int res;
  46:	
  47:	        sock = tcp_connect( server, portno );
  48:	        if( sock<0 )
  49:	            exit( 1 );
  50:	        if( fdopen_sock(sock,&in,&out) < 0 )
  51:	        {
  52:	            fprintf(stderr,"fdooen()\n");
  53:	            exit( 1 );
  54:	        }
  55:	        res = echo_send_request( out, message );
  56:	        if( res < 0 )
  57:	        {
  58:	            fprintf(stderr,"fprintf()\n");
  59:	            exit( 1 );
  60:	        }
  61:	        fprintf( stdout, "sent: %d bytes [%s\n]\n",res,message );
  62:	        res = echo_receive_reply( in, rbuf, BUFFERSIZE );
  63:	        if( res < 0 )
  64:	        {
  65:	            fprintf(stderr,"fprintf()\n");
  66:	            exit( 1 );
  67:	        }
  68:	        printf("received: %d bytes [%s]\n", res, rbuf );
  69:	        fclose( in );
  70:	        fclose( out );
  71:	}
  72:

echo_client_one() では、tcp_connect() という関数を呼び出している。この結果、サーバとの間に TCP/IP通信路の開設され、通信可能なファイル記述子 (ファイルディスクリプタ) が返される。このファイル記述子は、標準入出力(0,1,2)や open() システム・コールの結果と同じもので、 write() システムコールや read() システムコールの第一引数として使うことができる。つまり、write() システムコールを使うと、ネットワークに対してデータを送り出すことができ、read() システムコールを使うとネットワークからデータを受け取ることができる。最後に不要になったら close() で解放する。

このプログラムでは、fdopen_sock() を使って、通信可能なファイル記述子 com から２つの FILE * を作成している。１つは、入力用、１つは出力用である。その結果、高水準入出力ライブラリを使って通信が行えるようになっている。fprintf() で出力用の FILE * に書き込むと、ネットワークに対してデータが送り出される。入力用の FILE * に fgets() を行うと、ネットワークからデータを受け取ることができる。

echo_send_request() を呼び出して、要求メッセージを送信している。 echo_receive_reply() を呼び出して、応答メッセージを受信している。

echo_send_request()

  73:	int
  74:	echo_send_request( FILE *out, char *message )
  75:	{
  76:	    int res;
  77:	        res = fprintf( out, "%s\n", message ); /* send a request with '\n' */
  78:	        return( res );
  79:	}
  80:

echo_send_request() は、エコー・サービスで、要求メッセージを送信する関数である。 TCP/IP の通信では、行単位(最後に\n)でデータを送受信することが多い。このプログラムでは、fprintf() で行末に改行(\n)を付加している。

echo_receive_reply()

  81:	int
  82:	echo_receive_reply( FILE *in, char buf[], int size )
  83:	{
  84:	    char *res;
  85:	        res = fgets( buf, size, in ); /* receive a reply message */
  86:	        if( res )
  87:	            return( strlen(buf) );
  88:	        else
  89:	            return( -1 );
  90:	}
  91:

echo_receive_reply() は、エコー・サービスで、要求メッセージを送信する関数である。 fgets() を使って、文字列のデータを行末「\n」まで受信している。

echo サービスでは、１行送り、１行受け取る。他のサービスでは、１行送って複数行受け取ったり、受け取る方では行の概念がなくなるもの(HTTPで画像データを受け取る場合など)もある。その場合は、fprintf() や fgets() ではなくて、fwrite() や fread() を使う必要がある。

HTTP

WWW (the World-Wide Web)では、TCP/IP の上にさらに HTTP (HyperText Transfer Protocol)と呼ばれるプロトコルを構築し、データの転送を行っている。Firefox や Lynx などのブラウザは、WWW サーバとの間に TCP/IP による通信路を開設する。そして、クライアントは、必要なデータを得るための命令を送る。これに対してサーバは、命令に応じた処理を行い結果を返す。この命令の形式や結果の形式を定めたものが、HTTP である。HTTP 通信プロトコルを受け付けるサーバを、HTTP サーバと呼ぶ。

HTTPの要求

HTTP の要求は、最初に要求の種類（メソッド）を含む行があり、以後、オプションが続く。最後に、空行があり、要求の終わりを示す。たとえば、次のような URL を持つデータをアクセスすることを考える。

http://www.coins.tsukuba.ac.jp:80/index.html

Firefox などのクライアントは、まずホスト名 www.coins.tsukuba.ac.jp とポート番号 80 を使ってサーバとの間に TCP/IP の通信路を開設する。そして、クライアントは、開設した通信路を使って、サーバに次のような文字列を送る。

GET /index.html HTTP/1.0←↓
←↓

ここで、"GET" が命令の種類、"/index.html" は、GETの引数の、要求しているデータを表わす URL (ファイル名)、"HTTP/1.0" は、使っているプロトコルのバージョンである。次の空行は、命令のヘッダ部分の終りを意味するものであり、必要である。「←」は、キャリッジ・リターンのコード(0x0d,C言語で' \r')、「↓」は、ニューラインのコード(0x0a,C言語で'\n')である。HTTP のヘッダでは、行末に「←↓」を付けるように規定されている。（サーバを構築する場合には、「←」か「↓」のどちらか１つしかこない場合でもきちんと動作することが求められている。）

HTTPの応答

GET による要求に対して、サーバは、クライアントへ次のような応答メッセージを送り返す。

HTTP/1.1 200 OK←↓
Date: Sun, 27 May 2012 11:39:47 GMT←↓
Server: Apache←↓
Accept-Ranges: bytes←↓
Content-Length: 15885←↓
Connection: close←↓
Content-Type: text/html←↓
←↓  (空行)
本文（HTML）

応答のうち、最初の行が、状態行（status line）と呼ばれる、要求が成功したか失敗したかわ表わしている行である。"200" とは、成功したという意味である（表３参照）。２行目から最初の空行（「←↓」だけの行）までは、応答メッセージのヘッダである。応答メッセージのヘッダには、データの型や、サーバのバージョン、データが更新された日付と時刻、バイト数などが記録されている。

応答で、最初の空行（「←↓」だけの行）の次が、データの本体である。この例では、HTMLで記述されたデータが返されている。サーバは、データ転送が完了すると、TCP/IP の通信路を切断する。

クライアントは、受け取ったデータを整形して利用者に対して表示する。たとえば、インライン・イメージとして指定されたデータを続けてサーバに要求して展開したり、フォントを変えたりして表示する。

telnetによるWWWサーバへのアクセス

以下の例は、telnet コマンドを用いて coins の Web サーバをアクセスした例である。（注意：データは、常に更新されるので、必ずしもこの通りのデータが返されるとは限らない。）

$ telnet www.coins.tsukuba.ac.jp 80↓
Trying 130.158.86.1...
Connected to www.coins.tsukuba.ac.jp.
Escape character is '^]'.
GET /index.html HTTP/1.0↓
↓
HTTP/1.1 200 OK←↓
Date: Sun, 27 May 2012 11:39:47 GMT←↓
Server: Apache←↓
Accept-Ranges: bytes←↓
Content-Length: 15885←↓
Connection: close←↓
Content-Type: text/html←↓
←↓

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">↓
↓
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">↓
<head>↓
・・・中略・・・
<title>筑波大学 情報学群 情報科学類</title>↓
・・・中略・・・
</head>↓
<body>↓
<div id="header">↓
・・・中略・・・
</div>↓
</body>↓
</html>↓

telnet で接続した後に、HTTP の要求メッセージを2行(空行含む)送っている。それに対して、HTTP/1.1 200 OK 以下が、HTTPの応答である。

HTTPのメソッド

表２に、よく使われるHTTP で定義されている命令（メソッド）の例を示す。これらの命令に対して、サーバは、表３に定義されたような応答を行う。

表２　HTTPで定義されている命令（methods）の例

命令		説明
--------------------------------------------------------------------
GET		情報を得る（ヘッダと本体の両方）
HEAD		情報のヘッダのみを得る
POST		新しく情報を作る

HTTPの応答

HTTPの応答では、次のようなコードがよく使われる。 200番台は、エラーが無いことを意味する。

表３　HTTPで定義されている状態コードの例

状態コード	説明
--------------------------------------------------------------------
200		OK(エラーなし)
301		要求されたデータが移動した
302		見つからない
303		別のページを見よ
304		ページは変更されていない
400		要求の形式にエラーがある
401		ページの閲覧が承認されななかった
403		アクセスが許されていない
404		要求されたデータが見つからない
501		メソッドが実装されていない

参考

RFC2616 Hypertext Transfer Protocol -- HTTP/1.1

細かい話

TCP/IP

TCP/IP は、TCP と IP という2つのプロトコルからなる。TCP/IP 上の応用層と、IP データグラムを運ぶ物理層まで考えると、全体としては 4 層のプロトコル・スタックからなる。

ソケットAPI

Unix 系のオペレーティング・システム上でTCP/IPを使うプログラムを開発するには、ソケットAPIを用いる。システムプログラムの授業では、 tcp_connect()等のAPI を利用することを勧める。

DNS(Domain Name System)

DNS は、TCP/IP と共に使われる名前サービスである。 DNS は、ホスト名を IP アドレスに変換するサービスを提供する。プログラムで利用するには、一般にはライブラリ関数 getaddrinfo() を使う。システムプログラムの授業では、 tcp_connect()等のAPI を利用することを勧める。

tcp_connect()の詳細

tcp_connect() は、通信路の開設の仕事のうち、クライアント側の仕事をする関数である。システムプログラムの授業では、利用方法がわかれば十分である。興味がある人は、 tcp_connect()の詳細を見なさい。

fdopen_sock()の詳細

fdopen_sock() は、TCP/IP による通信を、fprintf(), fgets(), fread() 等で行えるようにする関数である。システムプログラムの授業では、利用方法がわかれば十分である。興味がある人は、 fdopen_sock()の詳細を見なさい。

marshaling/unmarshaling

TCP/IPでプログラムを作成する場合、メモリ中のデータ項目とネットワーク上を流れるデータを対応づける必要がある。これを、 marshaling/unmarshalingという。

システムプログラムの授業では、主に次のデータを扱うことにし、 marshaling/unmarshalingの問題を深くは取り扱わない。

文字列: 主にASCII コードで表現された文字データの並び。行単位なら、行末に\n や \r\n 等の行末を意味する制御文字を置く。C言語の文字列操作ライブラリ(前半第2週) で操作できる。
バイト列: 内容を解釈する必要がないバイトの並び。

2バイト以上の整数では、ビット数バイト・オーダの問題がある。

echoサービスのクライアント(Java版)

Java 言語で記述した echo-client-fdopen-one.c である。

練習問題

練習問題(601) telnetコマンドによるWebサーバへのアクセス

telnetコマンドを使って、Web サーバに接続しなさい。

$ telnet サーバ名 80 
接続後、キーボードからHTTPに従い要求メッセージを打ち込む。

たとえば、以下の例は、coins のトップページを得るための要求を示す。

$ telnet www.coins.tsukuba.ac.jp 80 
GET /index.html HTTP/1.0

...

最初の行は、空白で区切られた３つの部分がなること、改行が２個あることに注意しなさい。要求を打つと、問題がなければ画面には目的の HTML ファイルが表示される。

coins のトップページは、文字コードとして UTF-8 を用いている(2012年 5月)。自分で試す時には、端末の文字コードを UTF-8 にするか、 /index.html 以外で、英語や端末の文字コードと一致しているページを選ぶとよい。たとえば、自分のホーム・ページ(~/public_html/index.html) をアクセスするには、GET に次のようなファイル名を与える。

GET /~ログイン名/index.html HTTP/1.0←↓
←↓

システムプログラムのページならば、次のようなファイル名を与える。

GET /~syspro/2012/index.html HTTP/1.0←↓
←↓

Web サーバとしては、coins 以外のものにも接続してみなさい。また、要求するファイルとして、/index.html 以外のものを指定してみなさい。

練習問題(602) wgetコマンド

wget は、URLを引数として取り、その資源をサーバから取得してファイルに保存するコマンドである。wget コマンドを使ってみなさい。

$ wget  http://www.coins.tsukuba.ac.jp/index.html

詳しくは、man wget か、wget -h を実行しなさい。次のオプションを使ってみなさい。

-d (--debug): デバッグ。HTTPの要求と応答を画面に出力する。
--save-headers: 応答メッセージも保存する。
-c (--continue): 中断したダウンロードを再開する。

練習問題(603) HTTP要求メッセージの作成

練習問題(601) で、キーボードからどのような文字列を打ったのかを思い出しなさい。そして、それを printf() で画面に表示するプログラムを作成しなさい。

$ ./http-print-request-get-index-html 
GET /index.html HTTP/1.0

$

練習問題(604) HTTP要求メッセージの作成/引数付き

練習問題(603) で、どのようなファイルを取るかを main の引数で取れるようにしなさい。

$ ./http-print-request /index.html 
GET /index.html HTTP/1.0

$ ./http-print-request /01_compliment.html 
GET /01_compliment.html HTTP/1.0

$

練習問題(605) テキストを扱うHTTPクライアント

この問題を解く前に必ず練習問題(601) , 練習問題(603) , および、練習問題(604) を行いなさい。

HTTPサーバに HTML 等のテキスト・ファイルを要求し、その内容を画面に表示するプログラムを作りなさい。このプログラムの名前を、wcat とする。

wcat コマンドは、次のように３つの引数を与えて利用するものとする。

$ ./wcat host port file 
（ここに、サーバから取得したテキストが表示される）
$

ここで、host は、ホスト名、port は、TCP/IP のポート番号、file は、得るべきファイル名である。これは、URL の文法で記述すると、次のようになる。

http://host:port/file

なお、wcat では、ポート番号の引数を省略しないものとする（省略可能なように工夫してもよい）。HTTP プロトコルで用いられる標準のポート番号は、 80である。

プログラム全体の構造は、次のようになる。

main() の引数を解析する。 (echo-client-fdopen-one.cのmain() および、練習問題(604) を真似る。)
ホスト名とポート番号を用いて、TCP/IPで通信路を作る。 (echo-client-fdopen-one.cのecho_clien_onet()で、 tcp_connect(), fdopen_sock() の使い方を参考にする。)
HTTP で要求のヘッダを送信する。送信内容は、練習問題(604) と同じで、送信先が画面ではなく、TCP/IP の通信路である。
HTTP で応答のヘッダを受信する(行単位でループ)。
HTTP で応答の本体を受信し、それを画面(標準出力)へ出力する(行単位でループ)。

読み込んだヘッダは、画面に表示してもよい。空行に続いて、本体を受信する。テキストのみを扱う場合、ヘッダと同じ方法で受信してもよい。受信したデータは、必ず画面(標準出力)に表示する。

プログラムをつくる時には、行末の扱い(CR-LF)に注意しないさい。行末は、\n ではなく \r\n となっていることがある。空行も、"\n" ではなく "\r\n" となっていることがある。

練習問題(606) HTTP応答メッセージの解析(ヘッダの表示)

HTTPの応答メッセージを解析するプログラム http-response-header を作りなさい。 http-response-header は、引数として指定されたファイルに含まれるHTTPのヘッダのみを表示するプログラムである。

$ ./http-response-header file.txt 
（ここにヘッダ部分が表示される）
$

HTTPの応答のヘッダ部分は、複数行から構成される。ヘッダの終わりには空行がある。従って、空行が来るまで、ループして行単位でヘッダを読み込む。

このプログラムを作成する時に用いるデータは、 wget コマンドを用いて作成することができる。

$ wget --save-headers URL -O file.txt

注意：wget の -O は、大文字である。小文字-o は、別の意味がある。 wget のバージョンによっては、--save-headers の代わりに-S が使えることもある。

練習問題(607) HTTP応答メッセージの解析(本体の表示)

練習問題(606) と同様に、HTTPの応答メッセージを解析するプログラムhttp-response-content を作りなさい。 http-response-content は、引数として指定されたファイルに含まれるHTTPの本体のみを表示するプログラムである。

$ ./http-response-content file.txt 
（ここに本体部分が表示される）
$

練習問題(608) テキストを扱うHTTPクライアント(応答の解析)

練習問題(605) に対して、次の機能を付加しなさい。

HTTP の状態を解析する。たとえば、状態行（status line）で、"404" が返された場合には、その旨を表示して、画面には何も表示しない。
画面には、練習問題(607) と同様に、本体だけにする。

練習問題(609) バイナリを扱うHTTPクライアント

練習問題(608) で、テキストだけでなくバイナリ・データを受け取り、また、受け取ったデータをファイルに保存するプログラムを作成しなさい。このプログラムの名前を、wsave とする。 wcat コマンドは、次のように４つの引数を与えて利用するものとする。

$ ./wsave host port file localfile 
（画面には何も出力されない）
$

最初の3つの引数は、練習問題(605) のwcatと同じである。最後の引数は、保存するローカル・ファイルである。

このプログラムでは、本体部分ではバイナリデータを扱う必要がある。 fdopen_sock() を使う場合、ヘッダについては、fgets() を使ってデータを送受信してもよい。しかし、ヘッダが終わった後、本体部分では、 fread() を使う必要がある。

本体をファイルに保存する部分は、前半第３週／ファイルアクセス（応用）のプログラムと似たものになると思われる。ただし、コピー元は、ネットワークで、コピー先はファイルになる。 fread() を使う場合には、入力したバイト数(読み込んだ要素の数)を調べ、そのバイト数の分を fwrite() 等でファイルに出力する。

HTTPの応答は、バッファ・サイズよりも大きくなる可能性がある。１回の fread() では受信できないことがある。そのため、すべてのデータを受信するまで、バッファ単位でループする必要がある。

また、fread() で文字列を読み込んだとしても、最後に 0 (NULL) で終端されないので、注意しなさい。

練習問題(610) NNTPPクライアントの作成

NNTPクライアントを作成しなさい。

まず、telnet で、これらのサーバに接続しなさい。そして、それぞれのプロトコルに従って、要求を打ち込み、どのような結果が返ってくるかを調べなさい。

次に、telnet で行った要求の送信と結果の受信を行うようなプログラムを作りなさい。このとき、必要なパラメタは、main() の引数から取りなさい。 NNTP は、テキスト・ベースのプロトコルなので、全ての通信にfprintf() や fgets() を使ってもよい。

この課題では、fgets() でキーボードからデータを読み込むことはしてはならない。main() の引数で得られるパラメタ以外で、サーバに送るべきデータは、プログラムの内部で fprintf() や snprintf() 等を用いて作成すること。たとえば、"GET " や "HTTP/1.0" などは、fprintf() のフォーマット文字列で指定する方法がある。キーボードや main() の引数として、本来プログラムで生成すべき文字列を与えてはならない。また、サーバからの応答を解析すること。エラーから生じた時には、以後の処理を中止する機能を持つこと。

接続先として次のホストを使いなさい。

news (news.coins.tsukuba.ac.jp $NNTPSERVER)

プログラムをつくる時には、行末の扱い(CR-LF)にも注意しないさい。

練習問題(611) SMTPクライアントの作成

練習問題(610) と同様に、 SMTP のクライアントを作成しなさい。この課題では、必ずサーバからの応答を解析すること。エラーから生じた時には、以後の処理を中止する機能を持つこと。接続先として次のホストを使いなさい。

lilac-nwc (lilac-nwc.coins.tsukuba.ac.jp)

練習問題(612) 並列wsave

練習問題(609) で、 wget コマンドと同様に複数の URL を引数に取り、複数のファイルを並列にコピーするものを作成しなさい。ただし、並列度としては、最大ｎ（１＜ｎ＜＝３）とし、それ以上の URL が与えられた時でも、その並列度の範囲内で同時にコピーするようにしなさい。

ヒント：最大ｎまで、fork() して、それぞれ子プロセスで１個のファイルをコピーする。子供が終了したら、次の子供を fork() する。

実行速度に差があるので、複数のプロセスに均等にURL をばらまく方法では最速にはならない。

練習問題(613) 中断・再開可能なwsave

練習問題(609) で、（大きな）ファイルをコピーする時、中断する機能をつけなさい。中断とは、 HTTP 1.1で定義されている Range: の機能を使い、一度プログラムを終了しても、次に再開した時に続きを要求する機能である。

プログラムを終了した後でもう一度実行したときに続きを行う行うことができるものだけをこの課題を満たしたと認める。プログラムを終了しないものは、この課題では中断とは認めない。この課題ではシグナルでプロセスを中断することは行わない。

wget コマンドは、-c オプションを指定すると、中断した続きから再開する。

練習問題(614) Time Protocol のクライアント

RFC868 に定義されている Time Protocol のクライアント(TCP) を作成しなさい。そして、date コマンドと類似の結果を表示しなさい。

$ ./time-client host 37 
Sun May 27 20:54:23 JST 2012
$

このプログラムでは、TCP/IP でサーバに接続した後、何も送らずにサーバから４バイトの数を読み込む。その４バイトの数は、ネットワーク・バイト・オーダになっているので、ntohl() で、ホストのバイト・オーダに変換する。この値に、ある値で補正して、Unix で使われているtime_t に変換する。最後に、 strftime() や localtime() でカレンダーの形式に変換する。

RFC868 Time Protocol では、値は、1900年1月1日 0:00 (GMT) を基準にした秒数を返す。time() システムコールや gettimeofday() システムコールでは、 1970 年を基準にしている。strftime() や localtime() を使う前に、差分を補正する必要がある。

この課題では、ポート番号 37 の time を使いなさい。ポート番号 13 の daytime を使ってはならない。

接続先のホストとしては、次のどれかを使いなさい。

acacia01-acacia50, burnet01-burnet50, cosmos01-cosmos50

練習問題(615) サービス名によるポート番号

上の echo-client-fdopen-one.c では、ポート番号を数で与えている。これを、サービス名によりポート番号が指定できるように書き換えなさい。

練習問題(616) netstatコマンド

netstat コマンドを使うと、その時利用されている結合(connection)を表示することができる。このコマンドを使って、ネットワークの利用状況を表示しなさい。

次のようなオプションがよく使わせる。

-a (all): 全て。接続を待っているサーバのソケットも表示する。
-n (number): ネットワークのアドレスを番号で表示する。

練習問題(617) lsofコマンド

lsof コマンドは、プロセスが開いているファイルを表示するコマンドである。-i オプションを付けると、ファイルではなくネットワーク (Internet) の利用状況が表示される。lsof -i を利用して、ネットワークの利用状況を表示しなさい。

Last updated: 2012/06/04 16:21:29

Yasushi Shinjo / <yas@cs.tsukuba.ac.jp>