システムプログラム(第6週): ネットワーク・プログラミング/クライアント側

                                       筑波大学 システム情報工学研究科 
                                       コンピュータサイエンス専攻, 電子・情報工学系
                                       新城 靖
                                       <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~syspro/2011/2011-06-01
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~syspro/2011/
http://www.coins.tsukuba.ac.jp/~yas/

今日の重要な話

■補足

TA、教員、隣の人の活用

Google プログラミングの禁止。人(教員,TA,周りの席の人)に聞いた方が 100倍早い。時間の節約。

さらに時間の節約をするには、印刷物やWebページの資料を読むより、授業をちゃ んと聞いた方がよい。授業では、大事な所に重点を置きながら説明している。 印刷物やWebページ資料の中から自分で大事な所を抜き出すのは、それなりに時 間がかかる。

トップダウン的な理解

今後のシステムプログラムの例題では、例題のプログラムの一部を意図的に省 略してある。

例題のプログラムの利用方法

プログラムの先頭にファイル名が書いてある。cp コマンドでコピーできる。た とえば、~yas/syspro/ipc/echo-client-fdopen-one.c なら次のようにして コピーできる。
$ cp ~yas/syspro/ipc/echo-client-fdopen-one.c . [←]
$」は、プロンプトであり、実際には、「cosmos38:~ s0912345$ 」のようになっている。コピーする時には、打たない。また、末尾 の「.」を打つこと。これはカレント・ワーキング・ディレクトリの意 味である。

Emacs Tips

行番号を削除するなら、Emacs の正規表現によるM-x replace-regexp が使える。 以下の例では、行の先頭(^)から始まる任意の文字(.)6個を空文字列に置き換え ている。

M-x replace-regexp[←]
Replace regexp (default 省略): ^......[←]
Replace regexp ^...... with: [←]
ただし、Web ページにあるプログラム(行番号があるもの)は、一部省略されて いるので、そのまま行番号を削除しただけでは動作しないことがある。 したがって、cpコマンド でコピーすべきである。

字下げが気に入らない時には、M-x indent-region を使うとよい。region を設 定するには、C-SPC (control + space) でマークを設定して、カーソルを移動 させる。タブ・キーも使えるが、1行ずつしかできない。

ことえりでバックスラッシュを入力できるようにすると良い。 また、 MacOSX の Spotlight のショートカット・キーを解除 すべきである。

カーソル移動には、M-<M-> も使 える。

Java

本日の課題では、Java言語でプログラムを作成してもよい。ただし、利用して もよいのは、Socket, ServerSocket, DatagramSocket 等の Socket API に近い レベルのAPI を提供するクラスのみである。高レベルのクラス、たとえば、 HttpURLConnection を用いてはならない。

TCP/IPの基本的な考え方

インターネット上のアプリケーションの多くは、TCP/IPという仕組みを用いて 通信を行っている。

ストリーム

TCP/IPは、信頼性のある(reliable)双方向のストリーム転送サービス (stream transport service)を提供する通信プロトコルである(図1)。ス トリームは、次のような性質がある転送サービスである。

Unixのパイプは、双方向ではなく単 方向であるが、同じストリームに分類される転送サービスを提供するものであ る。

図1(a) TCP/IPにより提供されるストリーム
図1(a) TCP/IPにより提供される双方向ストリーム

図1(b) Unixのパイプにより提供されるストリーム
図1(b) Unixのパイプにより提供される単方向ストリーム

なお、C言語のライブラリ関数である fopen(), fgets(), fputs() なども、 ストリームと呼ばれることがある。これは、もともとランダム・アクセス可能 で、メモリ中の配列と同じようにアクセスするすることもできるファイルを、 まるでプロセス間通信のストリームと同じように扱うことができることにも 関係している。

層(プロトコル・スタック)

TCP/IPによる通信では、図2に示すように、4つのプロトコル(規約、約束事) の層が使われる。TCP/IP自身は、TCP層と IP層という2つのプロトコルに分解 される。このようにさまざまなプロトコルが決められ、全体として層をなして いる。この様子を、プロトコル・スタックと呼ぶ。

図2 TCP/IPにおけるプロトコル・スタック

図2 TCP/IPにおけるプロトコル・スタック

IPアドレス

TCPで通信をする時に、通信相手を識別するには IPアドレスポート番号が必要になる。 IPアドレスとしては、IPv4 では、32ビットの整数が 使われてる。IPv6 では、128 ビットの整数が使われる。

IPアドレスの表記(IPv4)

例: これは、10進数でいくつになるかを計算したい時には、次のようにして計算 する。

IPアドレスの表記(IPv6)

例:

ポート番号

TCPで通信をする時に、通信相手を識別するにはIPアドレスと ポート番号(port number) が必要になる。ポート番号は、同じホストの中で提供されている様々なサービスを 区別するために使われる。 ポート番号は、16ビットの整数であり、よく使われる アプリケーション では、あらかじめどの番号を使うかが決められている。これを well-knownポート番号(well-known port number) という。Unix では、1024 番より小さいポート番号を使うには、 特権ユーザ(スーパー・ユーザ、管理者)の権限が必 要であり、このようなポート番号は、 特権ポート番号(privileged port number) と呼ばれる。

応用層

TCP層の上には、応用層が定義されている。この層では、ftp, ssh, Firefox, Thunderbird などの、TCP/IP を利用するプログラムの間の会話の方法が定 義される。

TCP/IPを使った通信は、まるでプロセス同士が電話で会話するよう に進められる。普通の電話では、日本語を話す人と英語を話す人は、電話で情 報交換を行うことができない。同様に、同じTCP/IPを使っていても、会話の方 法が違うと、まったく情報交換を行うことができない。ゆえに、TCP/IPの上に さらに、情報交換のためにさまざまなプロトコルが取り決められている。

TCP/IPの上に構築されているプロトコルの例を、表1に示す。

表1 TCP/IPの上に構築されているプロトコルの例

TCP/IPの上に構築されているプロトコルの例
ポート番号 プロトコルの名前 目的
21 FTP(File Transfer Protocol) ファイル転送
22 SSH (Secure Shell) 暗号通信路によるログイン
23 Telnet 遠隔ログイン(telnet)
25 SMTP(Simple Mail Transfer Protocol) 電子メールの転送
79 finger finger name の取得
80 HTTP(HyperText Transfer Protocol) WWWのデータ転送
110 POP(Post Office Protocol) 電子メールのアクセス
119 NNTP(Network News Transfer Protocol) ネットワーク・ニュースの記事の転送
143 IMAP(Internet Message Access Protocol) 電子メールのアクセス
513 login 遠隔ログイン(rlogin)

/etc/services に、他のポート番号が掲載されている。

物理層

IPのデータグラムを転送するためには、さまざまな物理的な媒体が使われる。 物理媒体は、IP層と同様にデータグラム転送サービスを提供するものが多い。 ただし、アドレスとしては、IPアドレスではなく、それぞれの物理層に 独自のものを用いる。

現在LANでは、イーサネットがよく使われいる。イーサネットは、同軸 ケーブル、より対線(Twisted Pair Cable)、または、光ファイバ を使ってデータグラムを転送する。 無線LAN (IEEE 802.11b/g/a) も、データグラムを転送する。

IPのデータグラムを転送する時に、物理的なデータグラム転送サービスではな く、他のプロトコルが使われることもある。 モデムなどを使ったシリアル回線では、PPP(Point to Point Protocol)というプロトコルの上に、IPデータグラムが流される。

IP上に構築された UDP(User Datagram Protocol)も、IPとほとんど同じ機能 を提供する。

ホストとルータ

ネットワークに接続されている計算機の中で、ネットワークに1ヵ所の出入り 口(インタフェース)を持っているものは、ホストと呼ばれる。2ヵ所以上の 出入り口を持っている計算機は、ルータと呼ばれる。ルータは、ネットワーク とネットワークを接続するための計算機である。ルータは、入ってきたIPのパ ケットのIPアドレスを見て、どのネットワークに送ればよいかを判断する。

図1で、左端と右端にあり、4層全てそろっている部分がホストである。 TCP/IPの通信は、ホストとホストの間で行われる。中央の、2層しかない部分 は、ルータである。ルータの仕事は、IP層において行われる。

OSI 7層参照モデル

TCP/IP は、OSI参照モデルよりも古い。OSI参照モデルでは、プロトコル・ス タックは 7層からなるが、TCP/IPでは 4 層しかない。

通信路の開設

TCP/IP では、プロセスとプロセスが、電話で会話をするように通信が行われ る。普通の電話で人間同士が話をするには、まず電話番号を指定して、話相手 に電話をとってもらわなければならない。TCP/IP においても同様である。 TCP/IPでは、電話を掛ける方をクライアント・プロセス、電話を待つ方をサー バ・プロセスと言いう。

TCP/IPにおいて、プロセス間に形成されたストリーム通信路のことを、計算機 間に張られた物理的な回線に似ていることから、仮想的回線(virtual circuit)とも言う。TCP/IP では、回線を接続する段階では、クライアント・ プロセスとサーバ・プロセスは非対称である。一度仮想回線が接続された後は、 両方のプロセスは、TCP/IPのレベルでは、まったく対称的になる。

TCP/IPにおいてプロセス間に仮想回線を開設するには、IPアドレスとポート番 号が必要である。ポート番号は、同じIPアドレスを持つホスト上で動いている プロセスを区別するために使われる。

以下に、通信路が開設される手順を示す。

  1. サーバ・プロセスがポート番号を指定して、接続要求受付用ポートを作る。 サーバ・プロセスは、クライアント・プロセスからの接続要求を待つ(図3 (a))。(注意:要求受付用ポートでは、データの送受信はできない。)
  2. クライアント・プロセスが通信用ポートを作る。このポートを、サーバ・ プロセスが動いているホストのIPアドレスと、サーバ・プロセスが作った接 続要求受付用ポートのポート番号を使って、接続要求を行う(図3(b))。
  3. 接続要求が受け付けられると、サーバ・プロセスには、新たに通信用ポー トが作られる(図3(c))。これは、特定のクライアントとの通信のために 使われる。

こうして一度通信路が開設されると、クライアントとサーバは、どちらからで もデータを送り始めることができる。

図3(a) TCP/IP通信路の開設(1)

図3(a) TCP/IP通信路の開設(1)

図3(b) TCP/IP通信路の開設(2)

図3(b) TCP/IP通信路の開設(2)

図3(c) TCP/IP通信路の開設(3)

図3(c) TCP/IP通信路の開設(3)

TCP/IPにおける通信路開設において、クライアントは、サーバ側の接続要求受 付用ポートのポート番号を、事前に知っている必要がある。表1に、いくつか の応用層のプロトコルについて、公に利用目的が決められているポート番号を 示す。

クライアント側の通信用ポートのポート番号は、通常は、オペレーティング・ システムにより自動的に割り当てられる。サーバ側の通信用ポートのポート番 号も、同様である。

クライアントとサーバ

 プロセスは、本来、いつでも自由にメッセージを送信でき、 いつでも自由に、メッセージを受信できる。 しかし、本当に自由に送信と受信を行うと、 プログラムが複雑になり、見通しが悪くなり、バグも混入しやすくなる。 そこで、通信を行うプログラムを書く時に 意図的に制約を設定してプログラムを単純化して見通し のよいものにしようという考え方が生まれた。 たとえば、図?で、(a) と (b) を比較すると、プロセスの数とメッセージの 数は同じであるが、(b) の方がはるかに見通しがよい。

図?(a) 構造化されていないもの

図?(a) 構造化されていないもの

図?(b) 構造化されたもの

図?(b) 構造化されたもの

 クライアント・サーバ・モデルは、プロセス間通信を構造化したものであり、 最近の用語でいうと、デザイン・パターンの1つである。

プログラミングの歴 史の中で「構造化」という言葉は、まず、「制御構造」に対して使われた。構 造化プログラミングとは、goto文を、よい goto 文と悪い goto文に分け、よ い goto 文だけを使うようにしようとするものである。初期のプログラミング では、アセンブリ言語や貧弱な制御構造しか持たない Fortran が使われてい たが、その時は、jump 命令や goto 文が多用されていた。そのような jump 命令や goto 文にも、分かりやすいものとわかりにくいものがあった。そこで、 よい goto 文のパターンを整理して、それだけを使ってプログラムを書くのが よいとされた。そしてよい goto 文にはプログラミング言語のレベルでif、 while、continue、break、そして、手続き呼出し(call)とreturn という特別 な形式が割り当てられた。C言語や Pascal では、goto 文が残されたが、 Java などの最近の言語ではgoto 文が記述できなくなっている。

 プロセス間通信を構造化するという意味でのクライアント・サーバ・モデル では、まずプロセスをクライアントとサーバの2種類に分ける。

図? 通信のパタンからみたクライアントとサーバの定義

図? 通信のパタンからみたクライアントとサーバの定義

クライアントもサーバも、多くの場合、内部に1つループを持ち、次の動作を 繰り返す。
クライアント
先に要求を送る、後で結果を受け取る
サーバ
先に要求を受け取る、後で結果を返す

クライアント・サーバ・モデルに基づくプログラムには次のようなことを行う プロセスは存在しない。

注意:クライアントとサーバは、いろいろな意味で使われる。これらの意味は、 多くの場合、一致しているが、一致していないこともある。

クライアントのパタン

    connect(s);   // 接続要求。accept() と対応。

    send(s,message);        // 要求
    receive(s,message);     // 応答
    send(s,message);        // 要求
    receive(s,message);     // 応答
    ...                     // 必要回数繰り返す

    close(s);     // 接続の切断。
注意1:ここで、connect(), send(), receive() は、抽象的な意味。 具体的なシステム・コールの使い方を説明したものではない。

send() や receive() は、複数の具体的なシステム・コールと対応することが ある。たとえば、1回のシステム・コールでは送信できない場合、(ループして) 複数回のシステム・コールを用いることもある。

サーバのパタン

    make_port(a); // 受付端の登録。
    while( 1 )
    {
        s=accept(a);    // 実際の受付。connect() と対応。
        while( !eof(s) )
        {
            receive(s,message);     // 要求の受信
            send(s,message);        // 応答の送信
        }
        close(s);     // 接続の切断。
    }

ソケットAPI

UNIX オペレーティング・システム上で動作するプログラムがTCP/IPの機能を使 う場合、UNIXオペレーティング・システムが提供するソケットAPIというAPIを 通じて利用することになる。ソケットは、TCP/IP をはじめとして、XNS, OSI などさまざまな通信プロトコルを UNIX オペレーティング・システム上で使う ために設計されたものである。TCP/IP だけを考えると、ソケットAPI は、繁雑 であり、使いにくくなっている。

DNS(Domain Name System)

TCP/IPで通信する時には、通信相手のIPアドレス(IPv4で32ビット/IPv6で128ビットの整数、番号)が 必要になる。IPアドレスは、コンピュータにとって扱いやすいが、人間にとっ て分かりにくい。

人間にとってわかりやすい記号(文字列)を使ったコンピュータの名前から IPアドレスに変換するサービスがあれば便利である。このサービスを、 名前サービス(name service)、 という。 名前サービスを提供するプログラム(プロセス)を、名前サーバという。

名前から名前を指している番号に変換することを 名前解決(name resolution) という。

インターネットで使われている名前サービスは、 DNS(Domain Name System) と呼ばれる。 DNS では、膨大な数のホスト名を含む名前空間を階層的にドメイン(領域)に 分割して管理ている。 この空間の構造は、木構造と同じものでいる。

クライアントを作成するためのAPI

TCP/IPのクライアント側のプログラムで大事な標準のシステムコールとライブ ラリ関数は、一般に、次の通りである。 この講義では、次の独自のAPIを用いる。
int tcp_connect( char *server, int portno ) [独自]
通信用ポートを作成し、 ホスト名 server のポート番号 (portno) へ TCPで通信路を開設する。 そのTCPのソケットに対応したファイル記述子を返す。 ホスト名は、DNS を用いて IP アドレスに変換される。
int fdopen_sock( int sock, FILE **inp, FILE **outp ) [独自]
TCP/IPの通信を、FILE *を取るようなライブラリ関数(例えば、 fprintf() や fgets() )で行えるようにするためもの。入力は、第1引数のソケッ ト sock で、結果の FILE * を、第2引数と第3引数の 場所へ返す。標準のライブラリ関数 fdopen() を、入力と出力の両方が 扱えるように拡張したもの。
int snprintf(バッファ,バイト数,書式,...) [標準]
printf() と同じことを、画面ではなく、バッファ(メモリ) に対して行う。
FILE *については、 前半第3週「11. ファイルアクセス」 参照。 snprintf()については、 前半第2週「9. 文字,文字列操作ライブラリ」 参照。

marshaling/unmarshaling

TCP/IPでプログラムを作成する場合、メモリ中のデータ項目とネットワーク上を流れる データを対応づける必要がある。これを、 marshaling/unmarshalingという。

システムプログラムの授業では、主に次のデータを扱うことにし、 marshaling/unmarshalingの問題を深くは取り扱わない。

整数 でも、 ビット数 バイト・オーダ の問題がある。

TCP/IP の汎用クライアント・プログラムとしての telnet コマンド

telnet コマンドとは

telnet コマンドは、本来は、遠隔ログインのコマンドであり、 通常次のように使われる。
$ telnet hostname [←]
以後、ユーザ名とパスワードを打ち、そのホストへログインできる。そしてシェ ルにより対話的に利用できる。(coins では、telnet による遠隔ログインのサー ビスを提供していない。)

TCPの汎用クライアントとしてのtelnet

telnet コマンドに、次のようにポート番号(23のtelnetサービス以外)を与える ことで、文字列を送受信するようなプロトコルについては 汎用のTCPのクライアントとして使える。
$ telnet hostname portno [←]

端末、telnet、サーバ、要求、応答

図? TCPの汎用クライアントとしてのtelnet

telnetによるecho サーバへの接続

telnet コマンドは、^D (control+D) を打っても終了しない。 ^] を打つと、ローカルの telnet コマンドを制御することができる。 ここで、quit などのコマンドが使える。

以下の例は、echo サービス(ポート番号7番)を提供しているサーバに telnet コマンドをクライアントとして接続している。echo サービスは、送られて来た 文字列(最後に改行)をそのまま送り返すものである。

$ egrep '^echo[ ].*/tcp' /etc/services [←]
echo              7/tcp     # Echo
$ telnet cosmos10.coins.tsukuba.ac.jp 7 [←]
Trying 130.158.86.150...
Connected to cosmos10.coins.tsukuba.ac.jp.
Escape character is '^]'.
hello[←]
hello
exit[←]
exit
quit[←]
quit
^]
telnet> quit[←]
Connection closed.
$ []
注意:coins では、echo サービスを iMac で動作させている。 セキュリティ上の理由から、echo などの、システムプログラムの講義くらいで しか役に立たないようなサービスを停止することが、最近では一般的である。

echoサービスのクライアント

TCP/IP のポート番号 7 では、送られてきた文字をそのまま返すサービスを提 供している。 実行例については、上の telnetによるecho サーバへの接続 を参照しなさい。

echo-client-fdopen-one.c

以下のプログラムは、echo サービスを利用するクライアントである。実行例 を先に示す。
$ cp ~yas/syspro/ipc/echo-client-fdopen-one.c . [←]
$ make echo-client-fdopen-one [←]
cc     echo-client-fdopen-one.c   -o echo-client-fdopen-one
$ ./echo-client-fdopen-one  [←]
Usage: ./echo-client-fdopen-one host port 'message'
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 hello [←]
sent: 6 bytes [hello
]
received: 6 bytes [hello
]
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 exit [←]
sent: 5 bytes [exit
]
received: 5 bytes [exit
]
$ ./echo-client-fdopen-one cosmos10.coins.tsukuba.ac.jp 7 quit [←]
sent: 5 bytes [quit
]
received: 5 bytes [quit
]
$ []
このプログラムは、コマンドラインから3つの引数をとる。第1引数で指 定されたホスト上の、第2引数で指定されたポートで動作しているサーバに接 続する。そして、第3引数で与えられたメッセージをサーバへ送る。echo サービスのサーバは、同じ文字列を送り返して来る。このプログラムは、サー バから送り返されてきた文字列を受取り、結果を画面に表示する。 telnet コマンドとは異なり、文字列を1つしか送受信しない。

echo-client-fdopen-one.c のmain()

   1:	/*
   2:	        echo-client-fdopen-one.c -- 文字列を送受信するクライアント(TCP/IP版)
   3:	        ~yas/syspro/ipc/echo-client-fdopen-one.c
   4:	        Created on: 2009/06/01 21:13:38
   5:	*/
   6:	#include <stdio.h>
   7:	#include <stdlib.h>     /* exit() */
   8:	#include <string.h>     /* memset(), memcpy() */
   9:	#include <sys/types.h>  /* socket() */
  10:	#include <sys/socket.h> /* socket() */
  11:	#include <netinet/in.h> /* struct sockaddr_in */
  12:	#include <netdb.h>      /* getaddrinfo() */
  13:	#include <string.h>     /* strlen() */
  14:	
  15:	extern  int echo_client_one( char *server, int portno, char *message );
  16:	extern  int echo_send_request( FILE *out, char *message );
  17:	extern  int echo_receive_reply( FILE *in, char buf[], int size );
  18:	extern  int tcp_connect( char *server, int portno );
  19:	extern  int fdopen_sock( int sock, FILE **inp, FILE **outp );
  20:	
  21:	main( int argc, char *argv[] )
  22:	{
  23:	     char *server ;
  24:	     int portno ;
  25:	     char *message ;
  26:	        if( argc != 4 )
  27:	        {
  28:	            fprintf( stdout,"Usage: %s host port 'message'\n",argv[0] );
  29:	            exit( -1 );
  30:	        }
  31:	        server  = argv[1] ;
  32:	        portno  = strtol( argv[2],0,10 );
  33:	        message = argv[3];
  34:	        echo_client_one( server, portno, message );
  35:	}
  36:	

main() 関数は、コマンドラインの引数を調べて、echo_client_one() を呼んで いる。第2引数のポート番号については、strtol() で、文字列として与えられ た数を、int に変換している。

echo_clien_onet()

  37:	#define BUFFERSIZE      1024
  38:	
  39:	int
  40:	echo_client_one( char *server, int portno, char *message )
  41:	{
  42:	    int sock ;
  43:	    FILE *in, *out ;
  44:	    char rbuf[BUFFERSIZE];
  45:	    int res;
  46:	
  47:	        sock = tcp_connect( server, portno );
  48:	        if( sock<0 )
  49:	            exit( 1 );
  50:	        if( fdopen_sock(sock,&in,&out) < 0 )
  51:	        {
  52:	            fprintf(stderr,"fdooen()\n");
  53:	            exit( 1 );
  54:	        }
  55:	        res = echo_send_request( out, message );
  56:	        if( res < 0 )
  57:	        {
  58:	            fprintf(stderr,"fprintf()\n");
  59:	            exit( 1 );
  60:	        }
  61:	        fprintf( stdout, "sent: %d bytes [%s\n]\n",res,message );
  62:	        res = echo_receive_reply( in, rbuf, BUFFERSIZE );
  63:	        if( res < 0 )
  64:	        {
  65:	            fprintf(stderr,"fprintf()\n");
  66:	            exit( 1 );
  67:	        }
  68:	        printf("received: %d bytes [%s]\n", res, rbuf );
  69:	        fclose( in );
  70:	        fclose( out );
  71:	}
  72:	
echo_client_one() では、tcp_connect() という関数を呼び出している。この結果、 サーバとの間に TCP/IP通信路の開設され、通信可能なファイル記述子 (ファイルディスクリプタ) が返さ れる。このファイル記述子は、標準入出力(0,1,2)や open() システム・コー ルの結果と同じもので、 write() システムコールや read() システムコールの第一引数とし て使うことができる。つまり、write() システムコールを使うと、ネットワー クに対してデータを送り出すことができ、read() システムコールを使うとネッ トワークからデータを受け取ることができる。最後に不要になったら close() で解放する。

このプログラムでは、fdopen_sock() を使って、通信可能なファイル記 述子 com から2つの FILE * を作成している。1つは、入力用、1つは出力 用である。その結果、 高水準入出力ライブラリ を使って通信が行えるようになっている。fprintf() で出力用の FILE * に書 き込むと、ネットワークに対してデータが送り出される。入力用の FILE * に fgets() を行うと、ネットワークからデータを受け取ることができる。

echo_send_request() を呼び出して、要求メッセージを送信している。 echo_receive_reply() を呼び出して、応答メッセージを受信している。

echo_send_request()

  74:	echo_send_request( FILE *out, char *message )
  75:	{
  76:	    int res;
  77:	        res = fprintf( out, "%s\n", message ); /* send a request with '\n' */
  78:	        return( res );
  79:	}
  80:	

echo_send_request() は、エコー・サービスで、要求メッセージを 送信する関数である。 TCP/IP の通信では、行単位(最後に\n)でデータを送受信することが多い。 このプログラムでは、fprintf() で行末に改行(\n)を付加している。

echo_receive_reply()

  81:	int
  82:	echo_receive_reply( FILE *in, char buf[], int size )
  83:	{
  84:	    char *res;
  85:	        res = fgets( buf, size, in ); /* receive a reply message */
  86:	        if( res )
  87:	            return( strlen(buf) );
  88:	        else
  89:	            return( -1 );
  90:	}

echo_receive_reply() は、エコー・サービスで、要求メッセージを 送信する関数である。 fgets() を使って、文字列のデータを行末「\n」まで受信している。

echo サービスでは、1行送り、1行受け取る。他のサービスでは、1行送っ て複数行受け取ったり、受け取る方では行の概念がなくなるもの(HTTPで画像 データを受け取る場合など)もある。その場合は、fprintf() や fgets() では なくて、fwrite() や fread() を使う必要がある。

tcp_connect()

tcp_connect() は、通信路の開 設の仕事のうち、クライアント側の仕事をする関数である。

fdopen_sock()

fdopen_sock() は、TCP/IP による通信を、fprintf(), fgets(), fread() 等で 行えるようにする関数である。

echoサービスのクライアント(Java版)

Java 言語で記述した echo-client-fdopen-one.c である。

HTTP

WWW (the World-Wide Web)では、TCP/IP の上にさらに HTTP (HyperText Transfer Protocol)と呼ばれるプロトコルを構築し、データの転送を行ってい る。Firefox や Lynx などのブラウザは、WWW サーバとの間に TCP/IP による 通信路を開設する。そして、クライアントは、必要なデータを得るための命令 を送る。これに対してサーバは、命令に応じた処理を行い結果を返す。この命 令の形式や結果の形式を定めたものが、HTTP である。HTTP 通信プロトコルを 受け付けるサーバを、HTTP サーバと呼ぶ。

HTTPの要求

HTTP の要求は、最初に要求の種類(メソッド)を含む行があり、以後、オプショ ンが続く。最後に、空行があり、要求の終わりを示す。 たとえば、次のような URL を持つデータをアクセスすることを考える。

http://www.coins.tsukuba.ac.jp:80/index.html

Firefox などのクライアントは、まずホスト名 www.coins.tsukuba.ac.jp とポート 番号 80 を使ってサーバとの間に TCP/IP の通信路を開設する。そして、クラ イアントは、開設した通信路を使って、サーバに次のような文字列を送る。

GET /index.html HTTP/1.0←↓
←↓

ここで、"GET" が命令の種類、"/index.html" は、GETの引数の、要求してい るデータを表わす URL (ファイル名)、"HTTP/1.0" は、使っているプロトコル のバージョンである。次の空行は、命令のヘッダ部分の終りを意味するもので あり、必要である。「←」は、キャリッジ・リターンのコード(0x0d,C言語で' \r')、「↓」は、ニューラインのコード(0x0a,C言語で'\n')である。HTTP の ヘッダでは、行末に「←↓」を付けるように規定されている。(サーバを構築 する場合には、「←」か「↓」のどちらか1つしかこない場合でもきちんと動 作することが求められている。)

HTTPの応答

GET による要求に対して、サーバは、クライアントへ次のような応答メッセー ジを送り返す。
HTTP/1.1 200 OK←↓
Date: Sun, 29 May 2011 11:39:47 GMT←↓
Server: Apache←↓
Accept-Ranges: bytes←↓
Content-Length: 15885←↓
Connection: close←↓
Content-Type: text/html←↓
←↓  (空行)
本文(HTML)
応答のうち、最初の行が、状態行(status line)と呼ばれる、要求が成功した か失敗したかわ表わしている行である。"200" とは、成功したという意味であ る(表3参照)。2行目から最初の空行(「←↓」だけの行)までは、応答メッ セージのヘッダである。応答メッセージのヘッダには、データの型や、サーバ のバージョン、データが更新された日付と時刻、バイト数などが記録されてい る。

応答で、最初の空行(「←↓」だけの行)の次が、データの本体である。この 例では、HTMLで記述されたデータが返されている。サーバは、データ転送が完 了すると、TCP/IP の通信路を切断する。

クライアントは、受け取ったデータを整形して利用者に対して表示する。たと えば、インライン・イメージとして指定されたデータを続けてサーバに要求し て展開したり、フォントを変えたりして表示する。

telnetによるWWWサーバへのアクセス

以下の例は、telnet コマンドを用いて coins の Web サーバをアクセスした例 である。(注意:データは、常に更新されるので、必ずしもこの通りのデータ が返されるとは限らない。)
$ telnet www.coins.tsukuba.ac.jp 80[←]↓
Trying 130.158.86.1...
Connected to www.coins.tsukuba.ac.jp.
Escape character is '^]'.
GET /index.html HTTP/1.0↓

HTTP/1.1 200 OK←↓
Date: Sun, 29 May 2011 11:39:47 GMT←↓
Server: Apache←↓
Accept-Ranges: bytes←↓
Content-Length: 15885←↓
Connection: close←↓
Content-Type: text/html←↓
←↓

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">↓
↓
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja">↓
<head>↓
・・・中略・・・
<title>筑波大学 情報学群 情報科学類</title>↓
・・・中略・・・
</head>↓
<body>↓
<div id="header">↓
・・・中略・・・
</div>↓
</body>↓
</html>↓

telnet で接続した後に、HTTP の要求メッセージを2行(空行含む)送っている。 それに対して、HTTP/1.1 200 OK 以下が、HTTPの応答である。

HTTPのメソッド

表2に、よく使われるHTTP で定義されている命令(メソッド)の例を示す。こ れらの命令に対して、サーバは、表3に定義されたような応答を行う。

表2 HTTPで定義されている命令(methods)の例

命令		説明
--------------------------------------------------------------------
GET		情報を得る(ヘッダと本体の両方)
HEAD		情報のヘッダのみを得る
POST		新しく情報を作る

HTTPの応答

HTTPの応答では、次のようなコードがよく使われる。 200番台は、エラーが無いことを意味する。

表3 HTTPで定義されている状態コードの例

状態コード	説明
--------------------------------------------------------------------
200		OK(エラーなし)
301		要求されたデータが移動した
302		見つからない
303		別のページを見よ
304		ページは変更されていない
400		要求の形式にエラーがある
401		ページの閲覧が承認されななかった
403		アクセスが許されていない
404		要求されたデータが見つからない
501		メソッドが実装されていない

参考

練習問題

練習問題(601) telnetコマンドによるWebサーバへのアクセス

telnetコマンドを使って、Web サーバに接続しなさい。
$ telnet サーバ名 80 [←]
接続後、キーボードからHTTPに従い要求メッセージを打ち込む。
たとえば、以下の例は、coins のトップページを得るための要求を示す。
$ telnet www.coins.tsukuba.ac.jp 80 [←]
GET /index.html HTTP/1.0[←]
[←]
...
最初の行は、空白で区切られた3つの部分がなること、改行が2個あることに 注意しなさい。要求を打つと、問題がなければ画面には目的の HTML ファイル が表示される。

coins のトップページは、文字コードとして UTF-8 を用いている(2011年 5月)。自分で試す時には、端末の文字コードを UTF-8 にするか、 /index.html 以外で、英語や端末の文字コードと一致しているページを選ぶと よい。たとえば、自分のホーム・ページ(~/public_html/index.html) を アクセスするには、GET に次のようなファイル名を与える。

GET /~ログイン名/index.html HTTP/1.0←↓
←↓

Web サーバとしては、coins 以外のものにも接続してみなさい。また、要求す るファイルとして、/index.html 以外のものを指定してみなさい。

練習問題(602) wgetコマンド

wget は、URLを引数として取り、その資源をサーバから取得してファイルに保 存するコマンドである。wget コマンドを使ってみなさい。
$ wget  http://www.coins.tsukuba.ac.jp/index.html [←]
詳しくは、man wget か、wget -h を実行しなさい。 次のオプションを使ってみなさい。
-d (--debug)
デバッグ。HTTPの要求と応答を画面に出力する。
--save-headers
応答メッセージも保存する。
-c (--continue)
中断したダウンロードを再開する。

練習問題(603) HTTP要求メッセージの作成

練習問題(601) で、キーボードからどのような文字列を打っ たのかを思い出しなさい。そして、それを printf() で画面に表示するプログ ラムを作成しなさい。

$ ./http-print-request-get-index-html [←]
GET /index.html HTTP/1.0[←]
[←]
$ []

練習問題(604) HTTP要求メッセージの作成/引数付き

練習問題(603) で、どのようなファイルを 取るかを main の引数で取れるようにしなさい。
$ ./http-print-request /index.html [←]
GET /index.html HTTP/1.0[←]
[←]
$ ./http-print-request /01_compliment.html [←]
GET /01_compliment.html HTTP/1.0[←]
[←]
$ []

練習問題(605) HTTP応答メッセージの解析(ヘッダの表示)

HTTPの応答メッセージを解析するプログラム http-response-header を作りな さい。 http-response-header は、引数として指定されたファイルに含まれるHTTPのヘッ ダのみを表示するプログラムである。
$ ./http-response-header file.txt [←]
(ここにヘッダ部分が表示される)
$ []
このプログラムを作成する時に用いるデータは、 wget コマンドを用いて作成す ることができる。
$ wget --save-headers URL -O file.txt [←]
注意:wget の -O は、大文字である。 小文字-o は、別の意味がある。 wget のバージョンによっては、--save-headers の代わりに-S が使えることもある。

練習問題(606) HTTP応答メッセージの解析(本体の表示)

練習問題(605) と同様に、HTTPの応答メッセー ジを解析するプログラムhttp-response-content を作りなさい。 http-response-content は、引数として指定されたファイルに含まれるHTTPの 本体のみを表示するプログラムである。
$ ./http-response-content file.txt [←]
(ここに本体部分が表示される)
$ []

練習問題(607) テキストを扱うHTTPクライアント

HTTPサーバに HTML 等のテキスト・ファイルを要求し、その内容を画面に表示 するプログラムを作りなさい。このプログラムの名前を、wcat とする。

wcat コマンドは、次のように3つの引数を与えて利用するものとする。

$ ./wcat host port file [←]
(ここに、サーバから取得したテキストが表示される)
$ []
ここで、host は、ホスト名、port は、TCP/IP のポート番号、file は、得る べきファイル名である。これは、URL の文法で記述すると、次のようになる。

http://host:port/file

なお、wcat では、ポート番号の引数を省略しないものとする(省略可能なよ うに工夫してもよい)。HTTP プロトコルで用いられる標準のポート番号は、 80である。

プログラム全体の構造は、次のようになる。

  1. main() の引数を解析する。 (echo-client-fdopen-one.cのmain() を真似る。)
  2. ホスト名とポート番号を用いて、TCP/IPで通信路を作る。 (echo-client-fdopen-one.cのecho_clien_onet()で、 tcp_connect(), fdopen_sock() の使い方を参考にする。)
  3. HTTP で要求のヘッダを送信する。 送信内容は、練習問題(604) と同じで、 送信先が画面ではなく、TCP/IP の通信路である。
  4. HTTP で応答のヘッダを受信する(行単位でループ)。
  5. HTTP で応答の本体を受信し、それを画面(標準出力)へ出力する(行単位でループ)。 出力の内容は、 練習問題(606) と同様に、 本体だけのことが望ましい。
HTTPの応答のヘッダ部分は、複数行から構成される。ヘッダの終わりには 空行がある。従って、空行が来るまで、ループして行単位でヘッダを読み込む。 読み込んだヘッダは、画面に表示してもよい。

空行に続いて、本体を受信する。テキストのみを扱う場合、ヘッダと同じ方法 で受信してもよい。受信したデータは、必ず画面(標準出力)に表示する。

プログラムをつくる時には、できれは 行末の扱い(CR-LF)に注意しないさい。 余裕があれば、受け取ったデータを画面に表示する前に、Unix に合わせて行 末のキャリッジ・リターンのコードを削除するようにしなさい。

練習問題(608) バイナリを扱うHTTPクライアント

練習問題(607) で、テキストだけでなくバイナリ・データ を受け取り、また、受け取ったデータをファイルに保存するプログラムを作成 しなさい。このプログラムの名前を、wsave とする。 wcat コマンドは、次のように4つの引数を与えて利用するものとする。
$ ./wsave host port file localfile [←]
(画面には何も出力されない)
$ []
最初の3つの引数は、練習問題(607) のwcatと同じである。 最後の引数は、保存するローカル・ファイルである。

このプログラムでは、本体部分ではバイナリデータを扱う必要がある。 fdopen_sock() を使う場合、ヘッダについては、fgets() を使っ てデータを送受信してもよい。しかし、ヘッダが終わった後、本体部分では、 fread() を使う必要がある。

本体をファイルに保存する部分は、 前半第3週/ファイルアクセス(応用) のプログラムと似たものになると思われる。 ただし、コピー元は、ネットワークで、コピー先はファイルになる。 fread() を使う場合には、入力したバイト数(読み込んだ要素の数)を調べ、 そのバイト数の分を fwrite() 等でファイルに出力する。

HTTPの応答は、バッファ・サイズよりも大きくなる可能性がある。1回の fread() では受信できないことがある。そのため、すべてのデータを受信する まで、バッファ単位でループする必要がある。

また、fread() で文字列を読み込んだとしても、最後に 0 (NULL) で終端 されないので、注意しなさい。

練習問題(609) NNTPPクライアントの作成

NNTPクライアントを作成しなさい。

まず、telnet で、これらのサーバに接続しなさい。そして、それぞれのプロ トコルに従って、要求を打ち込み、どのような結果が返ってくるかを調べなさ い。

次に、telnet で行った要求の送信と結果の受信を行うようなプログラムを 作りなさい。このとき、必要なパラメタは、main() の引数から取りなさい。 NNTP は、テキスト・ベースのプロトコルなので、全ての通信にfprintf() や fgets() を使ってもよい。

この課題では、fgets() でキーボードからデータを読み込むことはしてはなら ない。main() の引数で得られるパラメタ以外で、サーバに送るべきデータは、 プログラムの内部で fprintf() や snprintf() 等を用いて作成すること。たと えば、"GET " や "HTTP/1.0" などは、fprintf() のフォーマット文字列で指定 する方法がある。キーボードや main() の引数として、本来プログラムで生成 すべき文字列を与えてはならない。

接続先として次のホストを使いなさい。

プログラムをつくる時には、 行末の扱い(CR-LF)にも注意しないさい

練習問題(610) SMTPクライアントの作成

練習問題(609) と同様に、 SMTP のクライアントを作成しなさい。 接続先として次のホストを使いなさい。

練習問題(611) 並列wsave

練習問題(608) で、 wget コマンドと同様に複数の URL を引 数に取り、複数のファイルを並列にコピーするものを作成しなさい。ただし、 並列度としては、最大n(1<n<=3)とし、それ以上の URL が与えられ た時でも、その並列度の範囲内で同時にコピーするようにしなさい。

ヒント:最大nまで、fork() して、それぞれ子プロセスで1個のファイルを コピーする。子供が終了したら、次の子供を fork() する。

実行速度に差があるので、複数のプロセスに均等にURL をばらまく方法では最 速にはならない。

練習問題(612) 中断・再開可能なwsave

練習問題(608) で、 (大きな)ファイルをコピーする時、中 断する機能をつけなさい。中断とは、 HTTP 1.1で定義されている Range: の機能を 使い、一度プログラムを終了しても、次に再開した時に続きを要 求する機能である。

プログラムを終了した後でもう一度実行したときに続きを行う行うことができ るものだけをこの課題を満たしたと認める。プログラムを終了しないものは、 この課題では中断とは認めない。 この課題ではシグナルでプロセスを中断することは行わない。

wget コマンドは、-c オプションを指定すると、中断した続きから再開する。

練習問題(613) Time Protocol のクライアント

RFC868 に定義されている Time Protocol のクライアン ト(TCP) を作成しなさい。そして、date コマンドと類似の結果を表示しなさ い。
$ ./time-client host 37 [←]
Sun May 29 20:54:23 JST 2011
$ []

このプログラムでは、TCP/IP でサーバに接続した後、何も送らずにサーバか ら4バイトの数を読み込む。その4バイトの数は、ネットワーク・バイト・オー ダになっているので、ntohl() で、ホストのバイト・オーダに変換する。この 値に、ある値で補正して、Unix で使われているtime_t に変換する。最後に、 strftime() や localtime() でカレンダーの形式に変換する。

RFC868 Time Protocol では、値は、1900年1月1日 0:00 (GMT) を基準にした 秒数を返す。time() システムコールや gettimeofday() システムコールでは、 1970 年を基準にしている。strftime() や localtime() を使う前に、差分を補正する必要がある。

この課題では、ポート番号 37 の time を使いなさい。ポート番号 13 の daytime を使ってはならない。

接続先のホストとしては、次のどれかを使いなさい。

練習問題(614) サービス名によるポート番号

上の echo-client-fdopen-one.c では、ポート番号を数で 与えている。これを、サービス名によりポート番号が指定できるように書き換 えなさい。

練習問題(615) netstatコマンド

netstat コマンドを使うと、その時利用されている結合(connection)を表示す ることができる。このコマンドを使って、ネットワークの利用状況を表示しな さい。

次のようなオプションがよく使わせる。

-a (all)
全て。接続を待っているサーバのソケットも表示する。
-n (number)
ネットワークのアドレスを番号で表示する。

練習問題(616) lsofコマンド

lsof コマンドは、プロセスが開いているファイルを表示するコマンドであ る。-i オプションを付けると、ファイルではなくネットワーク (Internet) の 利用状況が表示される。lsof -i を利用して、ネットワークの利用状況を表示 しなさい。
Last updated: 2011/06/15 12:15:03
Yasushi Shinjo / <yas@is.tsukuba.ac.jp>