システムプログラム（第9週）: ＷＷＷプログラミング


電子・情報工学系/システム情報工学研究科CS専攻
新城 靖
<yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~syspro/2006/No9.html
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~syspro/2006/
http://www.coins.tsukuba.ac.jp/~yas/

今日の重要な話

WWW サーバ側のプログラム

CGI
- 環境変数 REQUEST_METHOD, QUERY_STRING, CONTENT_LENGTH
- クロスサイトスクリプティング攻撃の仕組みと攻撃への備え
- html_escape() の必要性

クライアント側のプログラム

JavaScript

CGI の GET メソッドを使う例

CGI の POST メソッドを使う例

<FORM>と</FORM>で括られた部分が１つのフォームになる。(１つのページに複数のフォームを置くことができる。)

<INPUT>の部分が、ブラウザからサーバに送られるデータを表わす。

「send」ボタンが押されると、ブラウザは、HTTPの POST メソッドを使って、サーバにデータを送る。

WWW サーバは、それを受け取ると、指定されたプログラムを実行する。実行されたプログラムは、環境変数と標準入力からデータを受け取ることができる。

環境変数

REQUEST_METHOD: データを送るのに使われたメソッド。POST か GET。 GET は、普通のページを得るものと同じ方法で、長いデータは送れない。
QUERY_STRING: URLの指定で「?」以下に指定された文字列。
SCRIPT_NAME: プログラムの名前。

メソッドとして POST が使われた時、標準入力から <FORM></FORM>で指定されたパラメタを受け取ることがでる。

このデータは、「&」で区切られた「フィールド名=値」の並びになっている。

例:

lastname=姓&firstname=名&sex=Male&email=who@u-ust.ac.jp

POSTの場合、環境変数 CONTENT_LENGTH からは、データの長さが得られる。

メソッドとして、GET が使われた時には、環境変数 QUERY_STRING に「&」で区切られた「フィールド名=値」の並びが含まれている。

送られてくるパラメタの中に漢字、 (&自身)、 URLで使えない文字が含まれていた場合、「%hh( hh は2桁の16進数)」という形になっている。

これを元にもどすにはcgiparse というプログラムや perl の命令 hex() が使われる。

cgi-printarg.c

次のプログラムは、CGI で実行された時に、その引数を表示するものである。 GET メソッド、および、POST メソッドの両方に対応している。

   1:	
   2:	/*
   3:	        cgi-printarg.c -- CGI プログラムに対する引数を表示するプログラム
   4:	        ~yas/syspro/www/cgi-printarg.c
   5:	        Start: 2002/06/23 18:21:34
   6:	*/
   7:	
   8:	#include <stdlib.h>     /* getenv(), malloc() */
   9:	#include <stdio.h>      /* printf() */
  10:	#include <string.h>     /* strlen() */
  11:	
  12:	extern void print_header(void);
  13:	extern void print_content(void);
  14:	extern int make_qcqv( int *qcp, char ***qvp, char *qs );
  15:	extern char *get_query_string();
  16:	extern char *read_query_string();
  17:	extern void safe_printenv( char *name );
  18:	extern void safe_print_string( char *str );
  19:	extern char *html_escape( char *str );
  20:	extern char *decode_hex( char *str );
  21:	extern int countchr( char *s, char c );
  22:	
  23:	main()
  24:	{
  25:	        print_header();
  26:	        print_content();
  27:	        exit( 0 );
  28:	}
  29:	
  30:	void print_header()
  31:	{
  32:	        printf("Content-Type: text/html\r\n");
  33:	        printf("\r\n");
  34:	}
  35:	
  36:	void print_content()
  37:	{
  38:	    char  *query_string ;
  39:	    char **qv ;
  40:	    int    qc ;
  41:	    int    i ;
  42:	
  43:	        printf("<HTML><HEAD></HEAD><BODY><PRE>\n");
  44:	
  45:	        safe_printenv("REQUEST_METHOD");
  46:	        safe_printenv("SCRIPT_NAME");
  47:	        safe_printenv("QUERY_STRING");
  48:	        safe_printenv("CONTENT_LENGTH");
  49:	
  50:	        query_string = get_query_string();
  51:	        printf("query_string:\n");
  52:	        safe_print_string( query_string ); printf("\n");
  53:	
  54:	        if( make_qcqv( &qc, &qv, query_string ) < 0 )
  55:	        {
  56:	            printf("Error while parsing query string\n");
  57:	            exit( -1 );
  58:	        }
  59:	        for( i=0 ; i<qc ; i++ )
  60:	        {
  61:	            char *decoded ;
  62:	            printf("qv[%d]: ",i);
  63:	            safe_print_string(qv[i]);
  64:	            decoded = decode_hex( qv[i] );
  65:	            printf("(");
  66:	            safe_print_string( decoded );
  67:	            printf(")\n");
  68:	        }
  69:	
  70:	        printf("</PRE></BODY></HTML>\n");
  71:	        exit( 0 );
  72:	}
  73:

これは、標準(nphではない)の CGI プログラムなので、print_header()では、HTTP のヘッダのうち、Content-Type: 行だけを出力している。

print_content() では、本文を出力している。

safe_printenv() で、環境変数 REQUEST_METHOD, SCRIPT_NAME, QUERY_STRING, CONTENT_LENGTH の内容を標準出力に出力している。

get_query_string() は、クライアントから送られてきたパラメタ(query string)を読込み、文字列として返す関数である。これを、 safe_print_string() で標準出力に出力している。

make_qcqv() は、クライアントから送られてきたパラメタ(query string)を、分解して１つひとつバラバラににするものである。分解した結果は、main() の引数である int argc, char *argv[] と同じ形になっている。qc が、argc, qv が argv に対応する。

for ループでは、qv[] をsafe_print_string() で標準出力に出力している。さらに、decode_hex() で、%hh (%hhは16進数)の形式を、バイトに元に戻すものである。

  74:	int make_qcqv( int *qcp, char ***qvp, char *qs )
  75:	{
  76:	    char **qv ;
  77:	    int    qc_max, i, len ;
  78:	    char *s, *p ;
  79:	
  80:	        if( qs == 0 )
  81:	            return( -1 );
  82:	        qc_max = countchr(qs,'&')+1 ;
  83:	        qv = malloc( sizeof(char *)*(qc_max+1) );
  84:	        if( qv == 0 )
  85:	            return( -1 );
  86:	
  87:	        for( i=0 ; i<qc_max ; i++ )
  88:	        {
  89:	            while( *qs == '&' )
  90:	                qs ++ ;
  91:	            if( *qs == 0 )
  92:	                break;
  93:	            for( p = qs ; *p!='&' && *p!=0 ; p++ )
  94:	                continue;
  95:	            /* *p == '&' || *p=='0' */
  96:	            len =  p - qs ;
  97:	            s = malloc( len+1 );
  98:	            if( s == 0 )
  99:	            {
 100:	                int j ;
 101:	                for( j=0 ; j<i; j++ )
 102:	                {
 103:	                    free( qv[j] );
 104:	                    qv[j] = 0 ;
 105:	                }
 106:	                return( -1 );
 107:	            }
 108:	            memcpy( s, qs, len );
 109:	            s[len] = 0 ;
 110:	            qv[i] = s ;
 111:	            qs = p ;
 112:	        }
 113:	        qv[i] = 0 ;
 114:	        *qcp = i ;
 115:	        *qvp = qv ;
 116:	        return( i );
 117:	}
 118:

make_qcqv() は、「＆」で区切られて送られてきたパラメタをバラバラに分解し、main の引数である int argc, char *argv[] と同じ形にするものである。まず、「＆」の数を先に数えて、argv に相当するメモリを確保する。１つ多く確保しているのは、最後に０を置くためである。ただし、「＆＆＆」のように空のものは取り除いている。

for() 文で１つの「＆」の左、または、終端の０の左のまでを切り出している。 qs が先頭、p が「＆」、または、終端の０を差すようにする。malloc() で長さ分（終端の０を含む）のメモリを確保してmemcpy() でコピーしている。 s[len] で終端の０を付け、qv[i] に保存している。qs を q にして、次のループに進む。

 119:	char *get_query_string()
 120:	{
 121:	    char *request_method, *query_string;
 122:	        request_method = getenv("REQUEST_METHOD");
 123:	        if( request_method == 0 )
 124:	            return( 0 );
 125:	        else if( strcmp(request_method,"GET") == 0 )
 126:	        {
 127:	            query_string = getenv("QUERY_STRING");
 128:	            if( query_string == 0 )
 129:	                return( 0 );
 130:	            else
 131:	                return( strdup(query_string) );
 132:	        }
 133:	        else if( strcmp(request_method,"POST") == 0 )
 134:	        {
 135:	            return( read_query_string() );
 136:	        }
 137:	        else
 138:	        {
 139:	            printf("Unknown method: ");
 140:	            safe_print_string( request_method );
 141:	            printf("\n");
 142:	        }
 143:	}
 144:	
 145:	char *read_query_string()
 146:	{
 147:	    int   clen ;
 148:	    char *content_length ;
 149:	    char *buf ;
 150:	
 151:	        content_length = getenv("CONTENT_LENGTH");
 152:	        if( content_length == 0 )
 153:	        {
 154:	            return( 0 );
 155:	        }
 156:	        else
 157:	        {
 158:	            clen = strtol( content_length,0,10 );
 159:	            buf = malloc( clen + 1 );
 160:	            if( buf == 0 )
 161:	            {
 162:	                printf("read_query_string(): no memory\n");
 163:	                exit( -1 );
 164:	            }
 165:	            if( read(0,buf,clen) != clen )
 166:	            {
 167:	                printf("read error.\n");
 168:	                exit( -1 );
 169:	            }
 170:	            buf[clen] = 0 ;
 171:	            return( buf );
 172:	        }
 173:	}
 174:

get_query_string() は、クライアントから送られてきたパラメタを、１つの文字列として受け取るものである。GET メソッドの場合()は、単に環境変数 REQUEST_METHOD を読めばよい。ただし、文字列の長さの上限がきつい。

strdup() は、文字列をコピーするものである。使い終わったら、free() で解放する。

POST メソッドの場合は、read_query_string() で続きの処理を行う。

 175:	void safe_printenv( char *name )
 176:	{
 177:	    char *val ;
 178:	    char *safe_val ;
 179:	
 180:	        printf("%s=",name );
 181:	        val = getenv( name );
 182:	        safe_print_string( val );
 183:	        printf("\n");
 184:	}
 185:	
 186:	
 187:	void safe_print_string( char *str )
 188:	{
 189:	    char *safe_str ;
 190:	
 191:	        if( str == 0 )
 192:	        {
 193:	            printf("(null)");
 194:	            return;
 195:	        }
 196:	        safe_str = html_escape( str );
 197:	        if( safe_str == 0 )
 198:	        {
 199:	            printf("(no memory)");
 200:	        }
 201:	        else
 202:	        {
 203:	            printf("%s",safe_str );
 204:	            free( safe_str );
 205:	        }
 206:	}
 207:	
 208:	char *html_escape( char *str )
 209:	{
 210:	    int len ;
 211:	    char c, *tmp, *p, *res ;
 212:	
 213:	        len = strlen( str );
 214:	        tmp = malloc( len * 6 + 1 );
 215:	        if( tmp == 0 )
 216:	            return( 0 );
 217:	        p = tmp ;
 218:	        while( c = *str++ )
 219:	        {
 220:	            switch( c )
 221:	            {
 222:	            case '&': memcpy(p,"&amp;", 5); p += 5 ; break;
 223:	            case '<': memcpy(p,"&lt;",  4); p += 4 ; break;
 224:	            case '>': memcpy(p,"&gt;",  4); p += 4 ; break;
 225:	            case '"': memcpy(p,"&quot;",6); p += 6 ; break;
 226:	            default:  *p = c ;              p++ ;    break;
 227:	            }
 228:	        }
 229:	        *p = 0 ;
 230:	        res = strdup( tmp );
 231:	        free( tmp );
 232:	        return( res );
 233:	}
 234:

safe_printenv() は、環境変数をgetenv() で検索し、その値を safe_print_string() で標準出力に出力している。

safe_print_string() は、次の html_escape() を使って文字列を安全なものにして表示する。

html_escape() は、次の文字について、置き換えている。たとえば、「<」は、「<」と変換している。これで、 <SCRIPT> のような危険なスクリプトが送り込まれたとしても「<SCRIPT>」と表示と表示されるだけで、スクリプトは実行されない。

len * 6 は、最大で元の文字列の６倍の長さになることに備えている。

 235:	char *decode_hex( char *str )
 236:	{
 237:	    int len ;
 238:	    char c, *tmp, *p, *res ;
 239:	
 240:	        len = strlen( str );
 241:	        tmp = malloc( len + 1 );
 242:	        if( tmp == 0 )
 243:	            return( 0 );
 244:	        p = tmp ;
 245:	
 246:	        while( *str )
 247:	        {
 248:	            if( *str == '%' && isxdigit(*(str+1)) && isxdigit(*(str+2)) )
 249:	            {
 250:	                char hexstr[3] ;
 251:	                hexstr[0] = *(str+1);
 252:	                hexstr[1] = *(str+2);
 253:	                hexstr[2] = 0 ;
 254:	                c = strtol( hexstr, 0, 16 );
 255:	                *p ++ = c ;
 256:	                str += 3 ;
 257:	            }
 258:	            else
 259:	            {
 260:	                *p ++ = *str ;
 261:	                str ++ ;
 262:	            }
 263:	        }
 264:	        *p = 0 ;
 265:	        res = strdup( tmp );
 266:	        free( tmp );
 267:	        return( res );
 268:	}
 269:	
 270:	int countchr( char *s, char c )
 271:	{
 272:	    int count ;
 273:	        for( count=0 ; *s ; s++ )
 274:	            if( *s == c )
 275:	                count ++ ;
 276:	        return( count );
 277:	}

decode_hex() は、「%hh(2桁の16進数)」を元のバイトに戻すものである。isxdigit() は、１６進数の文字として正しいかを調べている。strtol() で基底を 16 として変換している。

countchr() は、文字列の中でその文字がいくつ出てくるかを数えるものである。

実行例： http://www.coins.tsukuba.ac.jp/~syspro/2006/No9_files/cgi-printarg.html

REQUEST_METHOD=GET
SCRIPT_NAME=/~syspro/2006/No9_files/cgi-printarg.cgi
QUERY_STRING=lastname=arg1&firstname=arg2&sex=Male&email=arg3
CONTENT_LENGTH=(null)
query_string:
lastname=arg1&firstname=arg2&sex=Male&email=arg3
qv[0]: lastname=arg1(lastname=arg1)
qv[1]: firstname=arg2(firstname=arg2)
qv[2]: sex=Male(sex=Male)
qv[3]: email=arg3(email=arg3)

REQUEST_METHOD=POST
SCRIPT_NAME=/~syspro/2006/No9_files/cgi-printarg.cgi
QUERY_STRING=
CONTENT_LENGTH=48
query_string:
lastname=arg1&firstname=arg2&sex=Male&email=arg3
qv[0]: lastname=arg1(lastname=arg1)
qv[1]: firstname=arg2(firstname=arg2)
qv[2]: sex=Male(sex=Male)
qv[3]: email=arg3(email=arg3)

アクセスログとエラーログ

WWW サーバは、ページがアクセスされる度に記録を残す。この記録をアクセスログという。アクセスログは、情報学類のサーバ www (orchid-nwd) では、次の場所にある。

/var/log/httpd/www.coins80/access_log.*
/var/log/httpd/www.coins443/access_log.*

この中で、数字が一番大きなもの、または、日付が新しいものが、現在増加しているログである。

% cd /var/log/httpd/www.coins80 
% ls    access_log.* | tail -1 
% ls -t access_log.* | head -1 
%

以下は、アクセスログの例である。

130.158.83.140 - - [11/Jun/2006:21:47:44 +0900] 
"GET /~syspro/2006/shui/common_files/Ctrl-Z.png HTTP/1.1" 200 189

130.158.83.140 - - [11/Jun/2006:21:53:52 +0900] 
"GET /~yas/coins/syspro-2006/No9.html HTTP/1.1" 200 57076

１行が１つのページの転送を意味する。左端は、クライアントの IP アドレスである。どのような要求が来たか、クライアントのIPアドレスがわかる。

アクセスログの他に、エラーが起きた時にもログが作られる。これをエラーログという。エラーログは、情報学類のサーバ www (orchid-nwd) では、次の場所にある。

/var/log/httpd/www.coins80/error_log.*
/var/log/httpd/www.coins443/error_log.*

CGI のプログラムをデバッグする時には、このエラーログを見て原因を探る。

その他に、次のようなファイルがある。

agent_log: WWW ブラウザの種類
referer_log: どの WWW ページから参照されているか
suexec_log: suExec を使っていた時のログ

自分が単にＷＷＷブラウザを使っているだけでも、さまざまな情報をサーバに送っているとに注意しなさい。

シェルからのCGIプログラムの実行

CGI のプログラムをシェルから実行してデバッグすることもできる。

GET の場合、環境変数 REQUEST_METHOD に GETと設定し、環境変数 QUERY_STRING にパラメタを設定する。

% setenv REQUEST_METHOD GET 
% setenv QUERY_STRING 'lastname=name1&firstname=name2&sex=Male&email=who@dom' 
% ./cgi-printarg.cgi 
Content-Type: text/html

<HTML><HEAD></HEAD><BODY><PRE>
REQUEST_METHOD=GET
SCRIPT_NAME=(null)
QUERY_STRING=lastname=name1&firstname=name2&sex=Male&email=who@dom
CONTENT_LENGTH=(null)
query_string:
lastname=name1&firstname=name2&sex=Male&email=who@dom
qv[0]: lastname=name1(lastname=name1)
qv[1]: firstname=name2(firstname=name2)
qv[2]: sex=Male(sex=Male)
qv[3]: email=who@dom(email=who@dom)
</PRE></BODY></HTML>
%

POST の場合、まず、データをファイルに保存しておく。そのバイト数を wc コマンドなどで調べておく。環境変数 REQUEST_METHOD に POST と設定する。環境変数 CONTENT_LENGTH にデータファイルの大きさを設定する(ここでは最後の改行を取り除いたバイト数を指定している)。

% echo 'lastname=name1&firstname=name2&sex=Male&email=who@dom' > data 
% wc data 
      1       1      54 data
% setenv REQUEST_METHOD POST 
% unsetenv QUERY_STRING 
% setenv CONTENT_LENGTH 53 
% ./cgi-printarg.cgi < data 
Content-Type: text/html

<HTML><HEAD></HEAD><BODY><PRE>
REQUEST_METHOD=POST
SCRIPT_NAME=(null)
QUERY_STRING=(null)
CONTENT_LENGTH=53
query_string:
lastname=name1&firstname=name2&sex=Male&email=who@dom
qv[0]: lastname=name1(lastname=name1)
qv[1]: firstname=name2(firstname=name2)
qv[2]: sex=Male(sex=Male)
qv[3]: email=who@dom(email=who@dom)
</PRE></BODY></HTML>
%

シェルからプロセスを生成しプログラムを実行する時には、その新しいプロセスの権限（ユーザ属性、getuid() の結果）は、シェルのものからコピーされる。すなわち、新しいプロセスはシェルと同じユーザの権限で動作する。CGI の場合、遠隔の WWW ブラウザのユーザは、その WWW サーバにログインする権限はないが、CGI のプログラムを実行することができる。そのプログラムを、どのユーザの権限で実行する方法としては、大きく次の２つ方法がある。

WWW サーバ・プロセスの権限で動作させる。
CGI プログラムを作成したユーザの権限で動作させる(suEXEC)。

どちらの方式にも一長一短がある。 WWW サーバ・プロセスの権限で動作させた場合、

長所：万一、CGI プログラムにバグがあった場合でも、電子メールなど個人のファイルが保護される。
短所：ファイルを、WWW サーバのプロセスからアクセスできる状態にしなければならない。通常の運用では、誰からでもアクセスできる状態にする必要がある(モードを 666 rw-rw-rw-や 777 rwxrwxrwx にする)。このため、そのコンピュータにログインでき人ならば、そのファイルの名前を知っていれば、データを取り出したり内容を破壊したりできる。

suEXEC を使う方法の場合、長所と短所は逆になる。

スクリプト言語の利用

CGI のプログラムを作成する場合、トップレベル(クライアントにデータを送る部分)は、Ｃ言語で記述するよりも、スクリプト言語で記述することが多い。スクリプト言語は、インタプリタで動作するので、プログラミングが容易である。

普通のプログラミング言語は、アプリケーション・プログラム本体を記述する時に使われる。これに対して、スクリプト言語は、アプリケーション本体ではなく、アプリケーションの細かな動作を変更したり、アプリケーション本体を変更することなく機能を追加したりするために使われる言語である。普通のプログラミング言語は、アプリケーション・プログラマにより使われ、コンパイラで機械語に変換されるので、実行時には機械語しか残っていない。これに対して、スクリプト言語は、アプリケーションのユーザや、システム管理者などによって使われ、プログラムは、アプリケーションに組み込まれたインタプリタで解釈実行される。スクリプト言語を使うと、単に変数を設定することに比べて、高度な機能拡張が機能になる。

スクリプト言語の例:

sh, bash, csh, tcsh
Perl, Ruby, Python
Emacs Lisp
PHP

スクリプト言語 csh で記述した CGI のプログラムの例:

% cat cgi-hello-csh.cgi 
#!/bin/csh -f

cat <<EOF
Content-Type: text/html

<HTML><HEAD></HEAD><BODY>
hello.
</BODY></HTML>
EOF
% ./cgi-hello-csh.cgi 
Content-Type: text/html

<HTML><HEAD></HEAD><BODY>
hello.
</BODY></HTML>
%

SSI (Server Side Include)

Javaアプレット

JavaScript

JavaScript は、WWW ブラウザ上で動作するスクリプト言語である。

JavaScript は、文法が少し Java 言語に似ているが、Java とはまったく別の言語である。WWW ページの中の Javaアプレットは、「実行可能なインライン・イメージ」に似ている。これに対して JavaScript の記述は、「実行可能なインライン・テキスト」に似ている。

JavaScrip のプログラムの例:

<SCRIPT LANGUAGE="JavaScript">
<!--
for( i=0 ; i<10; i++ )
  document.writeln("<P>hello,world</P>");
//-->
</SCRIPT>

これは、<P>hello,world</P> を 10 回書いたのと同じ効果がある。<!--と //->は、JavaScriptを知らないブラウザにはコメントとして扱われる。関数定義などは、ヘッダ部分 <HEAD></HEAD>に書くという方法もよく使われる。

JavaScript の言語としての特徴

制御構造には、for、while 、 if, else, continue, break がある。ただし、switch は使えない。
キーワード function で、関数定義ができる。
変数には型はない。var で宣言すれば、ローカル変数になる。配列は、new Array(長さ) で確保する。
関数呼び出しは、Java と同じく、値呼び(call-by-value)である。オブジェクトは、参照のコピーが渡される。
数の計算や文字列の操作ができる。
class というキーワードはない。 function に new を付けて呼べば、オブジェクトになる。オブジェクトのメソッドでは、this を使って要素を参照できる。

JavaScript によるブラウザの制御

JavaScript の記述は、CGI と似ているところもあるが、JavaScript でないとできないものに、ブラウザの制御がある。たとえば、次の例では、ブラウザの (戻る)ボタンと同じ動きをさせることができる。

<A HREF="javascript:history.back();">戻る</A>

次の例は、<FORM></FORM>からパラメタを受け取るものである。


<SCRIPT LANGUAGE="JavaScript">
function go(s,h,p)
{
	location.href = s.value + "://" + h.value + p.value ;
}
</SCRIPT>

<FORM NAME="form1">
<INPUT NAME="scheme" TYPE="text" VALUE="http"><BR>
<INPUT NAME="host"   TYPE="text"><BR>
<INPUT NAME="path"   TYPE="text" VALUE="/"><BR>
<INPUT TYPE="button" VALUE="go" onClick="go(form1.scheme,form1.host,form1.path)">
</FORM>

onClick 属性の値は、クリックした時に評価される式であり、関数 go() が呼び出されている。引数は、<FORM> の値である。関数 go() の中では、 .value フィールドから値が読み出されている。 location.href に代入することでそのページを表示させることができる。

この例では、<INPUT type="text">と <INPUT type="button">が使われている。その他に、 <FORM>では、<INPUT TYPE="radio">、<INPUT TYPE="checkbox">、 <SELECT>が使える。イベントとしては、 onClick が主に使われる。その他に、 onFocus が使われることもある。

JavaScript では、document.open() で新しく HTML のドキュメントを生成して、それをブラウザに表示させることもできる。

クロスサイトスクリプティング攻撃

WWWブラウザでは、信頼しているサイトから送られてくるJavaScriptのプログラムだけを実行するようにし、攻撃サイトから送られてくるJavaScriptのプログラムを実行しないようにしたい。

図? JavaScripの送信元サイトの区別

脆弱性があるサイトでは、攻撃サイトから送られてきた JavaScript のプログラムを中継してしまう。

図? JavaScripの送信元サイトの区別

これがクロスサイトスクリプティング攻撃(cross-site scripting atack, XSS atack)である。

CGI のプログラムをつくる時には、クロスサイトスクリプティング攻撃に気をつける。これは、クライアントから送られてる文字列の中に <SCRIPT>のようなタグが含まれていた場合、それをそのままクライアントに送り返すと問題がある。 (さらに、 %hh にも気をつける必要がある。)

クライアントから送られてきた文字列は、必ず検査し、安全な状態にして (sanitize)から使う。「<>&"」のようなタグが含まれている場合には注意する。このような文字列を受け取った場合、不用意に送り返してはいけない。送り返す時には、html_escape() のような方法で必ずエスケープする。

他のプログラムの実行

CGI では、意図していないプログラムを実行しないようにする。

他のプログラムの実行(C言語)

他のプログラムを実行する時には、execve() のようなシステムコールを使い、かつ、限られたプログラムしか実行しないようにすると安全性が高くなる。クライアントから送られてきた文字列をsystem() や popen() に渡してプログラムを実行する時には、必ず検査する。特にシェルが解釈する特殊な文字「| & ; && || `」などが含まれていた場合、意図しないプログラムが実行されることがある。

char *user ;
...
snprintf(cmd,BUFSIZE,"finger %s",user );
f = poepn(cmd,"r");

もし、user に ";" や "|" が含まれていたら、、、　

f = poepn("finger yas; /bin/sh","r");

他のプログラムの実行(Perl言語)

Perl には、バッファ・オーバーフローの問題はない。

perl の open() には、危険性がある。 C 言語のライブラリ関数 popen() と同じ動きをすることがある。

open(FILE, "|cmd")

Perl の危険な関数、式、

open
system, exec, ``(バック・クォート)
glob, <>
eval

参考

産業技術総合研究所グリッド研究センターセキュアプログラミングチーム
http://securit.gtrc.aist.go.jp/ )

IPA セキュア・プログラミング講座
http://www.ipa.go.jp/security/awareness/vendor/programming/ )

CGIでのその他の注意事項

ファイルのロック

アクセスカウンタなどデータ・ファイルを書き換えるような CGI プログラムの場合、複数のプログラムが同時に実行された時のことを考慮する必要がある。必要に応じて、ファイルのロックを行うなどして、一度に１つのプロセスしかプログラムを実行しないようにする。このことを、相互排除という。

相互排除について詳しくは、後半のマルチスレッド・プログラミングや２学期のオペレーティング・システムで扱う。特に、扱うべき資源が複数になった場合には、デッドロックに気をつける。

Unix では、ファイルに対するロックを扱うために、次のような機能を提供している。

flock() システムコール: ファイル単位のロック
fcntl() システムコールと F_GETLK, F_SETLK, F_SETLKW: レコード単位のロック
lockf() ライブラリ関数: レコード単位のロック

CGI のプログラムでなくても、ロックをしなければならないことがある。

セッション管理

CGI は、基本的には１回の操作で完結する。買い物かごを作るには、複数の CGI のプログラムの間で一連の操作を１つの連続したもの（セッション）として扱う必要がある。

セッション管理には、次のような方法がある。

URL にセッションのＩＤを埋め込む
HTML の見えない部分にセッションのＩＤを埋め込む
クッキーを使う

セッション管理にクッキーを使う方法は、正しく使えば比較的安全である。しかし、クッキーはセッションを越えて有効なもの、異なるサイトに送られるものも定義できる。また、クッキーにパスワードを埋め込むという幼稚で危険な実装も時々見受けられる。

セッションは、認証とは別である。同じ人が複数のセッションを実行することもある。

クッキー

cookieは、コンピュータ・サイエンスの専門用語。

協調して動作しているプログラムの間で、ある一連の作業を識別するための数を意味する。

RPC、HTTP(WWW)で使われる。

RPCでのクッキー

３学期の「分散システム」で扱う。

WWWでのcookie

練習問題と課題

練習問題(68) WWW サーバ上のデータの観察

htttp://www.coins.tsukuba.ac.jp/ のページは、サーバ (www) 上の /var/www/htdocs/ 以下にある。

WWW ブラウザや telnet を使って得た結果と /var/www/htdocs/ 以下のファイルが同一であることをwww に ssh でログインして確認しなさい。

同様に https でアクセスできるページについても調べなさい。トップのディレクトリは、/var/www/secure_htdocs/ 以下にある。

練習問題(69) アクセスログの観察

アクセスログは、サーバ(www,www2)上の /var/log/httpd/access_log というファイルにためられる。これを、次のようにして観察しなさい。

ssh で www (または、orchid-nwd) にログインする。

次のように ls コマンドで、ログファイルを調べる。

% cd /var/log/httpd/www.coins80 
% ls    access_log.* 
% ls    access_log.* | tail -1 
access_log.200606081328
% ls -t access_log.* | head -1 
access_log.200606081328
%

この例では、access_log.200606081328 が最新のものである。

次のように tail コマンドを実行する。tail コマンドは、 -f オプションを付けて実行すると終了しないので、最後に ^C キーで終了させる。
```
% tail -f access_log.200606081328 
```
WWW ブラウザ(Firefox など)を実行して、 http://www.coins.tsukuba.ac.jp/や自分の WWW ページを開く。
「再読込み」を行う。
データが流れていく時には、適当な所で ^C で tail コマンドを終了させる。
自分が使っているコンピュータのホスト名が表示されるかを見る。端末のスクロール機能を使う。

同様に、/var/log/httpd/error_log についても調べなさい。

練習問題(70) 引数の表示

次の CGI プログラムに対して、フォームを定義し、何かデータを送ってみなさい。

http://www.coins.tsukuba.ac.jp/~syspro/2006/No9_files/cgi-printarg.cgi

練習問題(71) CGIによる足算

２つのデータを受け取り、その結果を加えた数を表示するようなCGI のプログラムを作成しなさい。

ヒント：

"arg1=10&arg2=20"のように送るようなフォームを想定してプログラムを作成する。
cgi-printarg.cで、余計な表示をなくす。

make_qcqv() で分解した後、"arg1=" や "arg2=" があるパラメタを検索する。これには、まず次のような関数 getparam() を定義するとよい。

char *getparam( int qc, char **qv, char *name )
{
	qv[i] の中で "変数名=値" となっているものを探す。
	見つければ "値" の部分を返す。
	見つからなければ、NULL を返す。
}

得られた文字列を、strtol() 等で整数に変換し、足算を行う。結果を printf() の %d などで表示する。
作成したプログラムを、シェルから実行して動作を確認する。
"arg1=10&arg2=20"のように送るようなフォームを作成する。フォームのデバッグには、cgi-printarg.cgiをそのまま使ってきちんと表示されるかどうかを調べるとよい。

余裕があれば、メニューやラジオボタンなどで足算以外の計算もできるようにしなさい。

練習問題(72) カレンダの表示

fork() と execve() を使って、/usr/bin/cal を実行し、WWW ブラウザに今月のカレンダを実行するプログラムを作りなさい。cal コマンドは、引数を付けずに実行すると、今月のカレンダーを表示する。

% cal 
     June 2006
 S  M Tu  W Th  F  S
             1  2  3
 4  5  6  7  8  9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30

%

CGI プログラムを実行した月のカレンダーを表示しなさい。固定した表示するだけなら、CGI の意味はない。余計な表示は省略すること。

余裕があれば、今月のカレンダーではなく、任意の年・月のカレンダーを表示しなさい。

この課題では、system() や popen() を用いてはならない。この課題に限らず、もし、遠隔から任意のコマンドを実行可能なような CGI プログラムを作成した時には、単位を出さない。

Last updated: 2006/06/12 11:58:29

Yasushi Shinjo / <yas@is.tsukuba.ac.jp>