ハードウェア、メモリ、数、文字の表現

					2007年04月20日
情報科学類 コンピュータリテラシ

                                       筑波大学 システム情報工学研究科 
                                       コンピュータサイエンス専攻, 電子・情報工学系
                                       新城 靖
                                       <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~yas/coins/literacy-2007/2007-04-20
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~yas/
http://www.cs.tsukuba.ac.jp/~yas/

■連絡事項

履修申請時の科目番号を間違えないように注意する。

次回4月25日火曜日は、3A309 に集合。

手引き(教育用計算機システム使用の手引き)を持って来る。

The Unix Super Text 2.1節, 2.2節, 3.1節, 3.2節, 5.2節を読んで来る。

手引きの 2.1節, 2.2節, 3.1節, 3.2節, 5.2節を読んで来る。

■復習

キーボード。速い。配列覚えるには、見ないで打つ。
文字端末。シェル。Unix の基本は文字による対話。
パスワード。必ず安全なものを付ける。調べれば分かるものをつけない。一人だけの問題ではない。
ログインの意義。必ずログアウトすること。
World Wide Web とハイパーテキスト。
URL は、本当は難しい。

■情報処理の３つの形態

コンピュータは、情報を扱うための機械。情報や情報処理の定義は、けっこう難しい。

新城の定義。情報とは、コピーしても同じものと思えるもの。物は、コピーすると別のものになる。お金は、情報だがコピーしてはいけない。

新城の定義（その２）。情報とは、情報処理の対象となるもの。情報処理とは、次の３つ。

計算(computation): 数の加減乗除、文字列の比較・置き換え、選択など。プログラミング言語でできることは、主にこれ。メモリ中のものしか計算の対象にならない。 CPUは、メモリ中のデータしか書き換えられない。
通信(communication): データをあるコンピュータ（プロセス）のメモリから別のコンピュータ（プロセス）のメモリにコピーすること。
記憶(storage): 「整理」して、永続的な記憶にコピーする。

実際には、いろいろな要素が混じって、厳密には分類不可能。

記憶媒体を移動させる／共有すると通信になる。
通信内容を保存することもできる。

ディジタル・コンピュータによる情報処理

情報を「ビット列（ビットの並び）」に変える(符合化)。
ビット列を、プログラムに従って処理（計算、通信、記憶）する。
プログラムもまたビット列として与える。

人間による情報処理

内部でどうやっているかは、よくわからない。

外から見える人間の情報処理

計算(computation)
- 数の計算。１＋２＝３。
- フィルタリング。必要な情報を選び出す。
  - 編集
  - 講義を休む。
通信(communication)
- 電話する。
- 黒板に字を書く。
- マスメディアを使う。テレビ、新聞、放送。
- 直接会って会話する。ボディ・ランゲージ。non-verbal (非言語的)
記憶(storage)
- 紙に字を書く。
- 覚える。
- ＨＤＤレコーダでテレビ番組を録画する。

人間の対話では、実は、non-verbal 的な情報(文字にならない情報)のやり取りが多い。非言語的な情報は、コンピュータで扱うことは苦手。

講義内容も、印刷された資料/Webの資料の情報量よりも非言語的な情報が多い。

ハードウェア	時間
レジスタ	1クロック
L1キャッシュ	数クロック
L2キャッシュ	10クロック
メインメモリ	数十クロック
ハードディスク	数百万クロック

■情報量

◆情報量の感覚

慣れないうちは空間や距離の感覚に置き換えるとよい。

1 ビット: 白と黒の区別
1 バイト (8ビット): ヨーロッパ系文字 1 文字。256色。
2 バイト (16ビット): 日本語の漢字 1 文字。60000色。
3 バイト (24ビット): 1677万色(2の24乗)。コンピュータのモニタの画素の色数。
4 バイト (32 ビット): 現在広く使われているコンピュータが一度に計算できる情報量。整数なら40臆程度まで。
256 ビット (32バイト): 16ドット×16ドットの白黒の画像（ビットマップ）で漢字 1 文字を表現した時の情報量。
数 k バイト: 典型的な電子メール１通の大きさ。数千文字。
8k バイト (8000 バイト、64 k ビット, 64,000 ビット): １秒間に電話の品質で音声を記録した時の情報量。
1 M バイト (1,000,000 バイト, 8,000,000 ビット): フロッピディスク１枚に保存できる情報量。
256M バイト～8GB バイト: 典型的なパソコンで、一度にメインメモリに入る量(構成によって違う)
640M バイト (640,000,000 バイト): CD 1 枚に保存できる情報量。
4.7G バイト (5,000,000,000 バイト): DVD 1 枚(片面1層)に保存できる情報量。
16M-8G バイト: USBフラッシュメモリ, SDカード 1 個に保存できる情報量。
15G-30G バイト/25-50G バイト: HD DVD /Blu-ray Disc 1 枚に保存できる情報量。
50 G バイト～500G バイト: ハードディスクの容量(構成によって違う)

■数の符号化

The Unix Super Text 下巻56章参照。

◆数の意味と表現

数の意味（数値、数）: 「２」、「二」、「II」と書いても同じ
数の表現: 「２」、「二」、「II」は意味は同じでも表現は違う

◆非負整数

０、１、２、・・・の表現を考える。有限の文字（数字,digit）の組み合わせが便利。＜－＞（one,two,...,ten,eleven,twelve,thirteen,...）と対比して。

ｎ進法: ｎ個の数字で数値を表現する方法
ｎ進数: ｎ進法で表現された数字
基底(base): ｎ進法のｎ。基底自身は１０進法で表現するのが普通。

◆ｎ進数

" P _m-1 P _m-2 ... P ₂ P ₁ P ₀" は P _m-1 × n ^m-1 ＋ P _m-2 × n ^m-2 ＋ ... ＋ P ₂ × n ² ＋ P ₁ × n ¹ ＋ P ₀ × n ⁰ の意味。

◆１０進数

"123" は、 1 × 10 ² ＋ 2 × 10 ¹ ＋ 3 × 10 ⁰ の意味。

◆２進数

"101" は、 1 × 2 ² ＋ 0 × 2 ¹ ＋ 1 × 2 ⁰ の意味。

◆８進数、１６進数

n=8, n=16の意味。2進数で3桁、4桁をまとめて表す。 16進数では、10進数の10～16を表すのに、A～Fを使う。

16進数を表すのに、頭に 0x を付けることがある。C 言語の表記方法。 8進数を表すのに、頭に 0 を付けることがある。C 言語の表記方法。

筆算で16進数の計算ができる必要はないが、転記する必要がでてくることがある。

漢字コード。漢字の打ち込み。漢和辞典との対応。
World Wide Web での色の指定。

and, or, not の計算は、必要になることがある。

◆２進数、８進数、１６進数、１０進数

----------------------------------------
            2進数   8進数  10進数 16進数
----------------------------------------
                0       0       0      0 
                1       1       1      1 
               10       2       2      2 
               11       3       3      3 
              100       4       4      4 
              101       5       5      5 
              110       6       6      6 
              111       7       7      7 
             1000      10       8      8 
             1001      11       9      9 
             1010      12      10      A 
             1011      13      11      B 
             1100      14      12      C 
             1101      15      13      D 
             1110      16      14      E 
             1111      17      15      F 
            10000      20      16     10 
           100000      40      32     20 
          1000000     100      64     40 
         10000000     200     128     80 
        100000000     400     256    100 
       1000000000    1000     512    200 
      10000000000    2000    1024    400 
     100000000000    4000    2048    800 
    1000000000000   10000    4096   1000 
   10000000000000   20000    8192   2000 
  100000000000000   40000   16384   4000 
 1000000000000000  100000   32768   8000 
10000000000000000  200000   65536  10000 
----------------------------------------

◆１０進数を２進数で表現する

方法1

2で割る。
余りを１番右の桁に書く。
商を２進数で表現して左につなげる。

方法2

上の表を見て、10進数の桁で大きなものから引けるものを引く。
1. で引けた2進数を全部加える。

◆１０進数を１６進数で表現する

方法1

16で割る。
余りを16進数で１番右の桁に書く。
商を１６進数で表現して左につなげる。

方法2

2進数で表現する。
2進数の表現を16進数に変換する。

◆整数

ビット数によって、扱える範囲が違う。

1ビット (0-1)
2ビット (0-3)
3ビット (0-7)
4ビット (0-15)
8ビット (0-255)
16ビット (0-65535)
32ビット (0-4294967295)
64ビット (0-18446744073709551615)

正の数だけでなくて負の数も扱う時には、正か負かを表すために１ビット使う。

8ビット (-128-127)
16ビット (-32768-32767)
32ビット (-2147483648-2147483647)
64ビット (-9223372036854775808-9223372036854775807)

普通は、２の補数という方式を使うので、負の部分が１つ大きい。

２の補数は、算盤で負の数を扱う時と同じ方法。－ｎを、ｎを加えると、０（桁溢れ）になるよう。

The Unix Super Text 56.1.2節参照。

表記する時には、小数点を使う。 " P _m-1 P _m-2 ... P ₂ P ₁ P ₀ . P _-1 P _-2 ... P _-i" は P _m-1 × n ^m-1 ＋ P _m-2 × n ^m-2 ＋ ... ＋ P ₂ × n ² ＋ P ₁ × n ¹ ＋ P ₀ × n ⁰ ＋ P _-1 × n ^-1 ＋ P _-1 × n ^-2 ＋ ... ＋ P _-1 × n ^-i ＋の意味。

整数は、任意の進法で正確に表現できるが、小数は表現できないことがる。コンピュータの内部で、小数を２進法で扱う方法が主流だが、会計分野等で１０進法で扱う場合もある。

◆小数の符号化

固定小数点(fixed point)。
浮動小数点(floating point)。

固定小数点は、ドルを考えるとわかる。整数 100 を、1 と思う。

◆浮動小数(floating point)

小数を次のように考え、指数部 e と小数部(仮数部) f の整数の組で表現する。　

f × b ^e

b は、2 が使われることが多い。(10 が使われることも、16 が使われることもある。)

浮動小数点に関して、標準規格(IEEE 754)がある。b=2。単精度(float)は、全体で 32 ビット(符号(正負)1ビット、f　に 23ビット、e に 8 ビット)。倍精度(double)は、全体で 64 ビット(符号(正負)1ビット、f　に 52ビット、e に 11 ビット)。

◆その他

分数(有理数)

複素数あまり使われない。

◆誤差とオーバーフロー

数の計算でも、コンピュータは、間違えることがある。

整数や固定小数点では、表せる範囲に注意する。たとえば、32ビットだと、40億ちょっとまでしか表せないので、国家予算の計算には使えない。
浮動小数では、計算の誤差に注意する。表せる範囲内(指数部で決まる) であったとしても、計算の途中に誤差が生じる(小数部の桁が溢れる)。特に、加減算で精度が落ちる。

その前に、そもそもプログラム（コンピュータを制御するための手順）は人間が作ったものである。

◆基数の変換

bcコマンドで obase, ibase を設定する。The Unix Super Text 56.1.7節参照。
スクリプト言語の printf() を使う。
```
% ruby -e 'printf("%x\n",100)' 
64
% 
```

デバッガの表示機能を使う。

% gdb 
(gdb) p/x 100
$1 = 0x64
(gdb) quit
%

■文字の符号化

The Unix Super Text 下巻56章参照。

文字セット

利用する文字を明確に限定したも。

コンピュータとは関係ない文字セット

常用漢字
ひらがなだけ
カタカナだけ

文字の符号化

文字の符号化(encoding)とは、文字とビット列（または整数）を対応させることである。対応のさせかたには何種類もある。

A	1
B	2
C	3
...
Z	26

モールス符合。

あ	11
い	12
う	13
え	14
お	15
か	21
...
さ	31
...

◆ＡＳＣＩＩ（アスキー）

英語のアルファベット（大文字、小文字）や数字や記号などの文字を符号化するために、現在もっともよく使われている対応表は、ASCII（American Standard Code for Information Interchange）。国際標準としては、ISO 646。

英文の電子メール、Ｃ言語のプログラミングなどで使われている。

ASCII というと、符号化の方法だが、文字セットを意味することもある。文字セットでは、ASCIIのうち印刷可能な94文字を意味する。ASCII では、印刷可能な文字以外に、印刷できない制御文字も定義している。

ASCII では、7ビットで文字を表現している。10進では0から128, 16進では 0 から 7F までである。

ASCII コード表 
+---------------------------------------------------------------+
| 00 NUL| 01 SOH| 02 STX| 03 ETX| 04 EOT| 05 ENQ| 06 ACK| 07 BEL|
| 08 BS | 09 HT | 0A NL | 0B VT | 0C NP | 0D CR | 0E SO | 0F SI |
| 10 DLE| 11 DC1| 12 DC2| 13 DC3| 14 DC4| 15 NAK| 16 SYN| 17 ETB|
| 18 CAN| 19 EM | 1A SUB| 1B ESC| 1C FS | 1D GS | 1E RS | 1F US |
| 20 SP | 21  ! | 22  " | 23  # | 24  $ | 25  % | 26  & | 27  ' |
| 28  ( | 29  ) | 2A  * | 2B  + | 2C  , | 2D  - | 2E  . | 2F  / |
| 30  0 | 31  1 | 32  2 | 33  3 | 34  4 | 35  5 | 36  6 | 37  7 |
| 38  8 | 39  9 | 3A  : | 3B  ; | 3C  < | 3D  = | 3E  > | 3F  ? |
| 40  @ | 41  A | 42  B | 43  C | 44  D | 45  E | 46  F | 47  G |
| 48  H | 49  I | 4A  J | 4B  K | 4C  L | 4D  M | 4E  N | 4F  O |
| 50  P | 51  Q | 52  R | 53  S | 54  T | 55  U | 56  V | 57  W |
| 58  X | 59  Y | 5A  Z | 5B  [ | 5C  \ | 5D  ] | 5E  ^ | 5F  _ |
| 60  ` | 61  a | 62  b | 63  c | 64  d | 65  e | 66  f | 67  g |
| 68  h | 69  i | 6A  j | 6B  k | 6C  l | 6D  m | 6E  n | 6F  o |
| 70  p | 71  q | 72  r | 73  s | 74  t | 75  u | 76  v | 77  w |
| 78  x | 79  y | 7A  z | 7B  { | 7C  | | 7D  } | 7E  ~ | 7F DEL|
+---------------------------------------------------------------+

たとえば、「ABC」という３文字は、コンピュータの内部では、41 42 43 (16 進)と表現されている。「123」という３文字は、31 32 33 (16進)と表現されている。このように、文字と数字は違う。「1」という文字が数値としは16進で 31 (10進では48) と表現される。

ASCII コード表で、16進で 00 から 1F と 7F は、普通の文字ではない。これらは、制御文字(control character,制御コード)と呼ばれている。制御文字は、通信速度の制御に使ったり、行末を表わしたり文字を消したりするのに使われる。キーボードで、Control-A と打つと、制御文字を打ったことになる。

重要な制御文字

0D (CR, Carriage Return): 復帰(リターン)
0A (NL, New Line): 改行
09 (HT, Horizontal Tab): 水平タブ
08 (BS, Back Space): 後退
1B (ESC, Escape): エスケープ
7F (DEL, Delete): 削除

ASCII のバックスラッシュ「＼ (16進数で5C)」は、日本語のJISローマ字文字集合で円記号「￥　(16進数で5C)」と同じ値になっている。

◆ISO Standard ISO8859-1 Latin-1

Latin-1コード表

８ビット符号。 20(16進)から7F(16進)までは、ASCII と同じ。西ヨーロッパでよく使われている。

◆JIS X 201

0 から 255 (0x00-0xFF) に英数字とカタカナを割り当てたもの。英字部分は、ほとんど同じだが、5C (16進数) と 7E が違う。

JIS X 201 コード表

◆JIS X 0208

94 区 × 94 点の 8836 の空間を使う。漢字は、第一水準 2965 文字、第二水準 3384 文字、追加、6文字を含む。その他に、ギリシャ文字、キリル文字、経線素片、記号を含む。

◆JIS X 0212

「補助漢字」とも呼ばれる。5801文字の漢字とその他の記号を含む。

◆JIS X 0213

第三水準、第四水準を定義して、JIS X 0208 と合わせて 11223 文字が表せる。

◆その他

韓国 KS X 1001
中国 GB 2312
台湾 CNS 11643
Unicode 。世界の主要文字を 16 ビットの範囲内でまとめることを目指して作成したもの。結局、16 ビットでは足りなくなり、 Unicode 4.0 では、96,382 文字を含む。 Unicode 4.0 は、国際規格 ISO 10646:2003 と文字集合としては、同じ。

◆エンコーディング

文字集合に含まれる文字を、コンピュータの内部でどのようなビット列（整数）で表すかを決めたもの。

ASCII や Latin-1 は、1バイト(8ビット) に入るので、そのまま利用することが多い。日本語の場合、次の方法がよく使われる

エンコーディング文字集合
JISコード JIS X 0208, JIS X 0208, JIS X 0212

EUC-JP JIS X 0208, JIS X 0208, JIS X 0212

Shift_JIS JIS X 0208, JIS X 0208

UTF-8 Unicode

注意

"JIS" は、エンコーディングと文字集合で意味が違う。
同じ文字集合の間では、エンコーディングは相互に変換できる。 JISコード、EUC-JP、Shift_JIS は、相互変換できる。
文字集合が違う場合、エンコーディングの変換は部分的にはできる。できないものもある。 JISコードと UTF-8 では相互変換できない文字がある。変換プログラムが不完全なことも多い。

◆JISコード

文字集合ASCII, JIS X 0201, JIS X 0208, JIS X 0212 を切り替えながら表現する。切り替えるためのマークを、エスケープシーケンス(Escape Sequence)という。

ASCII, JIS X 0201 は、エスケープシーケンスを挟んでそのまま使う。 JIS X 0208, JIS X 0212 については、区番号と点番号に 10進で32、 16進で20を加える。 JIS漢字コード表の一部

参考：

http://www.hlla.is.tsukuba.ac.jp/~yas/classes/ipe/nitiniti2-enshu-1996/1996-11-18/kanji-code.html: 漢字コードに関する解説

◆漢和辞典

漢和辞典では、JIS漢字コードを目にすることがある。

漢和辞典

旺文社漢和辞典より。１９８６年。ISBN 4-01-077522-X。

残念ながら、漢字コードから漢字が引けない。

◆漢字をコンピュータへ打ち込む

現在、かな漢字変換が主流だが、読み方がわからない時、かな漢字変換用辞書に載っていないときには漢字コードで指定することもできる。

MacOSX では、「文字パレット」も使える。

◆文字の符号化の意義

文字を符号化することには、いくつかの意義がある。

記憶に要する場所の節約になる（画像で表す方法と比較して）。
表示の書体（フォント）、字の大きさを自由に変えることができる。
誰が作っても同じ文字は同じ文字として比較することができる。

比較できることは、検索の時に便利。画像では検索しにくい。

逆に文字を符号化してしまうと、個人の性質を出したい時には、問題がある。たとえば、署名やラブレター。

◆文字化け

文字の符号化には、何種類もある。符号化の方法を知らないと「文字化け」を起こす。

コンピュータ上では同じビット列でも、文字コードの違いにより解釈が異なる。この場合、「文字化け」を起こす。

文字化けを起こした時には、解釈方法（文字コード）切り替えてみると直ることがある。

■課題3

課題３　ハードウェア、メモリ、数、文字の表現

Last updated: 2007/06/01 18:59:31

Yasushi Shinjo / <yas@is.tsukuba.ac.jp>

エンコーディング	文字集合
JISコード	JIS X 0208, JIS X 0208, JIS X 0212
EUC-JP	JIS X 0208, JIS X 0208, JIS X 0212
Shift_JIS	JIS X 0208, JIS X 0208
UTF-8	Unicode