割り込みの後半部、ファイルシステム

					2023年02月03日
情報科学類 オペレーティングシステム II

                                       筑波大学 システム情報系 
                                       新城 靖
                                       <yas@cs.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.coins.tsukuba.ac.jp/~yas/coins/os2-2022/2023-02-03
あるいは、次のページから手繰っていくこともできます。
http://www.coins.tsukuba.ac.jp/~yas/
http://www.cs.tsukuba.ac.jp/~yas/

■連絡事項

試験について レポートは、試験日の、試験が始まる「前」まで受け取る。その後は受け取らない。

■今日の大事な話

割り込みの前半部と後半部の分離 ファイルシステムの構造

■割り込み、後半部

割り込みの問題点 割り込みハンドラは、差し迫ったことだけをして、それ以外のことは、後で、 かつ、割り込みを許可した状態で実行したい。

Linux では、割り込みの処理を2つに分ける。

デバイス、割り込みハンドラ、Softirqみハンドラ、Taskletハンドラ
図? 割り込み処理の前半部分と後半部分

1月20日、 request_irq() で示したのは、前半の話。今日は、後半の話。

◆gfp_t gfp_mask

kmalloc() 等で使われる gfp_t gfp_mask (1月11日の資料) のスリープの可否に着目。

◆後半部(bottom half、bottom halves)

後半部の仕事は、割り込み関連の仕事のうち、割り込みハンドラでは行わない 部分を行う。割り込みハンドラ(前半部)を軽くすると、自然に後半部の仕事 は多くなる。

割り込みハンドラ(前半部)と後半部の役割分担の目安。

Linux では、後半部の仕組みとして、歴史的事情から様々な種類がある。 普通は、Tasklet か Work Queue を使えばよい。

注意1: Tasklet は、task 構造体とはまったく関係ない。名前がよくない。

注意2: Softirq という用語を、割り込み処理の後半部という意味で使う人もい る。

注意3: 伝統的なUnixでは、top half は、システム・コールから派生する上位 層の処理、bottom half は、割り込みから派生する下位層の処理の意味で使わ れることがある。Linux では、top half, bottom half は、割り込み処理の前 半部分と後半部分の意味に使う。

■Tasklet

Tasklet で1つの仕事は次のような、struct tasklet_struct で表現される。

linux-6.1.2/include/linux/interrupt.h
 638:	struct tasklet_struct
 639:	{
 640:	        struct tasklet_struct *next;
 641:	        unsigned long state;
 642:	        atomic_t count;
 643:	        bool use_callback;
 644:	        union {
 645:	                void (*func)(unsigned long data);
 646:	                void (*callback)(struct tasklet_struct *t);
 647:	        };
 648:	        unsigned long data;
 649:	};
全体として、次のようなキューに接続されている。

tasklet_vec、head、next、next、next
図? Taskletにおける仕事のキュー

◆Taskletの構造体の宣言

静的に struct tasklet_struct を宣言するには、次のマクロを利用すると簡単 である。
DECLARE_TASKLET(name, func)
    有効な(count==0) の struct tasklet_struct を宣言する

DECLARE_TASKLET_DISABLED(name, func)
    無効な(count==1) の struct tasklet_struct を宣言する
他の構造体に struct tasklet_struct を埋め込む時や kmalloc()等で動的に確保した場合には、次の関数も使える。
void tasklet_init(struct tasklet_struct *t, 
    void (*func)(unsigned long), unsigned long data);

void tasklet_setup(struct tasklet_struct *t,
    void (*callback)(struct tasklet_struct *))
その他に、生成消滅有効無効に関して次のような操作がある。

◆Taskletのハンドラ

tasklet_init() 等の場合、Tasklet のハンドラは、次のような関数である。 data が渡される。
void tasklet_handler(unsigned long data) {
    ...
}
tasklet_setup() 等の場合、Tasklet のハンドラは、次のような関数である。 struct tasklet_struct * が渡される。 struct timer_listで示した例 や 後述する EXT4_I()と同様に、 container_of() で外側の構造体を取り出す。
void tasklet_handler(struct tasklet_struct *t) {
    ...
}

◆Taskletの実行要求

Tasklet のハンドラを実行したい時には、tasklet_schedule() を呼ぶ。
void tasklet_schedule(struct tasklet_struct *t)
    Tasklet t を通常の優先度でスケジュールする

void tasklet_hi_schedule(struct tasklet_struct *t)
    Tasklet t を高優先度でスケジュールする
すると、それは「そのうちに」1度だけ実行される。

◆Taskletの利用例

無線LANのドライバでの利用例。
linux-6.1.2/drivers/net/wireless/ath/ath11k/ce.h
 151:	struct ath11k_ce_pipe {
...
 161:	        struct tasklet_struct intr_tq;
...
 166:	};

linux-6.1.2/drivers/net/wireless/ath/ath11k/pcic.c
 610:	int ath11k_pcic_config_irq(struct ath11k_base *ab)
 611:	{
 612:	        struct ath11k_ce_pipe *ce_pipe;
...
 639:	                ce_pipe = &ab->ce.ce_pipe[i];
...
 643:	                tasklet_setup(&ce_pipe->intr_tq, ath11k_pcic_ce_tasklet);
 644:	
 645:	                ret = request_irq(irq, ath11k_pcic_ce_interrupt_handler,
 646:	                                  irq_flags, irq_name[irq_idx], ce_pipe);
...
 664:	}
linux-6.1.2/drivers/net/wireless/ath/ath11k/pcic.c
 384:	static irqreturn_t ath11k_pcic_ce_interrupt_handler(int irq, void *arg)
 385:	{
 386:	        struct ath11k_ce_pipe *ce_pipe = arg;
 387:	        struct ath11k_base *ab = ce_pipe->ab;
 388:	        int irq_idx = ATH11K_PCI_IRQ_CE0_OFFSET + ce_pipe->pipe_num;
 389:	
 390:	        if (!test_bit(ATH11K_FLAG_CE_IRQ_ENABLED, &ab->dev_flags))
 391:	                return IRQ_HANDLED;
 392:	
 393:	        /* last interrupt received for this CE */
 394:	        ce_pipe->timestamp = jiffies;
 395:	
 396:	        disable_irq_nosync(ab->irq_num[irq_idx]);
 397:	
 398:	        tasklet_schedule(&ce_pipe->intr_tq);
 399:	
 400:	        return IRQ_HANDLED;
 401:	}

 374:	static void ath11k_pcic_ce_tasklet(struct tasklet_struct *t)
 375:	{
 376:	        struct ath11k_ce_pipe *ce_pipe = from_tasklet(ce_pipe, t, intr_tq);
 377:	        int irq_idx = ATH11K_PCI_IRQ_CE0_OFFSET + ce_pipe->pipe_num;
 378:	
 379:	        ath11k_ce_per_engine_service(ce_pipe->ab, ce_pipe->pipe_num);
 380:	
 381:	        enable_irq(ce_pipe->ab->irq_num[irq_idx]);
 382:	}

linux-6.1.2/include/linux/interrupt.h
 665:	#define from_tasklet(var, callback_tasklet, tasklet_fieldname)  \
 666:	        container_of(callback_tasklet, typeof(*var), tasklet_fieldname)

■Work Queue

割り込みに関連した処理で、次のような場合(TaskletやSoftirq では不可能な 場合)にWork Queue使う。

◆Work Queueのワーカ・スレッド

Work Queue のワーカ・スレッドは、カーネル・レベルのスレッドで、 割り込み処理の後半部分の処理を行うことができる。 (割り込み処理以外で使ってもよい。)

workqueue_struct、next、next、next、next
図? Work Queueにおける仕事のキュー

キューにつながれる仕事は、Tasklet の仕事とほとんど同じで、関数へのポイ ンタ func と data からなる。処理の主体が、ワーカ・スレッドと呼ばれるカー ネル・レベルのスレッドである所が違う。

汎用の Work Queue デフォルトのワーカ・スレッドは、kworker/n (nはプロセッ サ番号) とよばれ、プロセッサごとに作られる。1つのスレッドで、様々な要 求元の仕事をこなす。下の例では、1つのプロセッサに5個のスレッドが 作られている。そのうち2つは、nice 値が -20 で高優先度。

$ ps alx|grep worker|wc [←]
     22     289    1881
$ ps alx|grep 'worker.*/0' [←]
1     0  4779     2  20   0      0     0 worker S    ?          0:00 [kworker/0:2]
1     0  5276     2  20   0      0     0 worker S    ?          0:00 [kworker/0:1]
1     0  5479     2  20   0      0     0 worker S    ?          0:00 [kworker/0:0]
5     0 12906     2   0 -20      0     0 worker S<   ?          0:59 [kworker/0:1H]
5     0 30659     2   0 -20      0     0 worker S<   ?          0:07 [kworker/0:0H]
0  1013  5803  5611  20   0 117076  1016 pipe_w S+   pts/2      0:00 grep --color=auto worker.*/0
$ []
汎用の Work Queue のワーカ・スレッドの他に、専用のワーカ・スレッドを作 ることもできる。

◆work_struct構造体

ワーク・キューで用いる 1 つの仕事は、構造体 struct work_struct で表現さ れる。
linux-6.1.2/include/linux/workqueue.h
  21:	typedef void (*work_func_t)(struct work_struct *work);

  97:	struct work_struct {
  98:	        atomic_long_t data;
  99:	        struct list_head entry;
 100:	        work_func_t func;
...
 104:	};

次のように、初期化する。
struct work_struct my_work;
...
INIT_WORK(&my_work,my_work_handler);

◆Work Queue ハンドラ

Work Queue ハンドラは、次のように引数に struct work_struct へのポインタを取る。 必要なら container_of() で外側の構造体を取り出す。
void my_work_handler(struct work_struct *work)
{
...
}

◆Work の実行要求

ハンドラを呼び出したい時には、次の関数を呼ぶ。
     schedule_work(&work);
この結果、INIT_WORK() で設定したハンドラがワーカ・スレッドにより「その うち」に呼び出される。

schedule_work() では、即座に実行される可能性もある。少し後に実行したい (間を取りたい)時には、次の関数を呼ぶ。

     schedule_delayed_work(&work, ticks);
ticks は、どのくらい間をとるか。単位は、 ticks (jiffiesの単位)。 多くのシステムで10ミリ秒-1ミリ秒で、設定によって異なる。

◆flush_scheduled_work()

schedule_work() で要求した仕事が完了したことを待って、次の仕事を投げた いことがある。その時には、flush_scheduled_work() を呼ぶ。

◆alloc_workqueue()

専用のワーカ・スレッドを作りたい時には、次のような関数を使う。

◆Work Queueの利用例

x86 CMOS RTC での割り込みハンドラの例。 再掲。
linux-6.1.2/arch/x86/include/asm/mc146818rtc.h
 101:	#define RTC_IRQ 8

linux-6.1.2/drivers/rtc/rtc-cmos.c
  73:	struct cmos_rtc {
  74:	        struct rtc_device       *rtc;
  75:	        struct device           *dev;
  76:	        int                     irq;
....
  92:	};

 697:	static struct cmos_rtc  cmos_rtc;

 916:	static int INITSECTION
 917:	cmos_do_probe(struct device *dev, struct resource *ports, int rtc_irq)
 918:	{
...
1016:	        cmos_rtc.rtc = devm_rtc_allocate_device(dev);
...
1063:	                irq_handler_t rtc_cmos_int_handler;
...
1075:	                        rtc_cmos_int_handler = cmos_interrupt;
1076:	
1077:	                retval = request_irq(rtc_irq, rtc_cmos_int_handler,
1078:	                                0, dev_name(&cmos_rtc.rtc->dev),
1079:	                                cmos_rtc.rtc);
...
1090:	        retval = devm_rtc_register_device(cmos_rtc.rtc);
...
1130:	}

 699:	static irqreturn_t cmos_interrupt(int irq, void *p)
 700:	{
 701:	        u8              irqstat;
...
 713:	        irqstat = CMOS_READ(RTC_INTR_FLAGS);
...
 740:	        if (is_intr(irqstat)) {
 741:	                rtc_update_irq(p, 1, irqstat);
 742:	                return IRQ_HANDLED;
 743:	        } else
 744:	                return IRQ_NONE;
 745:	}
以下、追加。
linux-6.1.2/include/linux/rtc.h
  87:	struct rtc_device {
...
 112:	        struct work_struct irqwork;
...
 163:	};

linux-6.1.2/drivers/rtc/class.c
 203:	static struct rtc_device *rtc_allocate_device(void)
 204:	{
 205:	        struct rtc_device *rtc;
 206:	
 207:	        rtc = kzalloc(sizeof(*rtc), GFP_KERNEL);
...
 233:	        INIT_WORK(&rtc->irqwork, rtc_timer_do_work);
...
 246:	        return rtc;
 247:	}

linux-6.1.2/drivers/rtc/interface.c
 900:	void rtc_timer_do_work(struct work_struct *work)
 901:	{
...
 966:	}

 683:	void rtc_update_irq(struct rtc_device *rtc,
 684:	                    unsigned long num, unsigned long events)
 685:	{
...
 690:	        schedule_work(&rtc->irqwork);
 691:	}

■割り込みの後半部の選択

■ファイルシステム

◆求められる機能

システム・コール 様々な物理媒体と接続方法の利用 様々なディスク上の表現(ファイルシステム) 注意: 「ファイルシステム」という言葉が、様々な意味で使われる

◆層構造

問題: 様々な物理媒体やディスク上の表現の違いを吸収して、共通のシステム・ コールでファイルを扱いたい。

解決策:

図? システム・コール、VFS、ブロックデバイス
図? 層構造を用いたファイル・システムの実装

◆継承/委譲

問題: ファイルシステム間で共通部分のコードを再利用したい。

解決策

◆VFSレベルのファイルの概念

◆inode番号

ls -i で inode 番号が表示される。
$ ls -l /usr/bin/perl{,5.10.1} [←]
-rwxr-xr-x. 2 root root 13304 Mar 22  2017 /usr/bin/perl
-rwxr-xr-x. 2 root root 13304 Mar 22  2017 /usr/bin/perl5.10.1
$ ls -li /usr/bin/perl{,5.10.1} [←]
1846686 -rwxr-xr-x. 2 root root 13304 Mar 22  2017 /usr/bin/perl
1846686 -rwxr-xr-x. 2 root root 13304 Mar 22  2017 /usr/bin/perl5.10.1
$ []

◆/etc/fstab

/etc/fstab は、「起動時に」にマウントすべきファイルシステムのリストを保 持している。
$ grep -v '#' /etc/fstab  [←]

UUID=9cfbc67e-781c-48d1-8303-1dde8ce87ee9 /                       ext4    defaults        1 1
UUID=bab1faf1-5f5b-4a2a-b24f-e850a2b0b82d /boot                   ext4    defaults        1 2
UUID=a1f61ff2-2c99-4c54-8c3e-2178eed3ec10 swap                    swap    defaults        0 0
tmpfs                   /dev/shm                tmpfs   defaults        0 0
devpts                  /dev/pts                devpts  gid=5,mode=620  0 0
sysfs                   /sys                    sysfs   defaults        0 0
proc                    /proc                   proc    defaults        0 0
pentas-fs:/vol0/home   /home        nfs     rw,hard,bg,nfsvers=3,intr 0 0
pentas-fs:/vol0/web    /var/www     nfs     rw,hard,bg,nfsvers=3,intr 0 0
pentas-fs:/vol0/local3 /usr/local3  nfs     rw,hard,bg,nfsvers=3,intr 0 0
$ df / [←]
Filesystem     1K-blocks    Used Available Use% Mounted on
/dev/sda3       49071944 6721604  39857568  15% /
$ blkid /dev/sda3 [←]
/dev/sda3: UUID="9cfbc67e-781c-48d1-8303-1dde8ce87ee9" TYPE="ext4" 
$ ls -l /dev/sda3 [←]
brw-rw----. 1 root disk 8, 3 Feb  2 10:50 /dev/sda3
$ lsblk  [←]
NAME   MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda      8:0    0   50G  0 disk 
|-sda1   8:1    0  512M  0 part /boot
|-sda2   8:2    0    2G  0 part [SWAP]
`-sda3   8:3    0 47.6G  0 part /
sr0     11:0    1 1024M  0 rom  
$ ls -l /dev/sda  [←]
brw-rw----. 1 root disk 8, 0 Feb  2 10:50 /dev/sda
$ []

◆stat()システム・コールとstatコマンド

STAT(2)                    Linux Programmer's Manual                   STAT(2)
...
       int stat(const char *path, struct stat *buf);
...
          struct stat {
              dev_t     st_dev;     /* ID of device containing file */
              ino_t     st_ino;     /* inode number */
              mode_t    st_mode;    /* protection */
              nlink_t   st_nlink;   /* number of hard links */
              uid_t     st_uid;     /* user ID of owner */
              gid_t     st_gid;     /* group ID of owner */
              dev_t     st_rdev;    /* device ID (if special file) */
              off_t     st_size;    /* total size, in bytes */
              blksize_t st_blksize; /* blocksize for filesystem I/O */
              blkcnt_t  st_blocks;  /* number of blocks allocated */
              time_t    st_atime;   /* time of last access */
              time_t    st_mtime;   /* time of last modification */
              time_t    st_ctime;   /* time of last status change */
          };
stat コマンドを使うと stat システム・コールで返される値に近いものが表示 される。
$ stat .bashrc [←]
  File: `.bashrc'
  Size: 240		Blocks: 16         IO Block: 65536  regular file
Device: 14h/20d		Inode: 50700660    Links: 1
Access: (0644/-rw-r--r--)  Uid: ( 1013/     yas)   Gid: (  510/    prof)
Access: 2019-01-27 15:29:58.000000000 +0900
Modify: 2018-06-08 10:46:57.004451000 +0900
Change: 2018-06-08 10:46:57.004451000 +0900
$ []

■VFSのオブジェクト

VFSの実装では、次のようオブジェクト(データと手続きをカプセル 化したもの)を通じて実装される。 ファイルシステム固有の処理は、_operations の手続きを入れ替えることで実 現される。固有のデータは、構造体を入れ子にしたり、固有データへのポイン タを使ったりして実現している。

図? struct file,struct dentry,struct inode,struct super_block
図? スーパーブロック、inode、dentry、file

◆struct file

struct file は、プロセスがファイルを open() した時に割り当てられる。
    int fd1 = open("file1",O_RDONLY);
    int fd2 = open("file1",O_RDONLY);
ファイル名 "file1" で表現されるファイルの inode 構造体は、1 個でも、 file 構造体は、2 個割り当てられる。

ディスク上には対応するデータ構造は存在しない。

linux-6.1.2/include/linux/fs.h
 940:	struct file {
...
 946:	        struct path             f_path;
 947:	        struct inode            *f_inode;       /* cached value */
 948:	        const struct file_operations    *f_op;
...
 955:	        atomic_long_t           f_count;
 956:	        unsigned int            f_flags;
 957:	        fmode_t                 f_mode;
...
 959:	        loff_t                  f_pos;
...
 969:	        void                    *private_data;
...
 975:	        struct address_space    *f_mapping;
...
 978:	} __randomize_layout
 979:	  __attribute__((aligned(4)));  /* lest something weird decides that 2 is OK */

linux-6.1.2/include/linux/path.h
   8:	struct path {
   9:	        struct vfsmount *mnt;
  10:	        struct dentry *dentry;
  11:	} __randomize_layout;

◆継承・委譲の実装方法

C言語によるオブジェクト指向の継承・委譲の実装方法。共通インスタンス変数・関数、固有インスタンス変数関数の置き方

図?

図? 方法1

図?

図? 方法2

図?

図? 方法3

◆struct file_operations

デバイスドライバの回 でも登場している。

struct fileの操作は、たとえば次のような形で行われる。 第1引数は、struct file *。

    struct file *file;
    file->f_op->read(file, buf, count, pos);
f_op には、次のような手続きがある。各ファイルシステム (ext4,nfs,tmpfs,...) ごとに、手続きの実体は異なるが、インタフェースは同じ。
linux-6.1.2/include/linux/fs.h
2103:	struct file_operations {
2104:	        struct module *owner;
2105:	        loff_t (*llseek) (struct file *, loff_t, int);
2106:	        ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
2107:	        ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
2108:	        ssize_t (*read_iter) (struct kiocb *, struct iov_iter *);
2109:	        ssize_t (*write_iter) (struct kiocb *, struct iov_iter *);
2110:	        int (*iopoll)(struct kiocb *kiocb, struct io_comp_batch *,
2111:	                        unsigned int flags);
2112:	        int (*iterate) (struct file *, struct dir_context *);
2113:	        int (*iterate_shared) (struct file *, struct dir_context *);
2114:	        __poll_t (*poll) (struct file *, struct poll_table_struct *);
2115:	        long (*unlocked_ioctl) (struct file *, unsigned int, unsigned long);
2116:	        long (*compat_ioctl) (struct file *, unsigned int, unsigned long);
2117:	        int (*mmap) (struct file *, struct vm_area_struct *);
2118:	        unsigned long mmap_supported_flags;
2119:	        int (*open) (struct inode *, struct file *);
2120:	        int (*flush) (struct file *, fl_owner_t id);
2121:	        int (*release) (struct inode *, struct file *);
2122:	        int (*fsync) (struct file *, loff_t, loff_t, int datasync);
2123:	        int (*fasync) (int, struct file *, int);
2124:	        int (*lock) (struct file *, int, struct file_lock *);
2125:	        ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);
2126:	        unsigned long (*get_unmapped_area)(struct file *, unsigned long, unsigned long, unsigned long, unsigned long);
2127:	        int (*check_flags)(int);
2128:	        int (*flock) (struct file *, int, struct file_lock *);
2129:	        ssize_t (*splice_write)(struct pipe_inode_info *, struct file *, loff_t *, size_t, unsigned int);
2130:	        ssize_t (*splice_read)(struct file *, loff_t *, struct pipe_inode_info *, size_t, unsigned int);
2131:	        int (*setlease)(struct file *, long, struct file_lock **, void **);
2132:	        long (*fallocate)(struct file *file, int mode, loff_t offset,
2133:	                          loff_t len);
2134:	        void (*show_fdinfo)(struct seq_file *m, struct file *f);
2135:	#ifndef CONFIG_MMU
2136:	        unsigned (*mmap_capabilities)(struct file *);
2137:	#endif
2138:	        ssize_t (*copy_file_range)(struct file *, loff_t, struct file *,
2139:	                        loff_t, size_t, unsigned int);
2140:	        loff_t (*remap_file_range)(struct file *file_in, loff_t pos_in,
2141:	                                   struct file *file_out, loff_t pos_out,
2142:	                                   loff_t len, unsigned int remap_flags);
2143:	        int (*fadvise)(struct file *, loff_t, loff_t, int);
2144:	        int (*uring_cmd)(struct io_uring_cmd *ioucmd, unsigned int issue_flags);
2145:	        int (*uring_cmd_iopoll)(struct io_uring_cmd *, struct io_comp_batch *,
2146:	                                unsigned int poll_flags);
2147:	} __randomize_layout;
主な手続きの意味

◆struct dentry

struct dentry は、ディレクトリに含まれている名前の要素(「/」を含まない 名前)を表す構造体。 struct dentry は、メモリ中にのみ存在する。ディスク中に対応するデータは ない。ディレクトリで名前を検索したりファイルを作成する時にメモリ中に作 られる。
linux-6.1.2/include/linux/dcache.h
  82:	struct dentry {
...
  87:	        struct dentry *d_parent;        /* parent directory */
  88:	        struct qstr d_name;
  89:	        struct inode *d_inode;          /* Where the name belongs to - NULL is
  90:	                                         * negative */
  91:	        unsigned char d_iname[DNAME_INLINE_LEN];        /* small names */
...
  94:	        struct lockref d_lockref;       /* per-dentry lock and refcount */
  95:	        const struct dentry_operations *d_op;
  96:	        struct super_block *d_sb;       /* The root of the dentry tree */
...
  98:	        void *d_fsdata;                 /* fs-specific data */
...
 104:	        struct list_head d_child;       /* child of parent list */
 105:	        struct list_head d_subdirs;     /* our children */
...
 114:	} __randomize_layout;

 283:	static inline unsigned d_count(const struct dentry *dentry)
 284:	{
 285:	        return dentry->d_lockref.count;
 286:	}

  35:	 #define HASH_LEN_DECLARE u32 hash; u32 len

  49:	struct qstr {
  50:	        union {
  51:	                struct {
  52:	                        HASH_LEN_DECLARE;
  53:	                };
  54:	                u64 hash_len;
  55:	        };
  56:	        const unsigned char *name;
  57:	};

  71:	# define DNAME_INLINE_LEN 32 /* 192 bytes */
dentry は、 スラブアロケータ (kmem_cache_create(),kmem_cache_alloc(),kmem_cache_free())で管理されて いる。

◆dentryの状態

◆struct inode

struct inode は、全てのファイル・システムで共通の要素を保持する、メモリ 中の構造体。各ファイル・システムは、これに含まれるようなデータをそれぞ れ独自の方法でディスクに保存する。
linux-6.1.2/include/linux/fs.h
 593:	struct inode {
 594:	        umode_t                 i_mode;
 595:	        unsigned short          i_opflags;
 596:	        kuid_t                  i_uid;
 597:	        kgid_t                  i_gid;
...
 605:	        const struct inode_operations   *i_op;
 606:	        struct super_block      *i_sb;
...
 614:	        unsigned long           i_ino;
...
 626:	        dev_t                   i_rdev;
 627:	        loff_t                  i_size;
 628:	        struct timespec64       i_atime;
 629:	        struct timespec64       i_mtime;
 630:	        struct timespec64       i_ctime;
 631:	        spinlock_t              i_lock; /* i_blocks, i_bytes, maybe i_size */
 632:	        unsigned short          i_bytes;
 633:	        u8                      i_blkbits;
 634:	        u8                      i_write_hint;
 635:	        blkcnt_t                i_blocks;
...
 648:	        struct hlist_node       i_hash;
...
 662:	                struct hlist_head       i_dentry;
...
 667:	        atomic_t                i_count;
...
 702:	        void                    *i_private; /* fs or device private pointer */
 703:	} __randomize_layout;

◆struct inode_operations

inodeの操作は、たとえば次のような形で行われる。
    struct inode *inode;
    ...
    inode->i_op->create(namespace, inode, name, mode, true);
i_op には、次のような手続きがある。各ファイルシステム (ext4,nfs,tmpfs,...) ごとに、手続きの実体は異なるが、インタフェースは同じ。
linux-6.1.2/include/linux/fs.h
2149:	struct inode_operations {
2150:	        struct dentry * (*lookup) (struct inode *,struct dentry *, unsigned int);
2151:	        const char * (*get_link) (struct dentry *, struct inode *, struct delayed_call *);
2152:	        int (*permission) (struct user_namespace *, struct inode *, int);
2153:	        struct posix_acl * (*get_acl)(struct inode *, int, bool);
2154:	
2155:	        int (*readlink) (struct dentry *, char __user *,int);
2156:	
2157:	        int (*create) (struct user_namespace *, struct inode *,struct dentry *,
2158:	                       umode_t, bool);
2159:	        int (*link) (struct dentry *,struct inode *,struct dentry *);
2160:	        int (*unlink) (struct inode *,struct dentry *);
2161:	        int (*symlink) (struct user_namespace *, struct inode *,struct dentry *,
2162:	                        const char *);
2163:	        int (*mkdir) (struct user_namespace *, struct inode *,struct dentry *,
2164:	                      umode_t);
2165:	        int (*rmdir) (struct inode *,struct dentry *);
2166:	        int (*mknod) (struct user_namespace *, struct inode *,struct dentry *,
2167:	                      umode_t,dev_t);
2168:	        int (*rename) (struct user_namespace *, struct inode *, struct dentry *,
2169:	                        struct inode *, struct dentry *, unsigned int);
2170:	        int (*setattr) (struct user_namespace *, struct dentry *,
2171:	                        struct iattr *);
2172:	        int (*getattr) (struct user_namespace *, const struct path *,
2173:	                        struct kstat *, u32, unsigned int);
2174:	        ssize_t (*listxattr) (struct dentry *, char *, size_t);
2175:	        int (*fiemap)(struct inode *, struct fiemap_extent_info *, u64 start,
2176:	                      u64 len);
2177:	        int (*update_time)(struct inode *, struct timespec64 *, int);
2178:	        int (*atomic_open)(struct inode *, struct dentry *,
2179:	                           struct file *, unsigned open_flag,
2180:	                           umode_t create_mode);
2181:	        int (*tmpfile) (struct user_namespace *, struct inode *,
2182:	                        struct file *, umode_t);
2183:	        int (*set_acl)(struct user_namespace *, struct inode *,
2184:	                       struct posix_acl *, int);
2185:	        int (*fileattr_set)(struct user_namespace *mnt_userns,
2186:	                            struct dentry *dentry, struct fileattr *fa);
2187:	        int (*fileattr_get)(struct dentry *dentry, struct fileattr *fa);
2188:	} ____cacheline_aligned;

◆struct super_block

スーパーブロックは、ファイルシステムの起点となるデータ構造。そのファイ ル・システムに含まれている inode や dentry を管理する。
linux-6.1.2/include/linux/fs.h
1451:	struct super_block {
...
1456:	        loff_t                  s_maxbytes;     /* Max file size */
...
1458:	        const struct super_operations   *s_op;
...
1465:	        struct dentry           *s_root;
...
1500:	        void                    *s_fs_info;     /* Filesystem private info */
...
1565:	        struct list_lru         s_dentry_lru;
1566:	        struct list_lru         s_inode_lru;
...
1579:	        struct list_head        s_inodes;       /* all inodes */
...
1583:	} __randomize_layout;

◆struct super_operations

スーパーブロックの操作は、たとえば次のような形で行われる。
    struct super_block *sh;
    ...
    sh->s_op->write_super(sb);
linux-6.1.2/include/linux/fs.h

2234:	struct super_operations {
2235:	        struct inode *(*alloc_inode)(struct super_block *sb);
2236:	        void (*destroy_inode)(struct inode *);
2237:	        void (*free_inode)(struct inode *);
2238:	
2239:	        void (*dirty_inode) (struct inode *, int flags);
2240:	        int (*write_inode) (struct inode *, struct writeback_control *wbc);
2241:	        int (*drop_inode) (struct inode *);
2242:	        void (*evict_inode) (struct inode *);
2243:	        void (*put_super) (struct super_block *);
2244:	        int (*sync_fs)(struct super_block *sb, int wait);
2245:	        int (*freeze_super) (struct super_block *);
2246:	        int (*freeze_fs) (struct super_block *);
2247:	        int (*thaw_super) (struct super_block *);
2248:	        int (*unfreeze_fs) (struct super_block *);
2249:	        int (*statfs) (struct dentry *, struct kstatfs *);
2250:	        int (*remount_fs) (struct super_block *, int *, char *);
2251:	        void (*umount_begin) (struct super_block *);
2252:	
2253:	        int (*show_options)(struct seq_file *, struct dentry *);
2254:	        int (*show_devname)(struct seq_file *, struct dentry *);
2255:	        int (*show_path)(struct seq_file *, struct dentry *);
2256:	        int (*show_stats)(struct seq_file *, struct dentry *);
2257:	#ifdef CONFIG_QUOTA
2258:	        ssize_t (*quota_read)(struct super_block *, int, char *, size_t, loff_t);
2259:	        ssize_t (*quota_write)(struct super_block *, int, const char *, size_t, loff_t);
2260:	        struct dquot **(*get_dquots)(struct inode *);
2261:	#endif
2262:	        long (*nr_cached_objects)(struct super_block *,
2263:	                                  struct shrink_control *);
2264:	        long (*free_cached_objects)(struct super_block *,
2265:	                                    struct shrink_control *);
2266:	};

◆task_struct と struct file

struct task_struct から指される。ファイル記述子fdは、struct task_struct *p; の時、p->files->fdt->fd[fd] の struct file を表 す。開いているファイルの数が小さい時は、 p->files->fd_array[fd]と同じ。 多くのファイルを開くプロセスでは、 p->files->fd_array[NR_OPEN_DEFAULT]で足りなくなった時は、 expand_files(), expand_fdtable() で拡張する。 これらの関数では、kmalloc() 等でメモリを割り当てる。
linux-6.1.2/include/linux/sched.h
 737:	struct task_struct {
...
1094:	        struct files_struct             *files;
...
1546:	};

linux-6.1.2/include/linux/fdtable.h
  24:	#define NR_OPEN_DEFAULT BITS_PER_LONG

  49:	struct files_struct {
...
  57:	        struct fdtable __rcu *fdt;
  58:	        struct fdtable fdtab;
...
  67:	        struct file __rcu * fd_array[NR_OPEN_DEFAULT];
  68:	};

  27:	struct fdtable {
...
  29:	        struct file __rcu **fd;      /* current fd array */
...
  34:	};

linux-6.1.2/include/asm-generic/bitsperlong.h
   8:	#ifdef CONFIG_64BIT
   9:	#define BITS_PER_LONG 64
  10:	#else
  11:	#define BITS_PER_LONG 32
  12:	#endif /* CONFIG_64BIT */

図? p->files->fd_array[fd]
図? task_struct、ファイル記述子、file構造体、その他

■read() システムコールと Ext4 ファイルシステム

read() システム・コールの実装。

◆read() システム・コール

linux-6.1.2/fs/read_write.c
 621:	SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count)
 622:	{
 623:	        return ksys_read(fd, buf, count);
 624:	}

 602:	ssize_t ksys_read(unsigned int fd, char __user *buf, size_t count)
 603:	{
 604:	        struct fd f = fdget_pos(fd);
 605:	        ssize_t ret = -EBADF;
 606:	
 607:	        if (f.file) {
 608:	                loff_t pos, *ppos = file_ppos(f.file);
 609:	                if (ppos) {
 610:	                        pos = *ppos;
 611:	                        ppos = &pos;
 612:	                }
 613:	                ret = vfs_read(f.file, buf, count, ppos);
 614:	                if (ret >= 0 && ppos)
 615:	                        f.file->f_pos = pos;
 616:	                fdput_pos(f);
 617:	        }
 618:	        return ret;
 619:	}

linux-6.1.2/include/linux/file.h
  35:	struct fd {
  36:	        struct file *file;
  37:	        unsigned int flags;
  38:	};

◆vfs_read()

linux-6.1.2/fs/read_write.c
 450:	ssize_t vfs_read(struct file *file, char __user *buf, size_t count, loff_t *pos)
 451:	{
 452:	        ssize_t ret;
 453:	
 454:	        if (!(file->f_mode & FMODE_READ))
 455:	                return -EBADF;
 456:	        if (!(file->f_mode & FMODE_CAN_READ))
 457:	                return -EINVAL;
 458:	        if (unlikely(!access_ok(buf, count)))
 459:	                return -EFAULT;
 460:	
 461:	        ret = rw_verify_area(READ, file, pos, count);
 462:	        if (ret)
 463:	                return ret;
 464:	        if (count > MAX_RW_COUNT)
 465:	                count =  MAX_RW_COUNT;
 466:	
 467:	        if (file->f_op->read)
 468:	                ret = file->f_op->read(file, buf, count, pos);
 469:	        else if (file->f_op->read_iter)
 470:	                ret = new_sync_read(file, buf, count, pos);
 471:	        else
 472:	                ret = -EINVAL;
 473:	        if (ret > 0) {
 474:	                fsnotify_access(file);
 475:	                add_rchar(current, ret);
 476:	        }
 477:	        inc_syscr(current);
 478:	        return ret;
 479:	}

 379:	static ssize_t new_sync_read(struct file *filp, char __user *buf, size_t len, loff_t *ppos)
 380:	{
 381:	        struct kiocb kiocb;
 382:	        struct iov_iter iter;
 383:	        ssize_t ret;
 384:	
 385:	        init_sync_kiocb(&kiocb, filp);
 386:	        kiocb.ki_pos = (ppos ? *ppos : 0);
 387:	        iov_iter_ubuf(&iter, READ, buf, len);
 388:	
 389:	        ret = call_read_iter(filp, &kiocb, &iter);
 390:	        BUG_ON(ret == -EIOCBQUEUED);
 391:	        if (ppos)
 392:	                *ppos = kiocb.ki_pos;
 393:	        return ret;
 394:	}

linux-6.1.2/include/linux/fs.h
2190:	static inline ssize_t call_read_iter(struct file *file, struct kiocb *kio,
2191:	                                     struct iov_iter *iter)
2192:	{
2193:	        return file->f_op->read_iter(kio, iter);
2194:	}
vfs_read() は、次のように最終的には file->f_op->read() か file->f_op->read_iter() を呼び出す。

◆Ext4 の file_operations

linux-6.1.2/fs/ext4/file.c
 934:	const struct file_operations ext4_file_operations = {
 935:	        .llseek         = ext4_llseek,
 936:	        .read_iter      = ext4_file_read_iter,
 937:	        .write_iter     = ext4_file_write_iter,
 938:	        .iopoll         = iocb_bio_iopoll,
 939:	        .unlocked_ioctl = ext4_ioctl,
 940:	#ifdef CONFIG_COMPAT
 941:	        .compat_ioctl   = ext4_compat_ioctl,
 942:	#endif
 943:	        .mmap           = ext4_file_mmap,
 944:	        .mmap_supported_flags = MAP_SYNC,
 945:	        .open           = ext4_file_open,
 946:	        .release        = ext4_release_file,
 947:	        .fsync          = ext4_sync_file,
 948:	        .get_unmapped_area = thp_get_unmapped_area,
 949:	        .splice_read    = generic_file_splice_read,
 950:	        .splice_write   = iter_file_splice_write,
 951:	        .fallocate      = ext4_fallocate,
 952:	};
 953:	
 954:	const struct inode_operations ext4_file_inode_operations = {
 955:	        .setattr        = ext4_setattr,
 956:	        .getattr        = ext4_file_getattr,
...
 963:	};
 964:	

linux-6.1.2/fs/ext4/super.c
1541:	static const struct super_operations ext4_sops = {
1542:	        .alloc_inode    = ext4_alloc_inode,
1543:	        .free_inode     = ext4_free_in_core_inode,
...
1560:	};

◆Ext4 の inode

Ext4 では、メモリ中のデータを構造体 struct ext4_inode_info で表す。
linux-6.1.2/fs/ext4/ext4.h
1021:	struct ext4_inode_info {
...
1110:	        struct inode vfs_inode;
...
1185:	};

1771:	static inline struct ext4_inode_info *EXT4_I(struct inode *inode)
1772:	{
1773:	        return container_of(inode, struct ext4_inode_info, vfs_inode);
1774:	}

linux-6.1.2/include/linux/container_of.h
  17:	#define container_of(ptr, type, member) ({                              \
  18:	        void *__mptr = (void *)(ptr);                                   \
...
  22:	        ((type *)(__mptr - offsetof(type, member))); })

図? struct ext4_inode_info、struct inode、container_of()
図? Ext4 ファイルシステムで使う構造体 ext4_inode_info での struct inode の保持

◆Ext4のext4_file_read_iter()

linux-6.1.2/fs/ext4/file.c
 130:	static ssize_t ext4_file_read_iter(struct kiocb *iocb, struct iov_iter *to)
 131:	{
...
 147:	        return generic_file_read_iter(iocb, to);
 148:	}

◆汎用のgeneric_file_read_iter()

linux-6.1.2/mm/filemap.c
2770:	ssize_t
2771:	generic_file_read_iter(struct kiocb *iocb, struct iov_iter *iter)
2772:	{
...
2821:	        return filemap_read(iocb, iter, retval);
2822:	}

◆汎用のfilemap_read()


linux-6.1.2/include/linux/mm_types.h
 276:	struct folio {
...
 303:	                struct page page;
...
 314:	};

linux-6.1.2/include/linux/pagevec.h
  83:	struct folio_batch {
  84:	        unsigned char nr;
  85:	        bool percpu_pvec_drained;
  86:	        struct folio *folios[PAGEVEC_SIZE];
  87:	};

linux-6.1.2/mm/filemap.c
2641:	ssize_t filemap_read(struct kiocb *iocb, struct iov_iter *iter,
2642:	                ssize_t already_read)
2643:	{
2644:	        struct file *filp = iocb->ki_filp;
2645:	        struct file_ra_state *ra = &filp->f_ra;
2646:	        struct address_space *mapping = filp->f_mapping;
2647:	        struct inode *inode = mapping->host;
2648:	        struct folio_batch fbatch;
2649:	        int i, error = 0;
2650:	        bool writably_mapped;
2651:	        loff_t isize, end_offset;
...
2659:	        folio_batch_init(&fbatch);
2660:	
2661:	        do {
...
2675:	                error = filemap_get_pages(iocb, iter, &fbatch);
...
2706:	                for (i = 0; i < folio_batch_count(&fbatch); i++) {
2707:	                        struct folio *folio = fbatch.folios[i];
...
2726:	                        copied = copy_folio_to_iter(folio, offset, bytes, iter);
2727:	
2728:	                        already_read += copied;
2729:	                        iocb->ki_pos += copied;
2730:	                        ra->prev_pos = iocb->ki_pos;
...
2736:	                }
2740:	                folio_batch_init(&fbatch);
2741:	        } while (iov_iter_count(iter) && iocb->ki_pos < isize && !error);
...
2745:	        return already_read ? already_read : error;
2746:	}

linux-6.1.2/include/linux/mm_types.h
 166:	static inline size_t copy_folio_to_iter(struct folio *folio, size_t offset,
 167:	                size_t bytes, struct iov_iter *i)
 168:	{
 169:	        return copy_page_to_iter(&folio->page, offset, bytes, i);
 170:	}

■mkdir() システムコール

mkdir() システム・コールの実装。

◆mkdir() システム・コール

linux-6.1.2/fs/namei.c
4079:	SYSCALL_DEFINE2(mkdir, const char __user *, pathname, umode_t, mode)
4080:	{
4081:	        return do_mkdirat(AT_FDCWD, getname(pathname), mode);
4082:	}

4074:	SYSCALL_DEFINE3(mkdirat, int, dfd, const char __user *, pathname, umode_t, mode)
4075:	{
4076:	        return do_mkdirat(dfd, getname(pathname), mode);
4077:	}

4043:	int do_mkdirat(int dfd, struct filename *name, umode_t mode)
4044:	{
4045:	        struct dentry *dentry;
4046:	        struct path path;
4047:	        int error;
4048:	        unsigned int lookup_flags = LOOKUP_DIRECTORY;
4049:	
4050:	retry:
4051:	        dentry = filename_create(dfd, name, &path, lookup_flags);
...
4059:	                struct user_namespace *mnt_userns;
4060:	                mnt_userns = mnt_user_ns(path.mnt);
4061:	                error = vfs_mkdir(mnt_userns, path.dentry->d_inode, dentry,
4062:	                                  mode);
...
4071:	        return error;
4072:	}

◆vfs_mkdir()

linux-6.1.2/fs/namei.c
4016:	int vfs_mkdir(struct user_namespace *mnt_userns, struct inode *dir,
4017:	              struct dentry *dentry, umode_t mode)
4018:	{
...
4025:	        if (!dir->i_op->mkdir)
4026:	                return -EPERM;
...
4036:	        error = dir->i_op->mkdir(mnt_userns, dir, dentry, mode);
...
4039:	        return error;
4040:	}

■授業評価アンケート

情報科学類では、教育の改善のために、学生の皆さんに授業評価アンケートを 実施していますので、ご協力をお願いします。

アンケートはTwinsから回答してください。

なお、皆さんの評価が成績に影響することは一切ありません。 また、評価結果を教育の改善以外の目的に利用することはありませんし、 評価結果を公開する場合には個人を特定できるような情報は含めません。

2月28日までに回答して下さい。

■課題5 割り込みの後半部、ファイルシステム

★問題(501) Taskletの初期化

Tasklet を使って次の関数 f() を、割り込み処理の後半で呼び出したい。
void f(int arg1, int arg2) {
   省略;
}
これを実現するために、どのような Tasklet のハンドラと初期化コードを書け ばよいか。以下の空欄を埋めなさい。

static struct tasklet_struct tl1;

void tasklet_handler(unsigned long data) { /* Tasklet ハンドラ */
    int arg1, arg2;
    arg1 = 省略; /* f() の引数 */
    arg2 = 省略; /* f() の引数 */
    /*空欄(a)*/
}

初期化
{
	/*空欄(b)*/(&tl1, /*空欄(c)*/, 0 );
}

★問題(502) Taskletハンドラの実行

次のコードは、割り込みの前半部分(ハードウェアの割り込み)の一部である。 割り込み処理の後半で、問題(501) で定義した Tasklet のハンドラを呼ぶように、空欄を埋めなさい。
irqreturn_t irq_handler(int irq, void *dev) {
    /*空欄(d)*/(/*空欄(e)*/);
    return IRQ_HANDLED;
}

★問題(503) struct fileの役割

Linux カーネルの中で、ファイルを表現するためのオブジェクトとしてstruct inode と struct file がある。1 種類struct inode に集約しても、ファイル の操作(読み、書き、属性変更)では十分と思えるが、2種類使われている。 struct inode にはない、struct file の重要な役割を1つ選んで簡単に説明し なさい。

★問題(504) flock()システムコール

次の関数は、flock() システム・コールの実装の一部である。空欄を埋めて完 成させなさい。 fdget() は、fdget_pos() と同様に、引数の fd (int型) を struct file * を含む struct fd へ変換する関数である。
SYSCALL_DEFINE2(flock, unsigned int, fd, unsigned int, cmd)
{
	int error;
	struct fd f = fdget(fd);
...
	if (f.file->f_op->/*空欄(f)*/)
		error = f.file->f_op->/*空欄(g)*/(/*空欄(g)*/, 省略, 省略);
	else
		error = 省略;
...
	fdput(f);
...
	return error;
}

★問題(505) Ext4ファイルシステム

read() システム・コールの実装においては、様々なファイルシステムで共通の VFS 層の関数と、特定のファイルシステムに固有の関数が使われる。

このページで説明されている関数のうち、次のものを1つずつ上げなさい。

★問題(506) 期末試験

期末試験について、次の事柄を答えなさい。
Last updated: 2023/02/06 22:45:03
Yasushi Shinjo / <yas@cs.tsukuba.ac.jp>