标准I/O(buffered I/O)浅析
时间:2008-01-16 11:13:43 来源: 作者:
|
CU有很多上讨论I/O操作的帖子,在这里发一篇我自己关于标准I/O的理解的帖子 这里借用了glibc中标准I/O实现的细节,所以代码多是不可移植的. 写的有点乱,很多东西都是自己的理解,这里只是抛砖引玉,期望和大家多多讨论一下. 1. buffered I/O, 即标准I/O 首先,要明确,unbuffered I/O只是相对于buffered I/O,即标准I/O来说的. 而不是说unbuffered I/O读写磁盘时不用缓冲.实际上,内核是存在高速缓冲区来进行 真正的磁盘读写的,不过这里要讨论的buffer跟内核中的缓冲区无关. buffered I/O的目的是什么呢? 很简单,buffered I/O的目的就是为了提高效率. 请明确一个关系,那就是, buffered I/O库函数(fread, fwrite等,用户空间) <----call---> unbuffered I/O系统调用(read,write等,内核空间)<-------> 读写磁盘 buffered I/O库函数都是调用相关的unbuffered I/O系统调用来实现的,他们并不直接读写磁盘. 那么,效率的提高从何而来呢? 注意到,buffered I/O中都是库函数,而unbuffered I/O中为系统调用,使用库函数的效率是高于使用系统调用的. buffered I/O就是通过尽可能的少使用系统调用来提高效率的. 它的基本方法是,在用户进程空间维护一块缓冲区,第一次读(库函数)的时候用read(系统调用)多从内核读出一些数据, 下次在要读(库函数)数据的时候,先从该缓冲区读,而不用进行再次read(系统调用)了. 同样,写的时候,先将数据写入(库函数)一个缓冲区,多次以后,在集中进行一次write(系统调用),写入内核空间. buffered I/O中的fgets, puts, fread, fwrite等和unbufferedI/O中的read,write等就是调用和被调用的关系 下面是一个利用buffered I/O读取数据的例子: #include <stdlib.h>buffered I/O中的"buffer"到底是指什么呢? 这个buffer在什么地方呢? FILE是什么呢?它的空间是怎么分配的呢? 要弄清楚这些问题,就要看看FILE是如何定义和运作的了. (特别说明,在平时写程序时,不用也不要关心FILE是如何定义和运作的,最好不要直接操作 它,这里使用它,只是为了说明buffered IO) 下面的这个是glibc给出的FILE的定义,它是实现相关的,别的平台定义方式不同. struct _IO_FILE { int _flags; /* High-order word is _IO_MAGIC; rest is flags. */ #define _IO_file_flags _flags /* The following pointers correspond to the C++ streambuf protocol. */ /* Note: Tk uses the _IO_read_ptr and _IO_read_end fields directly. */ char* _IO_read_ptr; /* Current read pointer */ char* _IO_read_end; /* End of get area. */ char* _IO_read_base; /* Start of putback+get area. */ char* _IO_write_base; /* Start of put area. */ char* _IO_write_ptr; /* Current put pointer. */ char* _IO_write_end; /* End of put area. */ char* _IO_buf_base; /* Start of reserve area. */ char* _IO_buf_end; /* End of reserve area. */ /* The following fields are used to support backing up and undo. */ char *_IO_save_base; /* Pointer to start of non-current get area. */ char *_IO_backup_base; /* Pointer to first valid character of backup area */ char *_IO_save_end; /* Pointer to end of non-current get area. */ struct _IO_marker *_markers; struct _IO_FILE *_chain; int _fileno; }; 上面的定义中有三组重要的字段: 1. char* _IO_read_ptr; /* Current read pointer */ char* _IO_read_end; /* End of get area. */ char* _IO_read_base; /* Start of putback+get area. */ 2. char* _IO_write_base; /* Start of put area. */ char* _IO_write_ptr; /* Current put pointer. */ char* _IO_write_end; /* End of put area. */ 3. char* _IO_buf_base; /* Start of reserve area. */ char* _IO_buf_end; /* End of reserve area. */ 其中, _IO_read_base 指向"读缓冲区" _IO_read_end 指向"读缓冲区"的末尾 _IO_read_end - _IO_read_base "读缓冲区"的长度 _IO_write_base 指向"写缓冲区" _IO_write_end 指向"写缓冲区"的末尾 _IO_write_end - _IO_write_base "写缓冲区"的长度 _IO_buf_base 指向"缓冲区" _IO_buf_end 指向"缓冲区"的末尾 _IO_buf_end - _IO_buf_base "缓冲区"的长度 上面的定义貌似给出了3个缓冲区,实际上上面的_IO_read_base, _IO_write_base, _IO_buf_base都指向了同一个缓冲区. 这个缓冲区跟上面程序中的char buf[5];没有任何关系. 他们在第一次buffered I/O操作时由库函数自动申请空间,最后由相应库函数负责释放. (再次声明,这里只是glibc的实现,别的实现可能会不同,后面就不再强调了) 请看下面的程序(这里给的是stdin,行缓冲的例子): #include <stdlib.h>可以看到,在读操作之前,myfile的缓冲区是没有被分配的,在一次读之后,myfile的缓冲区才被分配. 这个缓冲区既不是内核中的缓冲区,也不是用户分配的缓冲区,而是有用户进程空间中的由buffered I/O系统负责维护的缓冲区. (当然,用户可以可以维护该缓冲区,这里不做讨论了) 上面的例子只是说明了buffered I/O缓冲区的存在,下面从全缓冲,行缓冲和无缓冲3个方面看一下buffered I/O 是如何工作的. 1.1. 全缓冲 下面是APUE上的原话: 全缓冲"在填满标准I/O缓冲区后才进行实际的I/O操作.对于驻留在磁盘上的文件通常是由标准I/O库实施全缓冲的" 书中这里"实际的I/O操作"实际上容易引起误导,这里并不是读写磁盘,而应该是进行read或write的系统调用 下面两个例子会说明这个问题 #include <stdlib.h>上面提到的bbb.txt文件的内容是由很多行的"123456789"组成 上例中,fgets(buf, 5, myfile); 仅仅读4个字符,但是,缓冲区已被写满, 但是_IO_read_ptr却向前移动了5位,下次再次调用读操作时, 只要要读的位数不超过myfile->_IO_read_end - myfile->_IO_read_ptr 那么就不需要再次调用系统调用read,只要将数据从myfile的缓冲区拷贝到 buf即可(从myfile->_IO_read_ptr开始拷贝) [attach]211083[/attach] 全缓冲读的时候, _IO_read_base始终指向缓冲区的开始 _IO_read_end始终指向已从内核读入缓冲区的字符的下一个 (对全缓冲来说,buffered I/O读每次都试图都将缓冲区读满) _IO_read_ptr始终指向缓冲区中已被用户读走的字符的下一个 (_IO_read_end < (_IO_buf_base-_IO_buf_end)) && (_IO_read_ptr == _IO_read_end)时则已经到达文件末尾 其中_IO_buf_base-_IO_buf_end是缓冲区的长度 一般大体的工作情景为: 第一次fgets(或其他的)时,标准I/O会调用read将缓冲区充满,下一次fgets不调用read而是直接从该缓冲区中拷贝数据,直到 缓冲区的中剩余的数据不够时,再次调用read.在这个过程中,_IO_read_ptr就是用来记录缓冲区中哪些数据是已读的, 哪些数据是未读的. #include <stdlib.h>上面这个是关于全缓冲写的例子. 全缓冲时,只有当标准I/O自动flush(比如当缓冲区已满时)或者手工调用fflush时, 标准I/O才会调用一次write系统调用. 例子中,fwrite(buf+i, 1, 512, myfile);这一句只是将buf+i接下来的512个字节 写入缓冲区,由于缓冲区未满,标准I/O并未调用write. 此时,myfile->_IO_write_ptr = myfile->_IO_write_base;会导致标准I/O认为 没有数据写入缓冲区,所以永远不会调用write,这样aaa.txt文件得不到写入. 注释掉myfile->_IO_write_ptr = myfile->_IO_write_base;前后,看看效果 [attach]211084[/attach] 全缓冲写的时候: _IO_write_base始终指向缓冲区的开始 _IO_write_end全缓冲的时候,始终指向缓冲区的最后一个字符的下一个 (对全缓冲来说,buffered I/O写总是试图在缓冲区写满之后,再系统调用write) _IO_write_ptr始终指向缓冲区中已被用户写入的字符的下一个 flush的时候,将_IO_write_base和_IO_write_ptr之间的字符通过系统调用write写入内核 1.2. 行缓冲 下面是APUE上的原话: 行缓冲"当输入输出中遇到换行符时,标准I/O库执行I/O操作. " 书中这里"执行O操作"也容易引起误导,这里不是读写磁盘,而应该是进行read或write的系统调用 下面两个例子会说明这个问题 第一个例子可以用来说明下面这篇帖子的问题 [url=http://bbs.chinaunix.net/viewthread.php?tid=954547]http://bbs.chinaunix.net/viewthread.php?tid=954547 #include <stdlib.h>上例中, fgets(buf, 5, stdin); 仅仅需要4个字符,但是,输入行中的其他数据也被写入缓冲区, 但是_IO_read_ptr向前移动了5位,下次再次调用fgets操作时,就不需要再次调用系统调用read, 只要将数据从stdin的缓冲区拷贝到buf2即可(从stdin->_IO_read_ptr开始拷贝) stdin->_IO_read_ptr = stdin->_IO_read_end;会导致标准I/O会认为缓冲区已空, 再次fgets则需要再次调用read.比较一下将该句注释掉前后的效果 [attach]211083[/attach] 行缓冲读的时候, _IO_read_base始终指向缓冲区的开始 _IO_read_end始终指向已从内核读入缓冲区的字符的下一个 _IO_read_ptr始终指向缓冲区中已被用户读走的字符的下一个 (_IO_read_end < (_IO_buf_base-_IO_buf_end)) && (_IO_read_ptr == _IO_read_end)时则已经到达文件末尾 其中_IO_buf_base-_IO_buf_end是缓冲区的长度 #include <stdlib.h>这个例子将将FILE结构中指针的变化写入的文件ccc.txt 运行后可以有兴趣的话,可以看看. 上面这个是关于行缓冲写的例子. stdout->_IO_write_ptr = stdout->_IO_write_base;会使得标准I/O认为 缓冲区是空的,从而没有任何输出. 可以将上面程序中的注释分别去掉,看看运行结果 行缓冲时,下面3个条件之一会导致缓冲区立即被flush 1. 缓冲区已满 2. 遇到一个换行符;比如将上面例子中buf[4]改为'n'时 3. 再次要求从内核中得到数据时;比如上面的程序加上getchar()会导致马上输出 [attach]211085[/attach] 行缓冲写的时候: _IO_write_base始终指向缓冲区的开始 _IO_write_end始终指向缓冲区的开始 _IO_write_ptr始终指向缓冲区中已被用户写入的字符的下一个 flush的时候,将_IO_write_base和_IO_write_ptr之间的字符通过系统调用write写入内核 1.3. 无缓冲 无缓冲时,标准I/O不对字符进行缓冲存储.典型代表是stderr 这里的无缓冲,并不是指缓冲区大小为0,其实,还是有缓冲的,大小为1 #include <stdlib.h>对无缓冲的流的每次读写操作都会引起系统调用 1.4 feof的问题 CU上已经有无数的帖子在探讨feof了,这里从缓冲区的角度去考察一下. 对于一个空文件,为什么要先读一下,才能用feof判断出该文件到了结尾了呢? #include <stdlib.h>运行上面的程序,输入多于4个,少于13个字符,并且以连按两次ctrl+d为结束(不要按回车) 从上面的例子,可以看出,每当满足 (_IO_read_end < (_IO_buf_base-_IO_buf_end)) && (_IO_read_ptr == _IO_read_end) 时,标准I/O则认为已经到达文件末尾,feof(stdin)才会被设置 其中_IO_buf_base-_IO_buf_end是缓冲区的长度 也就是说,标准I/O是通过它的缓冲区来判断流是否要结束了的. 这就解释了为什么即使是一个空文件,标准I/O也需要读一次,才能使用feof判断释放为空 1.5. 其他说明 很多新手有一个误解,就是fgets, fputs代表行缓冲,fread, fwrite代表全缓冲 fgetc, fputc代表无缓冲 等等. 其实不是这样的,是什么样的缓冲跟使用那个函数没有关系, 而跟你读写什么类型的文件有关系. 上面的例子中多次在全缓冲中使用fgets, fputs,而在行缓冲中使用fread, fwrite 下面的是引至APUE的 实际上 ISO C要求: 1.当且仅当标准输入和标准输出并不涉及交互式设备时,他们才是全缓冲的 2.标准输出决不是全缓冲的. 很多系统默认使用下列类型的标准: 1.标准输出是不带缓冲的. 2.如若是涉及终端设备的其他流,则他们是行缓冲的;否则是全缓冲的. [ 本帖最后由 ypxing 于 2007-8-28 11:16 编辑 ]
ypxing 回复于:2007-08-28 10:07:36 怎么没有人发言呀,大家进来讨论一下吧 ivhb 回复于:2007-08-28 10:32:09 我想问一下 引用: 这个缓冲区既不是内核中的缓冲区,也不是用户分配的缓冲区,而是有编译器维护的用户进程空间中的缓冲区. (当然,用户可以可以维护该缓冲区,这里不做讨论了) 由编译器维护的用户进程空间是什么意思。 ypxing 回复于:2007-08-28 10:45:38 "编译器维护的用户进程空间中的缓冲区" 是"用户进程空间中的缓冲区" 不是"编译器维护的用户进程空间" "编译器维护"的说法不准确, 应该说是"自动维护的" "用户进程空间中的缓冲区"更准确一些 引用:原帖由 ivhb 于 2007-8-28 10:32 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7272292&ptid=982604]
我想问一下 由编译器维护的用户进程空间是什么意思。 ivhb 回复于:2007-08-28 10:49:31 你这里想说的,就是stdio自己的缓存,如果不是用户自己setbuf(),那么在发生第一次读/写操作时候,stdio会malloc一块通常是4096的空间,作为自己的缓存(这里也可以看出,为什么要发生第一次读写前才能调用setbuf系列)。你这里“自动维护”就是说stdio的默认的缓存吧。是这个意思么? ypxing 回复于:2007-08-28 10:56:51 是的,而且想强调,这块缓存是在用户进程空间的,不是在内核空间 另外,一般在ext2/3系统上的全缓冲会设为4096,行缓冲会社为1024 引用:原帖由 ivhb 于 2007-8-28 10:49 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7272408&ptid=982604]
你这里想说的,就是stdio自己的缓存,如果不是用户自己setbuf(),那么在发生第一次读/写操作时候,stdio会malloc一块通常是4096的空间,作为自己的缓存(这里也可以看出,为什么要发生第一次读写前才能调用setb ... [ 本帖最后由 ypxing 于 2007-8-28 11:05 编辑 ] flw2 回复于:2007-08-28 12:16:33 引用:原帖由 ypxing 于 2007-8-28 10:56 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7272452&ptid=982604]
是的,而且想强调,这块缓存是在用户进程空间的,不是在内核空间 另外,一般在ext2/3系统上的全缓冲会设为4096,行缓冲会社为1024 ext2/3 标准库会检查是不是这个文件系统? ypxing 回复于:2007-08-28 12:54:49 俺的话引起岐义了,呵呵 标准库显然不会检查 引用:原帖由 flw2 于 2007-8-28 12:16 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7272982&ptid=982604]
ext2/3 标准库会检查是不是这个文件系统? ypxing 回复于:2007-08-28 13:01:38 我的理解是,文件系统会影响内核读写缓冲区的大小,进而会影响标准库的缓冲区的大小 flw2 回复于:2007-08-28 13:06:03 呵呵,精华帖呀 ypxing 回复于:2007-08-29 09:17:43 用上面的说明解释蓝色键盘在CU的一篇帖子: 标题:高级测试,这段代码的输出是什么? http://bbs.chinaunix.net/viewthread.php?tid=244249 请写出下面代码的输出,并说明为什么?
其实,这个问题只要了解三个方面的知识,就很好解释了 1. printf是基于标准I/O的, 字符串"Hello"被送到内核之前,是会放到标准I/O的缓冲区的, 而这个缓冲区是位于用户进程空间的. 2. fork()语句会把用户进程空间完整的复制一遍,生成子进程 的用户进程空间,这期中当然包括标准I/O的缓冲区,以及指向该 缓冲区的_IO_write_base, _IO_write_prt等指针. 3. 因为printf是向标准输出输出字符串,所以它用的是行缓冲. 行缓冲被flush的条件是: (a) 一行结束(比如后面有"n"),或者 (b) 缓冲区已满,或者 (c) 需要从内核读取数据 上面3个条件都不满足,所以在调用fork的时候,缓冲区并未被flush, 所以被一并拷给了子进程. 所以,上面的程序的输出会是父进程和子进程分别输出一次Hello 一旦将printf("Hello");换成printf("Hellon");效果就不一样了 因为有了"n",在fork之前,标准I/O的缓冲区就以及被flush了. 下面的代码打印了fork之后,缓冲区的内容
Sorehead 回复于:2007-08-29 14:14:51 ypxing真辛苦,赞一个,向你学习 ypxing 回复于:2007-08-29 17:35:14 谢谢, 谢谢:lol: 引用:原帖由 Sorehead 于 2007-8-29 14:14 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7280128&ptid=982604]
ypxing真辛苦,赞一个,向你学习 | ||||||||||||
原文链接:http://bbs.chinaunix.net/viewthread.php?tid=982604 转载请注明作者名及原文出处 | ||||||||||||













文章评论
共有 位网友发表了评论 查看完整内容