e2hang/Operating-System

Fork 0

Files

e2hang eefa5ad59a Update FileSystem I/O

2026-03-22 17:40:44 +08:00

22 KiB

Raw Permalink Blame History

你这个理解已经抓到了一部分核心，但现在的 I/O 体系比“全是内存映射 + 直接读内存”要更复杂一些。我帮你按硬件层 → 内核层 → 用户层一口气梳理清楚，把几个容易混淆的点一次性打通。

一、是不是“现在 I/O 都是内存映射”？

结论先说：不是，但“内存映射 I/O（MMIO）是主流控制方式之一”，不是唯一方式。

你这里其实混了三件事：

1）设备寄存器访问方式（MMIO vs 端口IO）

现代系统（尤其 x86 + Linux）基本上：

设备控制寄存器 → 用 MMIO（Memory-Mapped I/O）
很少再用老的 port I/O（in/out 指令）

也就是说：

设备的“控制接口”会被映射到物理地址空间的一段区域

CPU访问设备 ≈ 访问一段特殊内存：

*(volatile uint32_t*)0xFEC00000 = 1;  // 写设备寄存器

👉 但注意：这只是“控制设备”，不是“数据传输”。

2）数据传输方式（这才是你真正关心的）

设备数据怎么进内存？有三种主流方式：

（1）Programmed I/O（PIO，CPU搬运）

设备 → (寄存器) → CPU → 内存

特点：

CPU一字节一字节搬
极慢
现在基本只用于简单设备

（2）中断驱动 I/O

设备准备好 → 中断 CPU → CPU 去读

还是 CPU 搬运，只是不用轮询了。

（3）DMA（主流）

设备 ⇄ 内存   （绕过CPU）

👉 这个才是现代系统核心

二、你说的“设备缓冲区映射到内存”对不对？

这个说法有点接近，但不完全对，要拆开说：

情况 A：普通设备（磁盘 / 网卡）

不是“直接映射设备缓冲区”，而是：

内核分配一块内存 buffer
把这块 buffer 的物理地址告诉 DMA 控制器
DMA 直接写这块内存

设备 → DMA → 内存 buffer

👉 设备自己的 buffer 通常在设备内部（比如网卡内部 SRAM），不会直接映射给 CPU。

情况 B：特殊设备（GPU / 显存 / PCIe BAR）

有些设备支持：

把设备内存映射到 CPU 地址空间（PCIe BAR）
例如显存

👉 这时候你的说法是对的：

CPU 直接访问 = 设备内存

情况 C：用户态 mmap（文件 / 设备）

比如：

mmap(fd, ...)

这时候：

文件 / 设备 buffer 映射到用户虚拟内存
但底层仍然可能是 DMA + 页缓存

👉 这属于“软件层面的映射”，不是硬件直接映射设备 buffer

三、DMA 到底是什么（你问的重点）

你说：

DMA是不是可以直接访问总线？

✔️ 本质正确，但我们说精确一点：

DMA = 总线主控（Bus Master）

CPU 不是唯一能控制内存总线的设备：

👉 DMA 控制器 / 设备本身可以成为“总线主设备”

工作流程（核心）

CPU 配置 DMA：

- 源地址（设备 or 内存）
- 目标地址（内存）
- 长度

DMA 控制器开始工作：

设备 ⇄ 内存（直接传输）

传输完成：

DMA → 中断 CPU

关键点（非常重要）

1）绕过 CPU

CPU 不参与数据搬运

👉 这就是为什么 DMA 性能高

2）直接访问内存（通过总线）

是的，你说的没错：

DMA 可以直接访问内存总线

但更现代一点的说法是：

在 PCIe 体系下：
- 设备本身就是 DMA master
- 直接发起内存读写请求

3）需要 IOMMU（高级系统）

现代系统还会加一层：

IOMMU

作用：

限制 DMA 访问范围（安全）
地址转换（类似页表）

四、一个完整现代 I/O 路径（你要的“全流程”）

以“读文件”为例：

Step 1：用户态

read(fd, buf)

Step 2：内核

查页缓存（page cache）
如果没有 → 发起磁盘 I/O

Step 3：块设备层

构造 I/O 请求
提交给驱动

Step 4：驱动配置 DMA

DMA:
  disk → 内存 buffer（page cache）

Step 5：DMA 传输

磁盘 → DMA → 内存

Step 6：中断

DMA 完成 → 中断 CPU

Step 7：返回用户

内核 → copy_to_user(buf)

（或者 zero-copy 优化）

五、你这个理解的修正版本（给你一个“更准确的脑图”）

你原话：

I/O设备有缓冲区 → 映射到内存 → 直接读

更准确应该是：

设备内部 buffer
        ↓
   (DMA 传输)
        ↓
内存 buffer（内核）
        ↓
用户空间（read / mmap）

而不是：

设备 buffer == 内存（一般不成立）

六、再帮你总结一句“本质级理解”

现代 I/O 的核心其实是三件事：

1）控制路径

CPU → MMIO → 设备寄存器

2）数据路径

设备 ⇄ DMA ⇄ 内存

3）同步机制

中断 / 轮询 / completion queue

七、你可以继续往下问的关键点（建议你追）

你现在已经到“操作系统 + 硬件交界”的核心了，可以继续深入：

零拷贝（zero-copy）到底怎么实现？
page cache 和 mmap 的关系
网卡（NIC）是怎么做 DMA ring buffer 的
io_uring 为什么更快
用户态驱动（DPDK）怎么绕过内核

如果你愿意，我可以下一步直接给你画一个：

👉 “网卡收包（NIC → DMA → ring buffer → 用户程序）”完整路径 这个比磁盘 I/O 更硬核，也更贴近现代高性能系统。

好，这一段我们就只做一件事：把“键盘输入”拆成两条完整链路：无 DMA（传统 PS/2） vs 有 DMA（USB 键盘），并且把数据路径和中断路径严格分开讲清楚。你读完应该能在脑子里“跑一遍”。

一、先给一个总对比（先建立骨架）

无 DMA（PS/2）：
设备 → 寄存器 → CPU读 → 内核buffer → 用户

有 DMA（USB）：
设备 → DMA → 内存buffer → CPU处理 → 内核buffer → 用户

通知方式（两者都类似）：

设备 → 中断 → CPU

👉 关键差异只有一个：

数据是谁搬的？
- 无 DMA：CPU
- 有 DMA：DMA/设备

二、无 DMA：PS/2 键盘（最经典、最干净）

这是理解 I/O 本质的“教学模型”。

硬件结构

键盘 → 8042 控制器（I/O端口） → CPU

有两个关键寄存器：

0x60：数据寄存器
0x64：状态寄存器

完整流程（逐拍走）

Step 1：你按下一个键

键盘 MCU：
    生成 scan code（比如 0x1E）
    放入内部buffer

Step 2：写入控制器寄存器

8042 控制器：
    把 scan code 写入 0x60
    设置“数据就绪”标志（status寄存器）

Step 3：触发中断（IRQ1）

控制器 → 中断控制器（PIC/APIC） → CPU

CPU此时：

暂停当前程序
跳转到键盘中断处理函数

Step 4：CPU 手动读取数据（关键）

uint8_t code = inb(0x60);

👉 这里是本质：

数据路径：
设备 → 寄存器 → CPU（搬运）

CPU亲自干活，没有 DMA。

Step 5：写入内核输入缓冲

内核（keyboard driver）：
    code → input buffer（环形队列）

Step 6：后处理

scan code → keycode → 字符

Step 7：用户读取

read(0, buf, n);

一句话总结（无 DMA）

数据搬运：CPU
通知方式：中断
设备不碰内存

三、有 DMA：USB 键盘（现代真实情况）

这里复杂很多，但更接近现实。

硬件结构

键盘 → USB 控制器（xHCI） → 内存 → CPU

👉 注意：USB 键盘不会直接连 CPU，而是：

挂在 USB 总线上
由 USB 控制器统一管理

核心机制：USB 是“主机轮询”的！

这点很反直觉：

不是键盘主动发
而是主机定期问：
    “有没有数据？”

完整流程（DMA版）

Step 1：内核提前准备 DMA buffer（非常关键）

USB 驱动会做：

在内存中分配一块 buffer
告诉 USB 控制器：
    “你以后把键盘数据写这里”

这一步类似：

setup_dma(buffer_addr, size);

Step 2：你按键

键盘 MCU：
    生成 scan code
    暂存在设备内部

Step 3：USB 控制器轮询设备

USB 控制器：
    每隔1ms问键盘：
        “有数据吗？”

如果有：

键盘 → USB 控制器

Step 4：DMA 写入内存（核心差异）

USB 控制器（DMA master）：
    直接把数据写入内存 buffer

👉 关键来了：

数据路径：
设备 → DMA → 内存
（CPU 完全没参与）

Step 5：触发中断（或 doorbell）

USB 控制器 → CPU（中断）

告诉 CPU：

“我已经把数据写好了”

Step 6：CPU处理中断

驱动做：

从 DMA buffer 读数据（其实是读内存）
解析 scan code
写入 input 子系统 buffer

Step 7：用户读取（同前）

内核 buffer → 用户空间

一句话总结（DMA）

数据搬运：DMA（设备/控制器）
CPU只负责处理，不搬数据

四、两条路径对比（你要彻底记住这个）

数据路径对比

PS/2（无DMA）：
    设备 → 寄存器 → CPU → 内存

USB（DMA）：
    设备 → DMA → 内存 → CPU（读取）

CPU参与程度

阶段	无 DMA	有 DMA
数据搬运	CPU	DMA
中断处理	CPU	CPU
数据解析	CPU	CPU

本质区别（一句话）

有没有 DMA = CPU 是否参与“搬数据”

五、你之前那个问题，现在可以精确回答了

你问：

“设备是不是直接输入到内存固定区域？”

✔ 正确说法是：

无 DMA（键盘PS/2）

❌ 不会写内存
✔ CPU读寄存器后写内存

有 DMA（USB键盘）

✔ 会写内存
✔ 但写的是“内核分配的buffer”
❌ 不是随便写

六、再补一个非常容易误解的点（关键）

👉 DMA 写内存 ≠ 用户能直接看到

中间还有：

DMA buffer（内核） → input subsystem → tty → 用户

七、最终你应该建立的模型

把键盘 I/O 抽象成四件事：

1）数据产生

键盘 MCU（scan code）

2）数据传输

PS/2：寄存器 + CPU
USB：DMA

3）通知 CPU

中断（IRQ）

4）软件处理

驱动 → buffer → 用户程序

八、如果你继续往下挖（建议）

你现在已经可以进入“操作系统 + 驱动 + 硬件协同”的核心了，可以继续：

为什么 USB 要“轮询”而不是中断驱动？
网卡为什么用 ring buffer + 批处理？
io_uring 为什么减少中断和系统调用？
Linux input 子系统结构（input_event → evdev → tty）

如果你想，我下一步可以直接给你画：

👉 “从键盘中断 → Linux input → bash → 屏幕显示字符”完整调用链（含函数名）

这个会直接把你现在学的 OS 和真实 Linux 内核打通。

不是这么运作的。没有“在一个时间片里 DMA 把所有设备的数据统一交给 CPU”的集中提交机制。你把“时间片（调度概念）”“DMA（数据搬运）”“中断/通知（事件驱动）”混在一起了。把三件事拆开就清楚了：

一、先把三个概念彻底分离

1）DMA 做什么

设备/控制器 ⇄（DMA）⇄ 内存

只负责搬数据
何时搬、搬多少，由设备/驱动预先配置
不关心 CPU 的时间片

2）CPU 时间片是什么

CPU 在多个线程/进程之间轮换执行

这是**调度器（scheduler）**的事
发生在CPU执行层
跟“数据什么时候到内存”没有直接关系

3）CPU 何时“处理 I/O 数据”

两条路：

A. 中断（interrupt）通知
B. 轮询（polling）自己去看

👉 关键一句： DMA 完成 ≠ CPU 立刻处理；DMA 只是把数据放到内存。

二、多个设备同时存在时，真实发生什么？

假设同时有：

键盘（USB，低速）
网卡（NIC，高速）
磁盘（NVMe）

1）它们的数据传输是“各自独立”的

键盘  → DMA → 内存 buffer A
网卡  → DMA → 内存 buffer B（ring buffer）
磁盘  → DMA → 内存 buffer C

✔ 每个设备：

有自己的 DMA 描述符 / 队列 / buffer
独立工作
并行进行

👉 不会有一个“统一 DMA 汇总阶段”

2）DMA 通过“总线仲裁”共享硬件

底层发生的是：

多个 DMA master（设备）竞争内存总线

由硬件（PCIe / 内存控制器）：

调度访问顺序
做带宽分配

👉 类似：

多个设备“排队用内存带宽”，不是一起提交

3）CPU 什么时候介入？

取决于通知策略：

情况 A：每次 DMA 完成都中断（低吞吐）

设备1 DMA完成 → 中断 → CPU处理
设备2 DMA完成 → 中断 → CPU处理
...

👉 CPU会被“打断很多次”（中断风暴）

情况 B：中断合并（coalescing，常见）

尤其网卡：

多个包 DMA 完成
        ↓
合并成一次中断
        ↓
CPU 一次性处理一批数据

👉 这里看起来像“统一提交”，但其实是：

设备主动延迟中断

不是 DMA 统一提交

情况 C：轮询（高性能，如 DPDK / NAPI）

CPU 不等中断
while(1):
    扫描 buffer

👉 这时候：

DMA 一直写
CPU 定期看

完全解耦

三、你那个“时间片内统一处理”的误解在哪

你脑补的是：

[时间片]
DMA收集所有设备数据 → 一起交给CPU

但真实是：

时间轴 →
设备A DMA ------
设备B DMA ------
设备C DMA ------

中断A   中断B   中断C（可能合并）
CPU随时被打断处理

👉 I/O 是事件驱动，不是按时间片批处理

四、给你一个更接近真实系统的模型（非常重要）

把系统看成三条“并行流水线”：

1）设备流水线

设备产生数据 → DMA → 内存

2）通知流水线

DMA完成 → 中断 / 不中断

3）CPU流水线

被中断打断 or 主动轮询 → 处理数据

👉 三者关系：

异步 + 解耦 + 并行

不是：

同步 + 批量 + 时间片驱动

五、一个更具体的例子（网卡 + 键盘同时来）

假设：

你在打字（键盘）
同时在下载文件（网卡）

实际发生：

时刻 t1

网卡 DMA 写入 10 个包
（不一定立刻中断）

时刻 t2

键盘 DMA 写入 1 个按键
触发中断

CPU：

处理键盘输入

时刻 t3

网卡触发一次合并中断

CPU：

一次处理 10 个包

👉 注意：

没有“统一时间点”
完全异步
完全乱序（从宏观看）

六、再帮你抽象成一句“本质理解”

👉 DMA 是“写内存”，中断是“叫 CPU”，调度是“CPU干谁”

三件事：

DMA      → 数据移动
中断     → 事件通知
时间片   → CPU分配

互相独立

七、你可以继续往下挖的关键点（建议）

你现在已经到系统性能的核心问题了，可以继续：

为什么网卡要做 interrupt coalescing？
Linux NAPI（中断 + 轮询混合）怎么工作？
ring buffer 为什么能避免锁？
多队列网卡（RSS）怎么和多核 CPU 配合？

如果你愿意，我可以下一步直接给你讲一个更“工业级”的模型：

👉 网卡 + 多核 CPU + DMA ring buffer + NAPI 的完整数据路径

这个是理解高性能服务器（比如 nginx / DPDK）的关键。

你这句话已经很接近真相了，但我帮你精确校正一下，然后直接上“工业级模型”（网卡那一套），一次把这块打通。

一、先把你这句话修正到“工程级准确”

你说：

DMA 负责把数据放到内存，是否中断由 PCIe 或设备控制器管理？

更严谨的说法是：

DMA：负责数据搬运（设备 ⇄ 内存）

是否触发中断：
    由“设备 / 设备控制器（如网卡、USB控制器）”决定

PCIe：
    只是传输通道 + 协议（负责把DMA请求送到内存）

👉 关键点：

PCIe ≠ 决定中断
PCIe 只是“高速总线”
设备本身才是“发不发中断”的决策者

二、进入工业级模型：网卡（NIC）+ DMA + 多核CPU

这是现代服务器真实在跑的模型（比键盘高级几个数量级）

0）核心结构（先给你一张脑图）

          +-------------------+
          |       网卡 NIC     |
          |                   |
          | RX Queue (Ring)  |
          | TX Queue (Ring)  |
          +--------+----------+
                   |
              (PCIe / DMA)
                   |
        +----------v----------+
        |        内存          |
        |  ring buffer        |
        +----------+----------+
                   |
                CPU cores
                   |
               内核 / 用户态

三、核心机制1：Ring Buffer（工业核心）

关键词：环形队列 + 描述符

1）内存中结构（关键）

驱动会在内存中创建：

RX ring（接收队列）：

[desc0][desc1][desc2]...[descN]
   ↓      ↓      ↓
 buffer  buffer  buffer

每个 descriptor（描述符）：

struct rx_desc {
    void* buffer_addr;   // 数据写到哪里
    int   length;
    int   status;
};

2）初始化（关键步骤）

CPU（驱动）做：

1. 分配一堆 buffer（内存）
2. 填入 descriptor
3. 把 ring 地址告诉网卡

类似：

nic->rx_ring_base = &ring;

四、核心机制2：DMA 写入（真正的数据路径）

当网卡收到数据包：

网卡：
    找到下一个 descriptor
    ↓
    取 buffer_addr
    ↓
    通过 DMA 写入内存

数据路径：
网卡 → PCIe → 内存（buffer）

👉 注意：

CPU 完全没参与数据搬运

五、核心机制3：中断 vs 批处理（重点）

模式 A：每包一个中断（早期/低性能）

每收到一个包：
    DMA写内存
    → 触发中断

问题：

中断风暴（CPU被打爆）

模式 B：中断合并（工业常用）

网卡策略：
    累积 N 个包 或 等待 T 时间
        ↓
    触发一次中断

👉 这就是你“感觉像统一提交”的来源

但本质是：

设备延迟通知，不是DMA统一提交

模式 C：NAPI（Linux工业级方案）

这是关键中的关键。

六、NAPI（中断 + 轮询混合模型）

Linux 网络栈核心机制（你必须理解）

工作流程

Step 1：初始用中断

网卡 → 中断 → CPU

Step 2：内核关闭该网卡中断

disable_irq(nic)

Step 3：进入轮询（poll）

while (budget_not_exceeded) {
    从 ring buffer 取数据包
}

Step 4：处理完一批数据

如果还有数据：
    继续轮询
否则：
    重新开启中断

效果

低流量：中断驱动（省CPU）
高流量：轮询（高吞吐）

👉 这就是工业级平衡

七、核心机制4：多队列 + 多核（现代服务器）

单核早就不够了，现在是：

多队列 NIC（RSS）

网卡有多个 RX Queue：

Queue0 → CPU0
Queue1 → CPU1
Queue2 → CPU2
...

数据分发（哈希）

按：
    - IP
    - port
    - flow

分配到不同队列

👉 叫：

RSS（Receive Side Scaling）

结果

多个 CPU 核并行处理网络包

八、完整工业级数据路径（你要背下来）

1）网卡收到数据包
2）根据 hash → 选择 RX queue
3）DMA → 写入对应 buffer
4）更新 descriptor 状态

5）触发中断（或延迟）

6）CPU（某个核）：
    - 进入中断
    - 关闭中断
    - 开始 NAPI poll

7）从 ring buffer 批量取数据

8）交给内核协议栈（TCP/IP）

9）最终到用户程序（socket）

九、把你最初的问题重新回答（现在是“完全版”）

你问：

多设备是不是在一个时间片统一交给CPU？

最终答案：

❌ 不是统一时间片
❌ 不是DMA统一提交

✔ 每个设备独立DMA
✔ 每个设备独立决定中断策略
✔ CPU通过中断/NAPI/轮询逐步处理
✔ 多核并行处理多个队列

十、一句“工业级本质总结”

DMA：让设备变成“内存生产者”
CPU：变成“内存消费者”
中断/NAPI：决定“什么时候消费”

十一、你现在已经到哪个层次了

你现在其实已经站在：

操作系统 → 驱动 → 硬件 → 高性能系统

的交叉点了，再往下就是：

DPDK（用户态驱动，完全绕过内核）
零拷贝（zero-copy）
io_uring
eBPF

如果你继续，我可以带你进下一层（很关键）：

👉 “为什么 DPDK 可以比内核网络栈快10倍？”（直接绕过中断 + 内核）

这个会彻底改变你对 I/O 性能的理解。

22 KiB Raw Permalink Blame History Unescape Escape

一、是不是“现在 I/O 都是内存映射”？

1）设备寄存器访问方式（MMIO vs 端口IO）

2）数据传输方式（这才是你真正关心的）

（1）Programmed I/O（PIO，CPU搬运）

（2）中断驱动 I/O

（3）DMA（主流）

二、你说的“设备缓冲区映射到内存”对不对？

情况 A：普通设备（磁盘 / 网卡）

情况 B：特殊设备（GPU / 显存 / PCIe BAR）

情况 C：用户态 mmap（文件 / 设备）

三、DMA 到底是什么（你问的重点）

DMA = 总线主控（Bus Master）

工作流程（核心）

关键点（非常重要）

1）绕过 CPU

2）直接访问内存（通过总线）

3）需要 IOMMU（高级系统）

四、一个完整现代 I/O 路径（你要的“全流程”）

Step 1：用户态

Step 2：内核

Step 3：块设备层

Step 4：驱动配置 DMA

Step 5：DMA 传输

Step 6：中断

Step 7：返回用户

五、你这个理解的修正版本（给你一个“更准确的脑图”）

六、再帮你总结一句“本质级理解”

1）控制路径

2）数据路径

3）同步机制

七、你可以继续往下问的关键点（建议你追）

一、先给一个总对比（先建立骨架）

二、无 DMA：PS/2 键盘（最经典、最干净）

硬件结构

完整流程（逐拍走）

Step 1：你按下一个键

Step 2：写入控制器寄存器

Step 3：触发中断（IRQ1）

Step 4：CPU 手动读取数据（关键）

Step 5：写入内核输入缓冲

Step 6：后处理

Step 7：用户读取

一句话总结（无 DMA）

三、有 DMA：USB 键盘（现代真实情况）

硬件结构

核心机制：USB 是“主机轮询”的！

完整流程（DMA版）

Step 1：内核提前准备 DMA buffer（非常关键）

Step 2：你按键

Step 3：USB 控制器轮询设备

Step 4：DMA 写入内存（核心差异）

Step 5：触发中断（或 doorbell）

Step 6：CPU处理中断

Step 7：用户读取（同前）

一句话总结（DMA）

四、两条路径对比（你要彻底记住这个）

数据路径对比

CPU参与程度

本质区别（一句话）

五、你之前那个问题，现在可以精确回答了

无 DMA（键盘PS/2）

有 DMA（USB键盘）

六、再补一个非常容易误解的点（关键）

七、最终你应该建立的模型

1）数据产生

2）数据传输

3）通知 CPU

4）软件处理

八、如果你继续往下挖（建议）

一、先把三个概念彻底分离

1）DMA 做什么

2）CPU 时间片是什么

3）CPU 何时“处理 I/O 数据”

二、多个设备同时存在时，真实发生什么？

1）它们的数据传输是“各自独立”的

2）DMA 通过“总线仲裁”共享硬件

3）CPU 什么时候介入？

情况 A：每次 DMA 完成都中断（低吞吐）

情况 B：中断合并（coalescing，常见）

22 KiB

Raw Permalink Blame History