PVE 集群存储“四选一”：一张评分表看懂本地、NFS、iSCSI、Ceph 谁最香

开场 3 秒：把镜头对准“崩溃现场”

凌晨 1:47，苏州某外贸公司机房。

“叮——”手机警报：Proxmox 集群节点 2 离线。

老板在群里 @所有人：“明早 8 点要给客户做演示，系统必须在线！”

运维小哥阿斌一边叫网约车，一边远程连 VPN——结果发现 VM 全部飘红：

“本地 RAID5 阵列崩了，ZFS pool 状态 FAULTED，30 台虚拟机打不开了……”

第二天，老板拍板：把存储从“本地 RAID”换成“共享高可用”。

于是，就有了今天这篇文章——帮你在存储选型阶段，就避开阿斌踩过的坑。

01 先上结论：一句话记住 4 种存储

类型	一句话人设	先别碰的场景
本地 ZFS	单机性能王，快照克隆玩得溜	多节点 HA、热迁移
NFS	3 分钟搭完，共享目录人见人爱	高并发数据库、低延迟 OLTP
iSCSI	块设备直插，数据库最爱	多节点同时写，需要额外 HA
Ceph	横向扩展“永动机”，坏 2 台节点也面不改色	网络低于 10 Gb、预算 0 运维

02 三维评分表：IOPS × 成本 × 高可用

（满分 5★，基于 3 节点家用/小集群实战，云大厂请随意拉高）

存储方案	IOPS 性能	综合成本	高可用	总评
本地 ZFS	★★★★☆（单 NVMe 破 100 k）	★★★★☆（硬盘钱就是全部）	★☆☆☆☆（节点挂=VM 挂）	9★
NFS	★★☆☆☆（千兆网≈110 MB/s）	★★★★★（旧 NAS 就能跑）	★★☆☆☆（单点故障，手动切换）	9★
iSCSI	★★★★☆（10 Gb 网可跑满 SSD）	★★★☆☆（Target 机器+网络）	★★★☆☆（双 Target 可 Active/Standby）	11★
Ceph	★★★★★（3 副本随机写 50 k+）	★★☆☆☆（SSD+万兆+额外 CPU）	★★★★★（坏 2 节点业务不停）	13★

注：Ceph 成本“★★”看似不低，但按每 TB 可用空间算，纠删码+旧矿盘能把价格打到与 RAID 持平，还能顺带实现“异地三中心”梦想。

03 对号入座：4 个真人故事，看完秒懂

① 本地 ZFS：家用 All-in-One，预算 2 k 元

主角：深圳程序员小郭，家里 1 台 5600X + 32 GB + 2×1 TB NVMe
需求：黑群晖+Win11 开发机+软路由，偶尔停电
方案：

• 两块 NVMe 组 ZFS Mirror，打开压缩+每日快照
• UPS 撑 20 分钟，来电自动开机
结果：
• CrystalDiskMark 连续读 3.5 GB/s，Win11 开机 7 秒
• 误删代码 1 小时，回滚快照 30 秒找回，“比 Git 还快”
隐患：
• 主板炸了就全完——小郭把重要数据再 rsync 到移动硬盘，1 分钟脚本定时跑

② NFS：小公司共享 ISO，预算 0 元

主角：成都初创 5 人团队，3 台 R620，1 台 2015 年群晖 DS216
需求：测试环境要随时挂 ISO、传镜像
方案：

• 群晖开 NFS，3 台 PVE 挂同一目录 /mnt/pve/iso
• 千兆网，MTU 1500，async
结果：
• 开发把 Win2022 镜像传进去，3 台节点同时可见，省得来回 scp
踩坑：
• 有一次同时起 20 台 VM 装系统，NFS 延迟飙到 800 ms，装机卡在“Starting Windows”——后来把 ISO 缓存到本地 SSD 才解决

③ iSCSI：数据库要“块设备”，预算 1 w 元

主角：南京跨境电商，跑 MariaDB+Redis，夜里订单高峰
需求：双节点 HA，RPO<5 min，预算有限
方案：

• 用两台二手 R730 做 Target，每台 6×800 GB SAS SSD， RAID10
• 10 Gb 网卡做直连，多路径 round-robin
• Pacemaker 做 Active/Standby，主 Target 挂掉 30 秒内切到备
结果：
• TPS 从 3 k 提到 8 k，主库宕机一次，VIP 漂移 18 秒，订单零丢失
注意：
• 千万别把 Target 和 PVE 节点混在一台物理机——宿主机宕机等于连存储一起带走

④ Ceph：未来要扩到 10 节点，老板要 0 RPO

主角：上海生物测序公司，数据量每年 50 TB 递增
需求：可横向扩容，硬盘随便坏，业务不停
方案：

• 3 节点起步，每节点 2×1 TB NVMe（DB/WAL）+ 6×8 TB SATA（OSD）
• 25 Gb 光纤+交换机，纠删码 4+2，可用空间 72 TB
• 每天夜间 Scrub，每周 Balancer 自动重均衡
结果：
• 随机写 IOPS 58 k，顺序读 2.2 GB/s
• 故意拔盘 2 块，业务无感知，PG 状态从“active+clean”到“active+remapped” 90 秒恢复
吐槽：
• 前期烧钱——光 25 Gb 交换机就 1.2 w，但老板算了一笔账：
“以前买 EMC 存储 60 w，现在 10 w 搞定，还能年年加硬盘，真香！”

04 避坑速记 7 句话

1. 本地盘再快，也别把生产 VM 的备份放同一节点——火会连根烧。
2. NFS 写数据库，记得加 async=false + 10 Gb 网，否则“commit 1 秒”变“commit 30 秒”。
3. iSCSI 多路径不开，双交换机也救不了单点 Target。
4. Ceph 的“PG 数”不是玄学，用官网计算器一步到位，别拍脑袋——后期重均衡比分手还痛。
5. 千兆网络别碰 Ceph，否则你会见到“900 MB/s 读变成 90 MB/s”的奇迹。
6. 别把 Ceph OSD 和 VM 放在同一块盘，OSD 抢 IO 能把虚拟机卡成 PPT。
7. 无论哪种共享存储，“三备份”原则不能省：本地快照+异地备份+离线冷备，少一步，半夜睡觉都不香。

05 一张架构拓扑

┌------------- 10 Gb 交换机 ---------------┐
│                                         │
│  PVE1 ◄---------┐                      │
│                 │ NFS / iSCSI / Ceph    │
│  PVE2 ◄---------┤  Public Network       │
│                 │                      │
│  PVE3 ◄---------┘                      │
│                                         │
│  [Ceph] 单独 25 Gb RDMA 网络 ◄---------┤
│                                         │
│  NAS / Target / Ceph MON+OSD            │
└-----------------------------------------┘