PVE 集群存储“四选一”:一张评分表看懂本地、NFS、iSCSI、Ceph 谁最香
开场 3 秒:把镜头对准“崩溃现场”
凌晨 1:47,苏州某外贸公司机房。
“叮——”手机警报:Proxmox 集群节点 2 离线。
老板在群里 @所有人:“明早 8 点要给客户做演示,系统必须在线!”
运维小哥阿斌一边叫网约车,一边远程连 VPN——结果发现 VM 全部飘红:
“本地 RAID5 阵列崩了,ZFS pool 状态 FAULTED,30 台虚拟机打不开了……”
第二天,老板拍板:把存储从“本地 RAID”换成“共享高可用”。
于是,就有了今天这篇文章——帮你在存储选型阶段,就避开阿斌踩过的坑。
01 先上结论:一句话记住 4 种存储
02 三维评分表:IOPS × 成本 × 高可用
(满分 5★,基于 3 节点家用/小集群实战,云大厂请随意拉高)
注:Ceph 成本“★★”看似不低,但按每 TB 可用空间算,纠删码+旧矿盘能把价格打到与 RAID 持平,还能顺带实现“异地三中心”梦想。
03 对号入座:4 个真人故事,看完秒懂
① 本地 ZFS:家用 All-in-One,预算 2 k 元
主角:深圳程序员小郭,家里 1 台 5600X + 32 GB + 2×1 TB NVMe
需求:黑群晖+Win11 开发机+软路由,偶尔停电
方案:
• 两块 NVMe 组 ZFS Mirror,打开压缩+每日快照 • UPS 撑 20 分钟,来电自动开机
结果:• CrystalDiskMark 连续读 3.5 GB/s,Win11 开机 7 秒 • 误删代码 1 小时,回滚快照 30 秒找回,“比 Git 还快”
隐患:• 主板炸了就全完——小郭把重要数据再 rsync 到移动硬盘,1 分钟脚本定时跑
② NFS:小公司共享 ISO,预算 0 元
主角:成都初创 5 人团队,3 台 R620,1 台 2015 年群晖 DS216
需求:测试环境要随时挂 ISO、传镜像
方案:
• 群晖开 NFS,3 台 PVE 挂同一目录 /mnt/pve/iso• 千兆网,MTU 1500,async
结果:• 开发把 Win2022 镜像传进去,3 台节点同时可见,省得来回 scp
踩坑:• 有一次同时起 20 台 VM 装系统,NFS 延迟飙到 800 ms,装机卡在“Starting Windows”——后来把 ISO 缓存到本地 SSD 才解决
③ iSCSI:数据库要“块设备”,预算 1 w 元
主角:南京跨境电商,跑 MariaDB+Redis,夜里订单高峰
需求:双节点 HA,RPO<5 min,预算有限
方案:
• 用两台二手 R730 做 Target,每台 6×800 GB SAS SSD, RAID10 • 10 Gb 网卡做直连,多路径 round-robin• Pacemaker 做 Active/Standby,主 Target 挂掉 30 秒内切到备
结果:• TPS 从 3 k 提到 8 k,主库宕机一次,VIP 漂移 18 秒,订单零丢失
注意:• 千万别把 Target 和 PVE 节点混在一台物理机——宿主机宕机等于连存储一起带走
④ Ceph:未来要扩到 10 节点,老板要 0 RPO
主角:上海生物测序公司,数据量每年 50 TB 递增
需求:可横向扩容,硬盘随便坏,业务不停
方案:
• 3 节点起步,每节点 2×1 TB NVMe(DB/WAL)+ 6×8 TB SATA(OSD) • 25 Gb 光纤+交换机,纠删码 4+2,可用空间 72 TB • 每天夜间 Scrub,每周 Balancer 自动重均衡
结果:• 随机写 IOPS 58 k,顺序读 2.2 GB/s • 故意拔盘 2 块,业务无感知,PG 状态从“active+clean”到“active+remapped” 90 秒恢复
吐槽:• 前期烧钱——光 25 Gb 交换机就 1.2 w,但老板算了一笔账:
“以前买 EMC 存储 60 w,现在 10 w 搞定,还能年年加硬盘,真香!”
04 避坑速记 7 句话
1. 本地盘再快,也别把生产 VM 的备份放同一节点——火会连根烧。 2. NFS 写数据库,记得加 async=false+ 10 Gb 网,否则“commit 1 秒”变“commit 30 秒”。3. iSCSI 多路径不开,双交换机也救不了单点 Target。 4. Ceph 的“PG 数”不是玄学,用官网计算器一步到位,别拍脑袋——后期重均衡比分手还痛。 5. 千兆网络别碰 Ceph,否则你会见到“900 MB/s 读变成 90 MB/s”的奇迹。 6. 别把 Ceph OSD 和 VM 放在同一块盘,OSD 抢 IO 能把虚拟机卡成 PPT。 7. 无论哪种共享存储,“三备份”原则不能省:本地快照+异地备份+离线冷备,少一步,半夜睡觉都不香。
05 一张架构拓扑
┌------------- 10 Gb 交换机 ---------------┐
│ │
│ PVE1 ◄---------┐ │
│ │ NFS / iSCSI / Ceph │
│ PVE2 ◄---------┤ Public Network │
│ │ │
│ PVE3 ◄---------┘ │
│ │
│ [Ceph] 单独 25 Gb RDMA 网络 ◄---------┤
│ │
│ NAS / Target / Ceph MON+OSD │
└-----------------------------------------┘06 写在最后
选存储跟选对象一样:没有完美,只有“现阶段最适合”。
本文链接:https://www.jingber.cn/post/3923.html 转载需授权!

微信扫一扫,打赏作者吧~