深信服EDS分布式高性能存储

发布人:贝为科技 发布日期:2024-11-01

挑战分析

数字时代,千行百业与大数据、云计算、AI、5G 等新兴科技加速融合,业务日趋多样,随之催生了多元化的存储需求,向传统存储发起了挑战: 存储性能不足,无法满足生产级应用

传统阵列存储架构性能动力受限于控制器,无法提供高吞吐的带宽能力和小 文件并行访问能力,在文件规模较大时性能衰减严重,严重影响上层业务。

国内分布式存储厂商大多基于开源 Ceph,文件性能从架构层面难以提升,其元数据服务性能参差不齐,并不具备可商业化生产承载能力。 无法承受数据激增的挑战

传统存储在扩容时仅能以磁盘柜的形态进行扩容,受限于控制器瓶颈,越扩展 性能越差,不断新购的阵列无法统一命名空间,管理成本剧增,数据不流动成 为孤岛。

传统存储和大部分布式存储存在厂商绑架的情况,数据迁移和维保等服务垄 断费用很高,在硬件寿命到期后,软件还需重复付费,不合理的溢价导致扩展成本居高不下。不同行业存储要求差异大,对兼容性的要求高

不同行业的生产环境数据操作差异大,上层应用多样,对协议的支持要求高。

面向不同行业生产场景的业务负载,如“小文件低并发”、“元数据高并发”和 “大文件高吞吐”和“混合负载”等对存储性能有差异化诉求。


产品概述


深信服 EDS 基于软件定义存储的思路,采用自研的全对称分布式存储架构,充分释放存储介质的性能,使用通用服务器 组建可横向扩展的存储资源池,通过 NVMe 或 SATA 固态盘构建高性能层,机械盘构建大容量层,实现冷热数据自动智能 分层,并针对不同行业的业务存储特点进行深度适配,提供软硬一体化交付或纯软两种方式,一个平台同时支持块、文件、 对象多种存储服务。

b48cffb662597f8e3ef0caddb42b4bea[1].png

产品定位


深信服 EDS 面向数字化生产应用提供高性能文件存储,能支持混合 IO 负载,兼具大小文件能力,应用场景深度适配行业,轻 松超越应用所需。

41698b0dd923c12958d3c9fb32dc9751[1].png


产品优势


8c6fd254919f6f547567bc748025cdce[1].png


不同于 Ceph 系架构的容量型分布式存储,开源架构研发门槛低,主要面向第二存储等边缘型场景,深信服 EDS 采用全自 研高性能场景,通过清晰的分层设计优化存储路径,充分释放介质性能。


eb325a25c29e4c9d1e5e6ba1dcf00f7c[1].png

创新技术

EDS 通过自研高性能文件系统实现在小文件、大文件或混合负载下的更高性能,支撑数据生产业务的高效运行,并具备以 下创新技术:

871e653e781f3754c0ef4194ec39ecd4[1].png

巨量智能元数据能力

矩阵式存储算法:EDS通过自研的矩阵式存储算法提升内存中元数据的规模,4GB内存可缓存700万文件的元数据,在同样大 小的内存空间,EDS可缓存的元数据规模是Ceph系产品的7倍,大幅提升元数据命中率。

自研元数据库:EDS通过自研分布式元数据库PhxKV管理元数据,较开源通用KV数据库(MangoDB等)提升50%以上,并支持 元数据处理能力横向扩展。

多活元数据服务:EDS在每个存储节点部署4个MDS,并通过目录HASH的方式将目录请求打散分布到各个MDS上,充分发挥 各个节点的计算性能,实现MDS多并发和元数据服务的横向扩展能力。

全局 IO 动态整合

动态读写缓存:根据业务比例动态调整读写缓存大小,保障最优的IO性能。

IO智能排序整理:EDS将写IO在性能层进行智能排序整理后再追加写入容量层,解决容量使用超过80%时GC垃圾回收挤占导 致性能下降问题。

介质亲和写:EDS通过数据聚合后追加写,解决小文件放大导致的空间浪费问题,并可充分利用机械盘顺序写的性能优势,提 升数据回写性能。

自适应三级缓存

业务专有客户端:EDS通过业务专有客户端,将计算服务器内存转换成一级缓存,数据和元数据就近访问,实现us级访问时延。

启发式内存预读:EDS通过启发式预读机制提升元数据的内存命中率,在AI训练等场景(海量小文件全目录随机读场景)下,保持90%以上的元数据命中率,不会出现Ceph由于完整加载目录,导致热数据被挤出内存性能下降的问题。

高性能分层驻留:客户端从EDS读取数据,命中高性能分层即返回数据,并利用缓存热力图算法判断数据热度。

协议增强支持

CIFS协议增强:EDS在协议网关上进行CIFS语义合并,避免元数据操作放大,同时支持锁语义避免多客户端并发写导致的文件 损坏。

分布式一致性协议:通过FAST_RAFT协议,让数据写的网络时延低至20us。

全路径RTC技术:消除不必要的内存拷贝,核级线程时间片技术,让数据读写的软件时延低至15us。


应用场景

高性能文件存储

EDS 可为计算平台提供高性能文件存储服务,支持业务专有客户端,兼容 POSIX 语义,通过智能分层技 术优化数据的存储架构,通过数据压缩优化存储空间,助力提升企业效益。

典型场景:芯片设计、3D 设计、医疗 PACS、基因测序等。

非结构化数据存储

EDS 利用标准服务器构建存储资源池,利用软件能力实现存储集群管理、存储资源的按需分配、存储数 据的监控与运维管理。EDS 支持 5000 节点集群扩展,EB 级存储空间扩容,可满足未来海量非结构化数 据的存储需求。EDS 在进行新老设备替换时可实现数据自动迁移,通过设备调度算法可实现 1T/30min 的数据迁移速度,无需人工干预即可快速自动完成,降低人为操作迁移时造成的数据和业务安全风险。

典型场景:AOI、地理测绘、多媒体影视等。

统一存储

一套 EDS 存储可同时提供块、文件、对象存储服务,满足用户多样存储需求,为用户节省存储成本。 EDS 逻辑资源池可实现按需灵活分配,可实现分钟级创建存储资源池,支持全自动化扩展,新增磁盘或 节点时,存储系统可实现自动识别和纳管,扩展全程业务系统无感知,保障稳定运行。

典型场景:私有云业务中心、多应用混合业务场景。


性能指标


EDA 业务负载与存储性能(典型元数据密集型业务)

846015b3bc47b4e7808fe3394a43ea9a[1].png


代码编译及 EDA 前端设计阶段需从数亿级别的文件规模里随机读写数百万个 KB 级别的源文件,这些源文件所在的目录深 度通常可以达到 13~14 层,在 EDA 业务场景下,访问海量小文件产生的元数据读写占比超过 60%,元数据 OPS 要求高达数 十万甚至至数百万。

d4cae45a2ac586a179969097bbb9a421[1].png

医疗 PACS 业务负载与存储性能(典型小文件密集型业务)

医学影像帮助医生进行更精确的诊断辅助,是对许多疾病进行诊断的重要参考。在所有的拍片设备中,CT 设备数量较多、拍 片频次也比较高。一个病人一次 CT 的数据量约 600-3000 张图片,每张大小 517KB,是典型的小文件密集型场景。  深信服 EDS 在承载常见的千兆 PACS 网络环境阅片任务时,阅片速度可达 150 张 / 秒,当数十台客户端并发阅片时性能也保 持稳定。阅片性能相比于国际品牌要高出 50%,几乎达到了客户对于全闪存储的预期;在模拟万兆环境 PACS 服务器多并发 调阅和数据迁移的测试时,小文件性能可达友商的 5 倍,使用专有客户端后会有超过 10 倍的性能提升。 此外,EDS 在与三家头部 PACS 厂商的兼容性测试中,针对专家提出的严苛的性能测试用例,即当存储使用容量达到 80% 时 阅片性能是否稳定,EDS 得益于架构设计依然保持稳定一致,得到了合作伙伴的高度肯定。


eb9b4b68cfe68f6ebb502594ecc50588[1].png

视频编辑业务负载与存储性能(典型高吞吐业务)

专业的视频处理对分辨率、特效、光影、色彩等要求更高,会依赖更专业的软件进行处理,并需要多站点分工协作完成。EDS 支 持文件共享,支持对接 Windows/Mac 平台进行视频存储,并能支持视频编辑业务的高吞吐要求。

在非编集成商的联合测试中,EDS 对比国外知名厂商,能够支持更多的高清 4K 的视频流层数,可以支持更高分辨率、更大规 模团队的视频生产制作。

d75612af541525cb3ffac8bba29a8547[1].png


测绘业务负载与存储性能(典型混合负载业务)

对于遥感、倾斜、激光雷达等多源异构数据的处理,通常是大文件高吞吐、元数据高并发和小文件密集型兼具的混合负载模 型,得益于 EDSV5 架构的优秀性能,EDS 可以在实景三维的全应用、全业务流程保持高性能表现,比如在航片导入相比于友 商提升 2 倍多的大文件吞吐,三维建模场景的小文件效率可接近于本地 NVMe SSD,CASS3D 在线打开海量小文件组成的三 维成果数据耗时相比于某阵列 NAS 缩短 8 倍以上。

35b47206968b5d4e7dc3cdb186ba07f6[1].png

fixed 无