FalconFS: 针对深度学习训推流⽔线场景的⾼性能分布式⽂件系统
在深度学习场景下,⽂件元数据操作性能⼗分关键。由于负载的⼤⽬录随机访问特性,传统客户端缓存机制不仅⽆法提升性能,反⽽会占⽤宝贵的内存资源。我们提出采⽤⽆状态客户端的分布式⽂件系统 FalconFS,通过混合元数据索引与延迟复制机制将路径解析完全迁移⾄服务器端,从⽽消除客户端缓存需求;引⼊并发请求合并技术提升端侧元数据处理并发效率;设计 VFS 透明兼容实现⽆缝部署。FalconFS 在深度学习训练场景下可实现⾼达 12.81 倍的性能提升,已在华为⾃动驾驶场景万卡集群中部署。
AsyncFS: 基于可编程交换机的分布式⽂件系统元数据性能优化
传统分布式⽂件系统采⽤同步元数据更新,在访问效率、负载均衡和⽬录竞争⽅⾯⾯临固有挑战。本项⽬提出⾸个与可编程交换机协同设计的分布式⽂件系统 AsyncFS,实现基于⽹内状态的异步元数据更新,隐藏访问延迟并解决冲突。 在真实负载下, AsyncFS 相较于 CephFS、 IndexFS 和 CFS 提升端到端吞吐 21.1 倍、1.1 倍和 30.1%。