分布式存储系统,关注探索分布式存储系统在新场景需求(如AI训推场景)和新硬件驱动(如可编程硬件)下的演进。 操作系统,探索AI时代的操作系统架构和基于AI能力的用户体验优化。
FalconFS: 针对深度学习训推流⽔线场景的⾼性能分布式⽂件系统
在深度学习场景下,⽂件元数据操作性能⼗分关键。由于负载的⼤⽬录随机访问特性,传统客户端缓存机制不仅⽆法提升性能,反⽽会占⽤宝贵的内存资源。我们提出采⽤⽆状态客户端的分布式⽂件系统 FalconFS,通过混合元数据索引与延迟复制机制将路径解析完全迁移⾄服务器端,从⽽消除客户端缓存需求;引⼊并发请求合并技术提升端侧元数据处理并发效率;设计 VFS 透明兼容实现⽆缝部署。FalconFS 在深度学习训练场景下可实现⾼达 12.81 倍的性能提升,已在华为⾃动驾驶场景万卡集群中部署。
SwitchFS: 基于可编程交换机的分布式⽂件系统元数据性能优化
传统分布式⽂件系统采⽤同步元数据更新,在访问效率、负载均衡和⽬录竞争⽅⾯⾯临固有挑战。本项⽬提出⾸个与可编程交换机协同设计的分布式⽂件系统 SwitchFS 在真实负载下, SwitchFS 相较于 CephFS、 IndexFS 和 CFS 提升端到端吞吐 21.1 倍、1.1 倍和 30.1%。
基于 CXL 共享内存的多机统⼀⽂件系统
随着统一内存总线实现多节点资源互联,统一资源管理成为趋势。本项目以文件系统为着眼点,研究基于共享内存的多机统一文件系统。本项目通过修改VFS和内核内存管理模块,实现在CXL共享内存分配Page Cache、inode等内核数据结构,允许多节点上的独立OS挂载到相同的单机文件系统上,实现内存级的元数据的高效同步和Page Cache共享。相比传统使用分布式文件系统基于网络消息传递实现共享,本方案有望基于共享内存实现单机文件系统的透明共享化,并提供内存级别的延迟和吞吐。
基于RDMA的远端NVMe设备调用
NVMe协议使用内存Queue Pair提交命令并获取结果。本项目研究使用RDMA操纵远端设备上的NVMe Queue Pair,实现访问远端NVMe设备的效果。实验表明,RDMA可以向Queue Pair写入命令并读出结果,但是无法触发远端Door Bell寄存器。因此,项目实现一套基于RDMA和远端CPU辅助的远端设备访问方法:由RDMA写入命令并读取结果,由远端CPU周期性触发Door Bell寄存器以触发设备执行。