• BeeGFS 在革 Lustre、Spectrum Scale 的命 !
  • 发布于 2个月前
  • 162 热度
    0 评论
  • AUX
  • 7 粉丝 41 篇博客
  •   

起源于欧洲的并行文件系统BeeGFS在全球的高性能计算(HPC)环境中与Lustre和Spectrum Scale有得一拼吗?Frank Herold的回答是肯定的,这不足为奇。Herold是ThinkParQ的首席执行官,该公司创办于2014年,旨在将BeeGFS实现商业化。你可能还记得,BeeGFS最初只是弗劳恩霍夫工业数学研究所(ITWM)内部的一个项目(2005年),当时名为弗劳恩霍夫协会文件系统(FhGFS),后来作为BeeGFS分立出来、归ThinkParQ控制,不过大量的开发工作还是与ITWM协作完成的。


暂且把历史搁在一边,Herold在去年11月份的SC18大会表明,BeeGFS成熟的技术实力加上日益巩固的渠道体系使其成为Lustre和Spectrum Scale的可靠替代者(竞争对手)。Herold顺带强调了最近与合作伙伴Dell EMC在澳大利亚CSIRO(联邦科学与工业研究组织)部署了BeeGFS。


Herold告诉IT外媒HPCwire:“我们在一年半前开始走国际化道路。有意思的是,国际项目的数量并不多,但从项目规模的角度来看,那些项目又相当庞大。截至今天,我们大约45%的收入来自北美和亚太地区。我们与合作伙伴Dell EMC在CSIRO达成了一笔很重大的交易。这是一套为AI构建的数据量达2PB、全部采用NVMe的存储解决方案。目前正在部署中。”

这是一大胜利和有力的证明。ThinkParQ并不公布收入,因此很难准确判断市场吸引力;又由于BeeGFS是开源的,很难知道有多少家组织在使用它或者将它派在什么用场。不过,ThinkParQ大力推销的时机恰逢其时。


Lustre最近前途未卜。它在超级计算中心领域非常强大,但在商用HPC领域没有这么强大。英特尔于2012年收购了Lustre供应商Whamcloud,打算做大Lustre业务,但后来在2017年退出了该业务。去年6月英特尔将Lustre资产出售给了DDN,DDN是一家领先的HPC存储供应商,拥有多款Lustre设备,成为Lustre的监管者可能更好。

2015年,IBM将其广受欢迎的通用并行文件系统(GPFS)重新命名为IBM Spectrum Scale。 GPFS向来也是HPC领域的大玩家,尤其以高端企业计算见长。

Intersect360研究公司的首席执行官Addison Snell特别指出,实际上,没有哪个并行文件系统称霸商业HPC领域。“BeeGFS的人气越来越旺,尤其是在欧洲。但是,还没有哪个并行文件系统在商业HPC这个细分市场得到广泛采用,HPC的用户主要在这个领域。”

一位直接参与HPC存储技术选择和部署的观察人士同样认为外界对BeeGFS的兴趣在加大。

Aaron Gardner是专注于生命科学的研究计算咨询公司BioTeam的技术主管,他说:“由于目前的转型,加上Lustre和Spectrum Scale产品在HPC领域都具有不确定性,今年BeeGFS方面的动静比以往来得更大也就不足为奇。HPC领域长期以来一直在寻找分布式并行文件系统的替代方案。我们已看到BeeGFS在过去几年发展成为潜在的竞争者。(架构图见下面。)

Herold认为,易用性、可扩展性和强大的元数据处理功能是BeeGFS有别于Lustre和Spectrum Scale的几大优点。2016年2月,BeeGFS源代码“开源”。话虽如此,ThinkParQ的商业模式还是为支持的版本提供附加功能;几位观察人士未仔细观察ThinkParQ就抱怨,BeeGFS的开源协议条款阻碍了其价值实现最大化。主要版本大概每年发布一次,每季度进行一次小幅升级。版本7于去年5月发布。Herold表示,其中一项主要的新功能是增加了存储池。


Herold说:“存储池为客户提供了跨命名空间的功能。它们可以分割数据,决定数据是放在底层的高速度还是高密度存储介质上。”存储池让集群管理员可以对存储目标进行分组,并将不同类别的伙伴组(buddy group)镜像到一起。比如说,可能有一个存储池由高速但小容量固态硬盘(SSD)组成,另一个存储池用于批量存储,使用大容量但速度较慢的普通磁盘。存储池可能有描述性名称,因而易于记住要使用哪个存储池,无需查找池中的存储目标。SSD存储池可能命名为“fast”,另一个命名为“bulk”(详见下图)。

另一项值得关注的功能是BeeGFS On Demand(BeeOND)。这里的概念是使用客户端计算机上的存储器,而不是使用主存储器。

Herold说:“我们在一头有存储服务器,另一头你有成百上千个客户端。我们实时构建了一种临时的BeeGFS文件系统,它可以从主存储区卸载一些繁重的工作负载,转移到那些临时工作空间。这其实是一种很好的模式,你可以运行主数据中心,但还可以创建临时工作空间,你可以决定让所有客户端还是让部分客户端来处理特定的工作。”

正如BeeGFS文档所述,计算节点中内部硬盘的问题在于,它们既没有跨多台机器的单个命名空间具有的优点,也没有共享并行文件系统的灵活性和性能。BeeOND解决了这个问题:完全针对作业的运行时环境,“按照具体作业”跨所有计算节点创建一个共享的并行文件系统,所有计算节点都参与处理某个特定的计算作业(见下图)。

最好查看BeeGFS文档,以便更全面地了解其功能。HPCwire请BioTeam副总裁兼咨询服务总经理Ari Berman对BeeGFS与其主要竞争对手作一番简要的评估:

“BeeGFS在许多方面都很有前途。Lustre在我们领域的主要缺点一直是它使用的串行元数据访问模型,这使得许多生命科学工作负载所需的众多并发文件操作非常慢。专业的Lustre部门积极阻止用户运行执行此操作的代码,但只有在你直接控制环境中运行的代码如何编写时,这才易于处理。Lustre社区进行了修改,以提供分布式命名空间模型,该模型跨目录对元数据访问进行伪并行化处理,但它仍未完全支持并发文件操作的所有用例。”


“Spectrum Scale稍微好一点,原因在于NSD(网络共享磁盘)服务器可以更容易针对跨元节点的并发元数据访问进行调整,但是你在作出调整方面的选择时牺牲了其他性能上的提升。BeeGFS的优点是一开始就拥有速度更快一点的元数据,同时还能够以一种简化的方式跨元数据节点按照目录和子目录分配元数据操作。与GPFS一样,你可以根据需要添加更多的元数据目标(服务器),它可以很好地扩展,设置起来比多个Lustre MDS要简单一点。”


“另一大优点是,能够使用内置队列对元数据请求服务器进行线程处理,并能够根据需要指定在每台元数据服务器上生成多少线程。这避免了多台(甚至一台)服务器对文件系统上的小文件进行数百万次请求时出现的串行请求瓶颈。BeeGFS的最后一个优点是,服务器软件写入到用户空间时,它确实有一个原生内核客户端,能够在过去几年使100Gbps客户端连接趋于饱和。最新的Spectrum Scale 5或Lustre 2.10 LTS版本也进行了调整,但供应商和渠道领域目前为客户提供的Lustre或Spectrum Scale版本存在着诸多差异。”


“所以对我们来说,BeeGFS大有希望,但所有这些都是理论上的。我们未能拿来实际试一下,测试这些功能在这个领域中的效果怎样。软件可以免费下载和使用,这是一大优势,使我们的用户群极容易使用它。但我们特别指出某些功能需要ThinkParQ的许可支持,比如说源代码许可证虽然开放,却不如Lustre宽容。”


与其他并行文件系统一样,BeeGFS基本上与硬件无关。Herold说:“从CPU层面来看,我们支持市场上的所有CPU,无论是Power、Arm还是英特尔(x86),都没有关系。从存储角度来看,只要显示为设备,我们都可以对其进行管理。此外从基础设施层面来看,我们支持TCP/IP、千兆以太网以及InfiniBand。”


ThinkParQ正在努力扩大市场范围,Herold特别指出HPC(科学)、生命科学、AI和石油天然气是几大目标行业。可以预见,扩张计划的一个关键因素是渠道拓展。目前,ThinkParQ是一家服务和软件型公司,提供BeeGFS的商业版本和支持。对于这样一家小公司而言,进入硬件行业困难重重。然而,ThinkParQ确实有几个合作伙伴将BeeGFS与系统集成起来或者制造设备。Penguin Computing(面向美国和欧洲市场)和总部位于台湾的QCT(亚太区)就是两个合作伙伴。


Berman说:“现在他们专注于发展渠道合作伙伴,但目前其深度仍远远不如Lustre和Spectrum Scale生态系统。另一个缺点是,BeeGFS还没有像Lustre和Spectrum Scale那样被大批客户所使用,规模上也无法相提并论,因此BeeGFS仍可能会遇到还没有遇到的极端情况。”


去年2月成为首席执行官的Herold希望CSIRO之类的项目能够树立信心、拉大需求。BeeGFS还没有出现蜂拥而至的局面,但是无疑已有了一番动静。

用户评论