中国经济观察网 | 手机客户端 |
当前位置: 首页 > 财经

Alluxio2.7版本新增以下功能

作者:子墨    栏目:财经    来源:TechWeb   发布时间:2021-11-21 19:49   阅读量:19796   

内容摘要:,日前,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用2.7版本通过并行数据加载,数据预处理和训练工作流,可将机器学习训练的I/O效率提高8—12倍,从而显著降低成本新版本还提供了更强的性能...

,日前,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用2.7版本通过并行数据加载,数据预处理和训练工作流,可将机器学习训练的I/O效率提高8—12倍,从而显著降低成本新版本还提供了更强的性能分析,并能更好地支持ApacheHudi和Iceberg等开放表格格式,使得对数据湖的访问更易于扩展,从而实现了Presto和Spark的分析提速

Alluxio2.7版本新增以下功能

Alluxio2.7版本进一步巩固了Alluxio在云上人工智能,机器学习和深度学习方面的重要地位,Alluxio创始人兼首席执行官李浩源表示伴随着数据集的增长以及CPU和GPU计算能力的增强,机器学习和深度学习已成为AI主流技术这些技术的兴起推动了AI的发展,但也凸显了数据和存储系统访问中存在的一些挑战

我们在1000个节点的集群中部署了Alluxio,用来加速我们游戏AI平台上模型训练的数据预处理事实证明Alluxio稳定,可扩展且易于管理腾讯大数据平台研发负责人陈鹏表示伴随着越来越多的大数据和AI应用容器化,Alluxio正在成为大型企业和机构的首选,作为加速数据分析和模型训练的中间层为了达到这一目标,腾讯AlluxioOTeam的毛宝龙团队与社区紧密合作,贡献了一系列重要的功能,包括运行期动态更新配置,CephFS存储支持,修复了超过二十个bug并增加了二十余个系统指标

拥有大规模分析和AI/ML计算框架的数据团队面临着越来越大的压力,需要让日益增长的数据源更易于访问,同时确保性能的稳定,这需要同时考虑数据本地性,网络I/O和成本问题,ESG分析师MikeLeone表示企业和机构希望选用更实惠和可扩展的存储,如云对象存储,同时避免昂贵的应用程序修改或处理新的性能问题Alluxio通过抽象存储细节并使数据更接近计算侧来应对这些挑战,尤其是在混合云和多云环境中

Alluxio2.7版本新增以下功能:

使用Alluxio和NVIDIA的DALI进行机器学习训练

NVIDIA的数据加载库是一个常用的Python库,支持通过CPU和GPU进行数据加载和预处理从而加速深度学习在2.7版本中,Alluxio平台进行了优化,可以与DALI一起部署用于加速基于Python的ML应用,其中包括模型训练和推理之前的数据加载和预处理步骤通过加速I/O密集型工作并允许并行处理后续的计算密集型训练,Alluxio数据平台上的端到端训练与传统解决方案相比实现了显著的性能提升对于海量小文件的训练,与其他解决方案相比,该解决方案可以实现横向扩展

大规模数据加载

Alluxio的核心定位是数据管理能力,这些能力包括对分散的数据源进行统一和实现缓存伴随着Alluxio越来越多地用于计算和存储跨多个地理位置的场景,Alluxio自身也在不断扩展本次更新采用新技术对数据进行批处理,从而增强其可扩展性批处理通过使用内置执行引擎处理数据加载等任务,减少了管理控制器对资源的需求,从而减少了系统配置的工作量,降低了成本

Kubernetes上的易用性

Alluxio现在支持用于Kubernetes的原生容器存储接口驱动,以及用于ML的Kubernetesoperator,这使得在容器化环境中的Alluxio平台上操作ML工作流比以往任何时候都更加容易Alluxio的卷类型现在可用于Kubernetes环境敏捷性和易用性是本次新版本关注的重点

在Presto上基于分析动态调整缓存

新版本还推出了智能缓存新功能,名为ShadowCache,能够动态分析缓存大小对响应速度的影响,从而轻松实现高性能和低成本之间的平衡对于大规模的多租户Presto环境,此新功能通过自助管理显著降低了管理开销

在存储与ML计算分离的情况下,数据平台团队利用Alluxio来简化数据预处理和加载阶段,Alluxio高级产品经理AditMadan表示,这种简化使得SparkML,Tensorflow和PyTorch等框架能最大限度地利用GPUAlluxio解决方案可在AWS,GCP和AzureCloud等多个云平台上使用,现在也可在私有数据中心或公有云中的Kubernetes上使用

日前,Alluxio宣布完成5000万美元C轮融资,该轮融资由新投资方高瓴创投领投,战略投资方和原股东a16z,SevenSeasPartners,火山石投资跟投与此同时,Alluxio宣布将大力拓展国内市场业务,将北京设立为中国区总部,并成立本地化的研发团队,以快速响应并满足众多国内企业的个性化需求

昨日,开源云原生数据编排软件开发商Alluxio正式发布数据编排平台7版本,新版本立即可用。7版本通过并行数据加载,数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高8-12倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持ApacheHudi和Iceberg等开放表格格式,使得对数据湖的访问更易于扩展,从而实现了Presto和Spark的分析提速。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

相关阅读