编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

Alluxio 2.0到来!数据简仓、数据编排、加速创新

wxchong 2024-09-12 22:09:32 开源技术 8 ℃ 0 评论

在纽约举行的AWS峰会上,我们非常激动地宣布,Alluxio 2.0即将发布,这是自Alluxio项目自创建以来最重大的发布版本。

几个月前,我们发布了Alluxio 2.0预览版(见文末链接1)——其中包含了一些功能。现在发布的Alluxio 2.0正式版本包含了更多的功能,以继续组建我们的云上数据编排的方案。

我们坚信,就像计算和容器需要Kubernetes进行编排组织一样,越来越孤立分散的数据和用于计算负载的工作集也需要编排——数据编排。因此,我们构建了一系列核心的概念:让数据更接近计算来加速工作、通过不同的API更容易访问数据、从数据存储层抽象出基于数据的应用程序。你可以在我们的发布说明(见文末链接2)中查阅详细的功能列表,这篇文章整理了其中四方面的重点:

跨云数据编排的突破

  • 策略驱动的数据管理(见文末链接3)

Alluxio 2.0包含了一项新功能,允许数据工程师基于预定义的策略在自动持续的基础上实现自动化跨存储系统的数据移动。这意味着,随着数据的创建和热、温、冷数据的管理,Alluxio可以在任意数量的存储系统中自动分层管理数据,这些系统可以跨地点、跨云的。

数据平台团队现在可以通过在昂贵的存储系统中自动管理最重要的数据,并将其它数据移动到更便宜的存储替代方案,实现存储成本的降低。

  • 改进的数据访问策略管理(见文末链接4)

除了文件级别的细粒度策略外,现在用户还可以在任何目录和文件夹级别配置策略,以简化数据访问和工作负载性能。这包括在不同的核心功能上为单个数据集定义行为,比如写数据或与Alluxio下的存储系统同步数据。

  • 通过数据服务跨云高效数据移动(见文末链接5)

新的数据服务允许高效的数据移动,包括跨云存储(如AWS S3和Google GCS),这使得对对象存储的昂贵操作与计算框架无缝对接。

针对云分析的数据访问和计算优化

  • 计算为主的集群分区

用户现在可以根据任何维度对一个Alluxio进行分区,这样每个框架或工作负载的数据集就不会受到另一个框架或工作负载的污染或影响。最常见的用法包括按框架Spark、Presto等划分集群。此外,这还允许降低数据传输成本,限制数据停留在特定区域内。

  • 通过REST与外部数据源集成(见文末链接6)

用户现在甚至可以从基于Web的数据源导入数据,并将其聚合到Alluxio中来执行分析。任何带有文件的Web位置都可以根据查询或模型运行的需要简化为指向Alluxio的输入位置。

亚马逊AWS EMR的整合集成

  • AWS弹性MapReduce服务集成(见文末链接7)

随着用户转向通过云服务部署分析类型和人工智能类型的工作负载,人们越来越多地使用ASW EMR等服务。Alluxio现在可以无缝地引导安装到AWS EMR集群中,使其可以作为EMR中的数据层服务于Spark、Presto和Hive等计算框架。通过使用Alluxio,用户拥有了一个高性能的替代方案来缓存来自S3或远程的数据,同时还减少了EMR中维护的数据副本。

使用开源的架构基础

Alluxio系统内部的许多核心基础元素已经使用最好的开源技术进行了重新架构,以实现支持超大规模数据和部署的愿景。

  • RocksDB(见文末链接8)现在用于管理Alluxio的数据分层文件和对象的元数据,以便支持超大规模。
  • GRPC(见文末链接9)——Google的高效RPC现在是Alluxio的核心传输协议,用于集群内部以及Alluxio客户端和master之间的通信,从而提高了通信的效率。

我们希望你和我们一样兴奋!赶快来试试吧,下载Alluxio 2.0(见文末链接10)!

参考链接:

链接1:

https://www.alluxio.io/blog/announcing-alluxio-20-preview-enabling-hyper-scale-data-workloads-in-the-cloud/

链接2:

https://www.alluxio.io/download/releases/alluxio-2-0-0-release/

链接3:

https://docs.alluxio.io/ee/user/stable/en/advanced/Policy-Driven-Data-Management.html

链接4:

https://docs.alluxio.io/os/user/2.0/en/basic/Configuration-Settings.html#path-defaults

链接5:

https://docs.alluxio.io/os/user/2.0/en/basic/Command-Line-Interface.html#mv

链接6:

https://docs.alluxio.io/os/user/2.0/en/ufs/WEB.html

链接7:

https://docs.alluxio.io/os/user/2.0/en/compute/AWS-EMR.html

链接8:

https://www.alluxio.io/blog/store-1-billion-files-in-alluxio-20/

链接9:

https://www.alluxio.io/blog/moving-from-apache-thrift-to-grpc-a-perspective-from-alluxio/

链接10:

https://www.alluxio.io/download/releases/alluxio-2-0-0-release/

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表