经过一年半的发展, Apache Software Foundation已发布 新版本的发布 Apache Hadoop 3.3.0, 版本 他在其中添加了针对ARM平台的改进, 支持安排容器启动等操作。
Apache Hadoop将自己定位为免费平台 组织 分布式处理使用 map / reduce范式,其中任务被分为许多较小的孤立块,每个块都可以在单独的群集节点上运行。
基于Hadoop的存储 它可以跨越数千个节点并包含EB级数据。
关于Apache Hadoop
Hadoop的 包括Hadoop分布式文件系统的实现 (HDFS),可自动提供数据冗余,并针对MapReduce应用程序进行了优化。
一个关键功能是,为了进行有效的作业调度,每个文件系统必须知道并提供其位置,即工作程序节点所在的机架(更确切地说是交换机的机架)的名称。
Hadoop应用程序可以使用此信息在数据所在的节点上运行工作,如果失败,则可以在同一机架/交换机上运行,从而减少网络流量。
简化对数据的访问 在Hadoop存储中, 已经开发了HBase数据库和类似SQL的Pig语言, 这是MapReduce的SQL类型,其查询可以由各种Hadoop平台并行化和处理。
该项目被评估为完全稳定并已准备好工业运行。 Hadoop在大型工业项目中得到了积极使用,其功能类似于Google Bigtable / GFS / MapReduce平台,而Google正式授权的Hadoop和其他Apache项目则有权使用与MapReduce方法相关的专利技术。
Hadoop在所做的更改数量和第五大代码库(约4万行代码)方面,在Apache存储库中排名第一。
Apache Hadoop 3.3的新功能是什么?
Hadoop的新版本 被定位为具有 el 支持基于ARM的平台, 那些对能够实现此平台感兴趣的人将能够找到适用于ARM的二进制文件。
此新版本中提出的另一个主要更改是 实现新版本的Protobuf格式 (协议缓冲区)用于序列化结构化数据 已更新至版本3.7.1 由于protobuf-2.5.0分支的生命周期已结束。
除了它,还 S3A连接器的功能已得到扩展 现在有他 增加了对使用令牌进行身份验证的支持, 使用404代码改进了对响应缓存的支持,提高了S3guard性能,并提高了操作可靠性。
还 DNS解析器服务已添加 使客户端可以通过DNS通过主机名确定服务器,从而无需配置中的所有主机列表
以及 支持通过集中式资源管理器调度容器启动 (ResourceManager),即使考虑到每个节点的负载也可以分发容器。
在其他突出的变化中 这个新版本:
- 自动调整的问题已在ABFS文件系统中解决。
- 添加了对腾讯云COS文件系统的本机支持,以访问COS对象存储。
- 完全支持Java 11。
- 稳定了HDFS RBF(基于路由器的联盟)实施。 安全控件已添加到HDFS路由器。
- 搜索添加的YARN应用程序目录(另一个资源协商程序)。
最后,如果您想了解更多信息,可以在以下位置查看新版本的详细信息: 原始帖子。
对于那些有兴趣获得新版本的人,他们可以下载准备好的二进制文件 在下面的链接中。