大数据分析框架Apache Spark更新到其版本3.0

Apache Spark是一个框架 开源集群计算 提供集群编程的接口 带有隐式数据并行性和容错能力,Spark项目代码库已捐赠给负责其维护的Apache软件基金会。

Apache Spark 可以被认为是通用的,面向速度的集群计算系统.

提供API 在Java,Scala,Python和R中使用 还提供了优化的引擎 通常支持图形的执行。

支持广泛而丰富的高级工具集 其中我知道 包括Spark SQL (用于基于SQL的结构化数据处理),用于实现机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。

Spark SQL是模块 Apache Spark 用于处理结构化数据,在Spark应用程序中非常流行。 根据由Apache Spark的创建者创立的公司Databricks的说法,甚至Python和Scala开发人员也都使用Spark SQL引擎来完成许多工作。

今天,Spark是大数据处理,数据科学,机器学习和数据分析的事实上的框架。

关于Apache Spark 3.0

现在 该框架的版本为3.0 在最重要的新功能中,应注意的是 Spark 3.0的速度是以前的两倍 与以前的版本相比,它依靠TPC-DS进行了优化。

实现了性能提升 通过改进 例如运行自适应查询,修剪动态分区和其他优化。 与ANSI SQL标准的兼容性也得到了改善。

Spark 3.0是一个主要版本,已解决了3400多个票证,但在重大更改内,仅 他们将自己限制在SQL和Python等主要的新功能上。

阿帕奇星火3.0 通过大大改善对SQL和Python的支持来巩固这一地位, 如今已成为Spark的两种最广泛使用的语言,并且通过在各个级别提供许多优化来实现。

PySpark是Python的Spark API,每月在Python包索引PyPI上的下载量超过5万。 许多Python开发人员 他们将API用于数据分析,尽管它仅限于单节点处理。

因此,Python是 Spark 3.0开发的关键领域。 加快了Apache Spark上API的开发速度,以使数据科学家在分布式环境中处理大数据时更加高效。

考拉消除了创建许多功能的需要 (例如图形支持)在PySpark中,以在群集中获得更好的性能。

到目前为止,我们可以说Spark的角色通常仅限于ETL(提取转换负载)的角色。

这尤其可以显着改善API,包括Python类型提示和其他熊猫UDF(用户定义函数)。

Spark 3.0提供了更好的Python错误处理, 并且对用户定义的R函数的调用速度提高了40倍。

还应注意,在Spark 3.0中, 所有修补程序中有46%用于SQL功能,从而提高了性能和ANSI兼容性。

那说, Spark SQL引擎中三个最重要的新功能是自适应查询的执行。

优化方法 查询通常集中在静态查询优化上。

由于Spark中存储和处理的分离,因此数据的到达可能是不可预测的。 由于这些原因,对Spark而言,自适应查询执行比对传统系统而言更为关键。

您还可以在发行说明中查看许多其他功能。 功能涵盖数据源,生态系统,监视,调试等。

您可以查看发行说明 通过转到以下链接。

数据来源: https://spark.apache.org/