【Spark重点难点08】Spark3.0中的AQE和DPP小总结

本文总结了两个重要功能:AQE(自适应查询执行)以及Spark 3 .0的动态分区和剪裁。
在Spark 3 .0版本中,动态分区剪切,自适应查询执行,加速器识别计划,目录矢量化,Hadoop3 /jdk1 1 /scala2 .1 2 等。
已经添加了有趣的新功能。
要激活AQE,您需要设置参数Spark.sql.Adaptive.Sonabled为true。
在运行时,AQE基于建立的规则,在完成“ Shuffle Map”阶段并优化原始查询门运行时性能之后,根据为组合统计信息的规则动态调整和修改逻辑计划和物理计划。
自适应查询执行包括加入策略调整,自动分区合并和自动倾斜处理。
BrodcassThashJoin是订阅策略调整中表现最好的,但是AQE准确地计算上游数据以解决尺寸估计问题。
它减少了自动分区合并洗牌的影响,自动倾斜过程结合了数据倾斜问题。
动态分区和切割(DPP)过滤错误的数据,减少表中的数据扫描量,并根据表和维度表之间的关系提高I/O效率。
DPP使用的前提条件包括清晰的数据关联和过滤条件,可以通过维度表传输到事实表。
通过SPARK 3 .0的主要优化技术,总结AQE和DPP可以大大提高查询性能和效率。
了解和应用这些功能对于优化大数据处理很重要。
可以下载“大数据的通往上帝之路” PDF版本,可以通过在后台回答“ PDF”来获得。

Spark处理hive表的元数据、数据复制、小文件、批量清除分区

鉴于清洁历史蜂巢划分数据的情况,本文将探讨用于治疗蜂巢台的METADES,数据重复,小文件问题和清洁组的火花方法。
处理元数据信息时,可以通过SPARK-SQL执行辅助命令,例如显示或描述,以获取元属性的所需信息,并且数据格式的处理已完成。
这些元属性包括统计信息,数据文件存储位置,文件大小,线计数,表所有者,类型(托管或外部),序列化和删除器,以及确定它是否是分隔图和分离名称。
在数据重复方面,无论是HDFS还是对象存储之间的数据迁移,HaopDistCP都是一个有效的选择。
当使用DISCP在群集之间或组内复制数据时,您必须注意文件和局之间的区别,以确保重复的预期结构正确。
对于安全模式迁移,您必须配置HDFS-site.xml文件以允许使用DISCP。
此外,使用单个进程的Hadoop文件系统HDFSDFS-CC命令的使用也是一个选项。
使用SQL复制时,您可以通过查找列和分离信息来自动创建一个空表结构,然后使用Spark-SQL或Spark-core在新表上输入数据。
SPARK操作-SQL和Spark功能之间的主要区别在于是否执行了洗牌过程。
至于小文件问题,HDFS中的小文件和存储云通常是指大小低于指定阈值的文件(例如1 2 8 MB)。
小文件可能会影响性能,尤其是当数据分布不均或许多文件时。
处理小文件问题时,您应该注意数据和文件共享的分布,以避免文件和非常小的大小以优化阅读性能。
最后,可以通过特定的用例来清洁历史蜂巢分区数据组。
特定步骤包括控制分区表的结构,进行数据清洁操作(例如使用MSCKrepairable命令),并确保数据清洁策略与业务需求符合业务需求。

SparkSQL操作Hudi指南

整个网络手册上最全面的大数据访谈改进! 1 SparkSQL连接以连接到HUDI1 .1 HIVE配置Hudi,我们需要分开蜂巢转移服务并启动Mentastor Service。
1 .2 SparkSQL连接Hudi 2 在制作hudi表时制作表格时,需要注意三个要点:1 手有两种表类型:复制(cow),并在编写时在读取(MOR)上合并。
您可以使用制作表时指定的类型选项。
type ='cow'或type ='孔雀'。
2 SparkSQL支持编队和非分区表。
使用分区的详细信息来创建分区表,并在没有指定分区的情况下创建非划分表。
3 SparkSQL支持两种表:通过位置语句或CreateExternaltable指定位置,可以清楚地制作托管表和外部表格。
3 插入数据时,Hudi在插入数据时可以提供比蜂箱更好的性能。
4 通常可以在Sparksquel使用查询数据时获得Querry数据,通常可以获得有效的性能。
5 更新数据时,您可以选择正态更新或使用Mergento方法。
6 . Hudi支持软删除和硬删除,SparkSQL当前仅支持硬删除。
7 . Issirtoverwrite此操作用于传输现有数据并获得有效的更新。
如果您发现这篇文章有帮助,请记住“读”,“喜欢”和“最爱”,连续三遍! 2 02 2 整个网络的第一次启动|大数据专家技能模型和研究指南(Shengtian Banzi分会)实际上可以进入互联网最糟糕的时代。
我当时在B站大学学习。
当我们学习大数据中的弗林克时,我们正在学习什么? 1 9 3 文章击败了弗林克。
您需要注意最佳问题,并适应此系列中的凹陷生产环境。
阿里巴巴经凉亭yydsflinkcdc不能保留耶稣! ,当我们从FlinkCDC中学习一小部分在线问题时,我们正在学习什么?在所有火花模块中,我想称Sparkscall为最强!努力工作蜂巢| 4 0,000个单词在基本调整下的4 0,000个单词摘要摘要数据治理方法论和实践用户肖像构造小指南4 0,000个单词长的文章,在小型百科全书的标签系统下| Clickhouse基本和实践和优化完整的透视分析[访谈和个人发展] 2 02 1 年之后,社会招聘和校园招聘经验谈论了大数据方向。
“努力工作系列”的第一版完成了有关开发/访谈/高级工作场所的文章。
学习蜂箱时,我们会学到什么? “硬核蜂巢续集”