SparkSQL性能优化全攻略：缓存策略、连接策略与数据倾斜处理

日期：2024-12-24 00:41:04 作者：创始人浏览：0

sparksql优化方法是什么呢?

SparkSQL性能调优方法主要包括以下几个方面：1、数据缓存：通过缓存表，SparkSQL可以显着提升性能。
使用spark.catalog.cacheTable("tableName")或dataFrame.cache()方法实现缓存，SparkSQL会自动调整压缩以优化内存使用并减少垃圾收集（GC）压力。
要取消缓存，请使用spark.catalog.uncacheTable("tableName")或dataFrame.unpersist()方法。
缓存配置方法可以通过SparkSession.setConf()方法或者SQL中的SETkey=value命令来实现。
配置选项包括：2.其他优化配置：这些选项有助于提高查询执行性能。
但请注意，某些选项在Spark的未来版本中可能会被弃用。
3、连接策略要求：使用BROADCAST、MERGE、SHUFFLE_HASH、SHUFFLE_REPLICATE_NL等连接策略要求来引导Spark在连接两个关系时使用指定的策略。
例如，当使用BROADCAST查询时，即使统计数据显示连接大小超过了spark.sql.autoBroadcastJoinThreshold，Spark也会优先选择广播连接。
直接优先顺序是：BROADCAST>MERGE>SHUFFLE_HASH>SHUFFLE_REPLICATE_NL。
在某些情况下，Spark可能不遵循建议的连接策略。
4.合并提示：允许用户控制输出文件的数量，类似于DatasetAPI中的merge、split和repartitionByRange方法，用于性能优化和减少输出文件。
5.自适应查询执行（AQE）：该功能自动选择最高效的查询执行计划，并从ApacheSpark版本3.2.0开始启用。
AQE具有在合并后打乱分区、将有序合并联接转换为广播联接以及消除倾斜联接的功能。
6.其他配置选项：提供与自适应查询执行相关的调整选项，以进一步优化查询性能。
Hints为用户提供SparkSQL使用特定方法生成执行计划的建议。
提示语法为：/*+hint[,...]*/PartitionHints允许用户建议分区策略，并支持COALESCE、REPARTITION和REPARTITION_BY_RANGE提示，它们分别对应于DatasetAPI中的同名方法。
当有多个分割提示时，优化器会选择最左边的提示。
连接提示为用户推荐连接策略，包括BROADCAST、MERGE、SHUFFLE_HASH和SHUFFLE_REPLICATE_NL，Spark会按照优先级顺序选择请求类型。
如果请求不支持所选的连接类型，Spark可能不会接受它。

spark-sql调优的一些实践

SQL优化在数据处理中起着关键作用，SparkSQL需要从多个维度进行优化，以提高性能和效率。
优化策略主要包括连接类型、序列化格式、数据倾斜、执行方法、文件格式、shuffle优化、内存管理和函数优化。
对于join类型，需要根据表的大小选择合适的join方式：BroadcastHashJoin适合连接小表和大表，ShuffleHashJoin适合连接小表和稍大的表，而SortMergeJoin适合连接两个表大桌子。
优化时应尽可能使用BroadcastJoin，这是通过配置`spark.sql.autoBroadcastJoinThreshold`和`spark.sql.broadcastTimeout`来实现的。
选择序列化格式也非常重要。
Kryo序列化比Java的序列化方法更高效，可以配置为`spark.serializer=org.apache.spark.serializer.KryoSerializer`。
数据失真问题应该由数据源本身和重新排序过程来考虑。
当您的数据源存在倾斜时，您可能需要调整读取参数以均匀分布数据或在读取后使用提示重新分区。
当shuffle出现倾斜时，可以通过调整并行度、进行两阶段聚合、选择倾斜的key独处理、或者启用AQE（AdaptiveQueryExecution）来解决。
执行模式优化涉及固定数量的执行器和动态资源分配。
启用“spark.sql.adaptive.enabled”、“spark.shuffle.service.enabled”和“spark.dynamicAllocation.enabled”等参数，通过“spark.dynamicAllocation.minExecutors”和“spark.dynamicAllocation.maxExecutors”管理实现动态化资源的利用，避免浪费，提高效率。
建议同时使用remoteshuffleservice来变随机数据的读写方式。
文件格式优化主要针对parquet和orc格式，它们在列数较少时具有较高的压缩比，有利于合并操作。
如果小文件较多，可以考虑使用文本文件格式，以避免广播连接误判和内存压力。
Shuffle优化侧重于旁路机制，减少不必要的排序操作，提高执行速度。
具体实现请参考相关文档。
内存管理涉及到非堆内存和堆外内存的区别。
非堆内存包括堆外内存和其他进程内存合理配置单个任务的内存使用情况，包括调整执行器并行度和内存大小。
需要注意的是，在YARN环境中还必须考虑vcore的概念。
在函数优化方面，对于“count(distinctcol)”，当不需要精确计数时，可以使用“approximate_count_distinct”进行粗略估计或基于roaringbitmap的计算。
当get_json_object函数多次解析同一个对象时，它会使用json_tuple或from_json进行优化。
对于窗口函数，请注意“RANK”、“ROW_NUMBER”和“DENSE_RANK”的排序策略，必要时添加其他字段以确保唯一性。
小文件优化通过合并小文件静态分区和动态分区使用“distributeby”字段进行优化。

标签： SparkSQL优化 AQE