Hive分区表设置分区文件数 发表于 2021-11-08 更新于 2025-01-16 Waline: 阅读次数: 1234567set spark.sql.shuffle.partitions=2000; -- 这里是设置 shuffle 分区数量(并行度)insert overwrite table target_table partition (start_dt)select * from working_tabledistribute by start_dt, ceil(rand(1)*100);-- 这里的100是实际文件数量 可以修改100的大小来灵活确定文件的个数。 最终文件数量 = min( shuffle 分区数量 , 实际文件数量 )