您现在的位置是:课程

【赵强老师】什么是分区

2023-06-29 21:12课程 人已围观


通常情况下,我们创建的表都是未分区的表,或者说,只有一个分区的表,数据只能存储在一个文件组(File Group)中,默认情况下,表数据存储在PRIMARY文件组。对表进行分区后,每一个分区都独立存储在文件组(File Group)中。把表分区,实际上是把逻辑上完整的表,按照特定的字段拆分成多个分区,每个分区分配到(相同或不同的)FileGroup中,每一个分区在文件组中都是独立存储,即使多个分区分配到相同的文件组中。

为什么要对数据表(Table)分区?这是因为分区(Partition)之间是物理上独立存储的,对单个分区进行操作,不会影响其他分区,这能提高查询性能,避免死锁;而分区切换甚至能够不移动数据,而删除海量数据。

在MapReduce过程中,可以根据实际需求(比如按某个维度进行归档,类似于数据库的分组),把Map完的数据Reduce到不同的文件中。分区的设置需要与ReduceTaskNum配合使用。比如想要得到5个分区的数据结果。那么就得设置5个ReduceTask。

Spark RDD是弹性分布式数据集,通常RDD很大,会被分成很多分区,分别保存在不同节点上。Spark RDD分区原则是使分区的个数尽量等于集群中的CPU核心数目。
-->

站点信息

  • 文章统计篇文章