PG索引对导入性能影响

测试环境

1.1 硬件环境

CPU内存数据
2路Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz 共24个逻辑核64G 2T sata*8

1.2 软件环境

操作系统:Red Hat Enterprise Linux Server release 7.4 (Maipo) 内核:3.10.0-693.el7.x86_64

PG:PostgreSQL 10.6

1.3 测试表

基础表结构:

CREATE TABLE test (

 a varchar(64),

 b varchar(64),

 c varchar(64),

 d varchar(64),

 e varchar(64),

 f varchar(64),

 g varchar(64),

 h varchar(64),

 i varchar(64),

 j varchar(64),

 k varchar(64),

 l TIMESTAMP

) ;

索引:

create index idx_1 on test(a);

create index idx_2 on test(b);

create index idx_3 on test(f);

create index idx_4 on test(i);

create index idx_5 on test(l);

数据样例:

9dfdd3a8-b65a-4705-a0ff-daf1819861d2 1111111111111111111 阿大 13888888888 陕H11111 546687257794821 460073102018579 a7:8e:c5:d3:2d:6c 4212922510 T1n5C9011216 2018-10-08 10:55:47

入库性能

2.1 总体结果

使用copy命令入库,每个文件1000W条,行长约180B。分别测试无索引、1个索引、3个索引、5个索引的导入性能。

2.1.1 测试结果

表中存量数据(千万)012345678910111213141516171819
no index2222222322232522252223222222222223232323
1 index(raid0*8)61797172741247678156781301297920280221209113247259
3 index(raid0*8)153214182275192324192362390419562121419142539328341694548500054638309
5 index(raid0*8)22622532725538743046798926002670295827863452426464821123619992   
3 index(单盘)136176185223177363202321207341309563329504       
5 index(单盘)185264282335242376419456355211663          

续:

表中存量数据(千万)2021222324252627282930313233343536
no index2222222222222322222223232322232223
1 index(raid0*8)271389396509567719875103697410161435158419731860207921187809

2.1.2 总结

  1. 索引对PG导入性能影响非常大。
  2. 在表数据量到达拐点之后(根据索引数及磁盘IO能力决定,即使只有1个索引),导入时间呈指数级增长。
  3. 更好的磁盘IO只能延缓拐点的到来,无法避免性能急剧降低。
  4. 根据上述实验结果,单表的数据量在小于7000W时,导入性能略有下降,但基本还算稳定。所以建议:
    • 实际使用时如果索引小于等于5个,单表数据量大于5000W条就必须采取如分区、分库、分表等措施,同时每个分区也不得超过5000W。
    • 如果索引大于5个,优先考虑降低索引个数,如过实在不能降低,则单个分区数据量不得大于2000W条。

bitmap索引简介及适用场景

1. 什么是bitmap索引

bitmap索引就是用位图表示的索引,对列的每个键值建立一个位图。所以相对于b-tree索引,占用的存储空间非常小,创建和使用非常快。缺点是修改操作锁粒度大,不适合频繁更新。

如下图,bitmap索引将每个被索引的列的值作为KEY,使用每个BIT表示一行,当这行中包含这个值时,设置为1,否则设置为0。

2. bitmap索引适用场景

  1. 建在值重复度高的列上,GP手册建议在100到100,000之间,如:职业、地市等。重复度过高则对比其他类型索引没有明显优势;重复度过低,则空间效率和性能会大大降低。
  2. 特定类型的查询例如count、or、and等逻辑操作因为只需要进行位运算。如:通过多个条件组合查询,select count(*) from table where city = ’南京市’ and job = ’医生’ and phonetype = ‘iphone’  and gender =’男’。类似这种场景,如果在每个查询条件列上都建立了bitmap索引,则数据库可以进行高效的bit运算,精确定位到需要的数据,减少磁盘IO。并且筛选出的结果集越小,bitmap索引的优势越明显。
  3. 适用于即席查询、多维分析等OLAP场景。如果有一张表有100列,用户会使用其中的20 个列作为查询条件(任意使用这20个列上的N的列),几乎没有办法创建合适的 b-tree 索引。但是在这些列上创建 20 个 bitmap 索引,那么所有的查询都可以应用到索引。

3. bitmap索引不适用场景

  1. 值重复度低的列,如:身份证号、手机号码等。
  2. 重复度过低的列,如:性别,可以建立bitmap索引,但不建议单独作为查询条件使用,建议与其他条件共同过滤。
  3. 经常需要更新修改的列。
  4. 不适用于OLTP场景。