> 文章列表 > hudi系列-mor表写过程

hudi系列-mor表写过程

文章列表

hudi系列-mor表写过程

环境

hudi有很多种写入流程，使用不同的表类型、写类型(WriteOperationType)、索引类型(IndexType)，流程上都会有所差异。使用flink流式写MOR表场景比较多，顺道梳理一下这个流程的细节

hudi 0.11.1
mor表
write.operation=insert/upsert
flink状态索引

整体流程

 | pk1,pk4 | ===\\     /=== | bucket assigner1 | ===\\     /=== | write task1(pk1,pk2) |shuffle(by PK)                    shuffle(by bucket ID)| pk2,pk3 | ===/     \\=== | bucket assigner2 | ===/     \\=== | write task2(pk3,pk4) |

流中的数据先根据主键进行shuffle，由于主键的唯一性，所以同一记录后续的变更都会分配到相同的bucket assigner中
bucket assigner确定每个主键的物理存储位置(分区+fileId)，每个主键的位置保存在状态索引ValueState中
数据确定了fileId(buckId)后，再进行一次shuffle，因为相同fileId的数据将会写到同一个数据文件，应由同一write task处理
write task接收到