hudi系列-mor表写过程
环境
hudi有很多种写入流程,使用不同的表类型、写类型(WriteOperationType
)、索引类型(IndexType
),流程上都会有所差异。使用flink流式写MOR表场景比较多,顺道梳理一下这个流程的细节
- hudi 0.11.1
- mor表
- write.operation=insert/upsert
- flink状态索引
整体流程
| pk1,pk4 | ===\\ /=== | bucket assigner1 | ===\\ /=== | write task1(pk1,pk2) |shuffle(by PK) shuffle(by bucket ID)| pk2,pk3 | ===/ \\=== | bucket assigner2 | ===/ \\=== | write task2(pk3,pk4) |
- 流中的数据先根据主键进行shuffle,由于主键的唯一性,所以同一记录后续的变更都会分配到相同的bucket assigner中
- bucket assigner确定每个主键的物理存储位置(分区+fileId),每个主键的位置保存在状态索引
ValueState
中 - 数据确定了fileId(buckId)后,再进行一次shuffle,因为相同fileId的数据将会写到同一个数据文件,应由同一write task处理
- write task接收到