> 文章列表 > hudi系列-mor表写过程

hudi系列-mor表写过程

hudi系列-mor表写过程

环境

hudi有很多种写入流程,使用不同的表类型、写类型(WriteOperationType)、索引类型(IndexType),流程上都会有所差异。使用flink流式写MOR表场景比较多,顺道梳理一下这个流程的细节

  • hudi 0.11.1
  • mor表
  • write.operation=insert/upsert
  • flink状态索引

整体流程

 | pk1,pk4 | ===\\     /=== | bucket assigner1 | ===\\     /=== | write task1(pk1,pk2) |shuffle(by PK)                    shuffle(by bucket ID)| pk2,pk3 | ===/     \\=== | bucket assigner2 | ===/     \\=== | write task2(pk3,pk4) |
  1. 流中的数据先根据主键进行shuffle,由于主键的唯一性,所以同一记录后续的变更都会分配到相同的bucket assigner中
  2. bucket assigner确定每个主键的物理存储位置(分区+fileId),每个主键的位置保存在状态索引ValueState
  3. 数据确定了fileId(buckId)后,再进行一次shuffle,因为相同fileId的数据将会写到同一个数据文件,应由同一write task处理
  4. write task接收到