优化 Kafka 的生产者和消费者

文章列表

优化 Kafka 的生产者和消费者

背景

如今，分布式架构已经成为事实上的架构模范，这使得通过 REST API 和消息中间件来降低微服务之间的耦合变得必然。就消息中间件而言，Apache Kafka 已经普遍存在于如今的分布式系统中。Apache Kafka 是一个强大的、分布式的、备份的消息服务平台，它主要负责以可扩展性、健壮性和容错性的方式来存储和共享数据。站在应用的角度，应用开发者主要利用 Kafka 生产者和 Kafka 消费者去发布和消费消息。因此生产者和消费者对于优化基于 Kafka 的交互都很重要。

这篇文章主要聚焦于以一种易于理解的的方式去提高 Kafka 的生成者和消费者的性能。性能工程作为一个整体有两个正交的维度：

吞吐量
延迟

Kafka 端到端的延迟

Kafka 端到端的延迟是从应用通过 KafkaProducer.send() 发送一个消息开始到应用通过 KafkaConsumer.poll() 消费发布的消息之间的耗时。下面的图清晰的展示了 Kafka 消息经历的各种阶段：

优化 Kafka 的生产者和消费者

Produce Time：应用通过 KafkaProducer.send() 发送一个消息到这个消息被发送到主题分区的 leader 之间花费的时间。
Publish Time：Kafka 内部生产者发布批量消息到 Broker 和发布的消息添加到 leader 的 replica log 两个步骤之间的耗时。
Commit Time：Kafak 复制消息到所有的 in-sync replicas(ISR) 所花费的时间
Catch-up Time：一旦消息被提交，如果消费者的偏移量落后于提交的消息 N 条消息，那么，Catch-up Time 就是消费者消费掉这 N 条消息所消耗的时间。
Fetch Time：Kafka 消费者从 leader broker 获取消息花费的时间。

优化方法

一般来说，通过 Kafka 的消息一般会涉及以下参与者：

生产者
主题
消费者

从系统优化的角度来说，我们会专注于生产者和消费者。