java 消息队列框架Apache Kafka的（超详细总结）

2023年 5月 4日 226点热度 0人点赞 0条评论

Apache Kafka是什么?

Apache Kafka是一个由Apache软件基金会开发的一个开源消息代理系统。它是一个分布式、可扩展、高性能、实时数据传输的平台，广泛用于构建实时数据流应用程序。Kafka最初是由 LinkedIn 公司开发，目的是为了解决该公司在处理海量在线数据时的瓶颈问题。随着大数据的概念及使用逐渐被普及，Kafka 在企业应用中也越来越受欢迎。

Kafka具有以下特点：

高性能：Kafka在分布式环境下表现出色，能够实现每秒数百万的数据传输速度。
可扩展性：Kafka可以轻松扩展，只需要添加更多的节点即可实现集群化。
持久化存储：Kafka能够持久化存储数据，保证数据的可靠性和持久性。
实时处理：Kafka在允许应用程序进行实时流式处理的同时，也能够以批处理模式处理数据。
多语言支持：Kafka支持多种编程语言，包括Java、Python、C++、Go等。
高可靠性：Kafka通过多种机制保证数据传输的可靠性，如副本机制、错误处理机制等。

Kafka的基本架构由以下四个组件组成：

Producer：消息的发布者，将消息添加到 Kafka 中。
Broker：Kafka的核心组件，同时也是消息的中转站，维护所有消息的存储、接收和传输。在 Kafka 中可以有多个 Broker 组成一个集群。
Consumer：消息的接收者，从 Kafka 中读取消息。
Topics：Kafka中所有消息的类别，是数据记录的最小单位，在发布消息时需要指定消息所属的 Topic。

Kafka使用分区机制来实现高效、高性能的消息传输。一个 Topic 可以有多个分区，每个分区都是一个有序、不可变的消息序列。消费者可以根据分区机制从多个 Broker 上获取数据。此外，Kafka还支持副本机制，副本机制可以保证数据的高可用性和数据的完整性。

通常拿来干什么？

Apache Kafka主要用于

Apache Kafka主要用于数据流处理，将传输的大量数据以高吞吐量和可扩展性的方式保存在多个服务器上，以便轻松地分配、处理和操作。Kafka通常用于以下几种场景：

实时数据流处理：实时数据流处理是指对产生的实时数据进行实时处理，而不是像批处理一样将数据收集起来再一次性处理。Kafka提供了基于流的处理模型，允许对实时数据流进行处理和分析。Kafka的消息基于发布/订阅模式，通过将数据发送到特定的Topic中，Kafka可以将多个消息进行聚合、处理和转化，实现实时数据流处理。
数据中心复制和同步：在分布式系统中，数据中心的复制和同步是保证数据可靠性和高可用性的重要手段之一。Kafka通过多个Broker之间的数据副本和同步来保证数据的可靠性和高可用性，当某个Broker故障时，使用Kafka提供的容错机制可以快速切换至其他可用的Broker，从而避免数据丢失。
流量管理：流量管理即对数据流进行控制、削峰，从而实现在高流量情况下，数据传输和处理的平稳进行。Kafka提供了消息的缓存和异步处理机制以平滑高流量的传输和处理，同时通过多个Partition的分布式存储和Producer/Consumer的异步工作方式，还能够有效地控制开销和避免数据阻塞。
海量数据处理：海量数据处理是指对数亿级别的数据进行处理和分析。随着数据量不断增大，传统技术面临的挑战也在不断增加，海量数据处理已经成为企业数据领域中的重要问题之一。Kafka能够以高性能和可扩展性的方式处理大规模的数据量，同时它的分布式架构和副本机制还能够保证数据的可靠性和完整性。
日志传输和管理：日志传输和管理是指对服务器日志进行实时收集、存储和分析。Kafka提供了高吞吐量的日志传输和管理功能，有利于互联网公司动态追踪网站活动，分析网站用户行为，管理日志数据等，以便优化性能。通过把日志数据存储在Kafka集群中，可以方便地提取日志数据和分析信息，也可以通过对Kafka集群的扩展，为更大规模的日志数据提供支持。

安装教程

Win和Linux安装Kafka的步骤和命令有所不同，下面分别给出详细步骤。

Win安装Kafka

步骤一：下载Kafka

从官网 https://kafka.apache.org/downloads 下载Kafka，选择符合自己系统版本的Kafka，我选择的是2.8.0版本，下载后解压到本地文件夹。

步骤二：修改配置文件

进入Kafka目录下的config目录，修改server.properties文件，打开zookeeper.connect配置项，并修改成自己的zookeeper地址，默认为localhost:2181。

下面是server.properties文件部分内容：

# 用于Kafka服务监听的地址与端口号
listeners=PLAINTEXT://:9092
# 消息存储目录
log.dirs=/tmp/kafka-logs
# 控制器Zookeeper连接配置
zookeeper.connect=localhost:2181

步骤三：启动Kafka

在Kafka目录的bin目录下打开cmd窗口，启动Kafka服务：

bin\windows\kafka-server-start.bat config\server.properties

启动成功后，可以在控制台看到Kafka启动过程的详细信息。

Linux安装Kafka

步骤一：下载Kafka

从官网 https://kafka.apache.org/downloads 下载Kafka，并解压到本地目录，我选择了2.8.0版本，并解压到了/home/kafka目录下。

步骤二：安装Java

在Linux安装Kafka之前，需要先安装JDK。可以通过以下命令安装JDK：

yum install java-1.8.0-openjdk -y

安装完成后，可以使用以下命令进行检查：

java -version

输出相应的信息则代表安装成功。

步骤三：修改配置文件

进入Kafka目录的config目录，修改server.properties文件，打开zookeeper.connect配置项，并修改成自己的zookeeper地址，默认为localhost:2181。

下面是server.properties文件部分内容：

# 用于Kafka服务监听的地址与端口号
listeners=PLAINTEXT://:9092
# 消息存储目录
log.dirs=/tmp/kafka-logs
# 控制器Zookeeper连接配置
zookeeper.connect=localhost:2181

步骤四：启动Kafka

在Kafka目录下的bin目录下，执行以下命令启动Kafka服务：

./kafka-server-start.sh -daemon ../config/server.properties

启动成功后，可以用以下命令查看Kafka是否已启动：

jps -l

可以看到Kafka的运行进程。

SpringBoot整合Kafka

Spring Boot整合Kafka主要步骤包括以下几步：

引入Kafka的相关依赖，建立生产者和消费者。
编写配置文件，包含Kafka相关配置信息。
定义消息格式、生产者和消费者的处理逻辑。

以下是详细的步骤和完整代码：

引入Kafka相关依赖

<dependency>
    <groupId>org.springframework.kafka</groupId>
    <artifactId>spring-kafka</artifactId>
    <version>2.7.5</version>
</dependency>

编写配置文件

spring:
  kafka:
    bootstrap-servers: localhost:9092
    consumer:
      group-id: my-group
      enable-auto-commit: true
      auto-commit-interval: 1000
      auto-offset-reset: earliest
    producer:
      acknowledge: all

定义消息格式、生产者和消费者的处理逻辑

定义消息格式：

public class Message {
    private Long id;
    private String content;

    // getter、setter省略
}

生产者：

@Slf4j
@Service
public class KafkaProducer {

    @Autowired
    private KafkaTemplate<String, Message> kafkaTemplate;

    public void sendMessage(String topic, Message message) {
        log.info("生产者发送消息: topic={}, message={}", topic, message);
        kafkaTemplate.send(topic, message);
    }
}

消费者：

@Slf4j
@Service
public class KafkaConsumer {
    @KafkaListener(topics = "${kafka.topic}")
    public void handleMessage(Message message) {
        log.info("消费者接收消息: message={}", message);
        // 消息处理逻辑
    }
}

完整代码：

application.yml

spring:
  kafka:
    bootstrap-servers: localhost:9092
    consumer:
      group-id: my-group
      enable-auto-commit: true
      auto-commit-interval: 1000
      auto-offset-reset: earliest
    producer:
      acknowledge: all
    topic: test

Message.java

public class Message {
    private Long id;
    private String content;

    // getter、setter省略
}

KafkaProducer.java

@Slf4j
@Service
public class KafkaProducer {
    @Autowired
    private KafkaTemplate<String, Message> kafkaTemplate;

    public void sendMessage(String topic, Message message) {
        log.info("生产者发送消息: topic={}, message={}", topic, message);
        kafkaTemplate.send(topic, message);
    }
}

KafkaConsumer.java

@Slf4j
@Service
public class KafkaConsumer {
    @KafkaListener(topics = "${kafka.topic}")
    public void handleMessage(Message message) {
        log.info("消费者接收消息: message={}", message);
        // 消息处理逻辑
    }
}

通过以上步骤，我们就可以在Spring Boot中快速地实现Kafka的生产和消费。

本作品采用知识共享署名 4.0 国际许可协议进行许可