Podcast

1. Kafka là gì

Lịch sử ra đời
Một hệ thống thương mại điện tử khi kết nối đến database, vì vậy sẽ có data pipeline như sau:
Nhưng thực tế còn kết nối với rất nhiều hệ thống khác:
Như vậy, data pipeline càng ngày càng phức tạp. Kafka tách rời các data pipeline giữa các hệ thống để làm cho việc communicate giữa các hệ thống trở nên đơn giản hơn và dễ quản lý hơn.

Khái niệm
Là 1 loại Message Queue
Là hệ thống xử lý message phân tán
Được thiết kế để xử lý, lưu trữ và truyền tải message trong các ứng dụng theo thời gian thực, dựa trên mô hình pub/sub

2. Message queue là gì

Là kiến trúc dùng để giao tiếp bất đồng bộ giữa các thành phần trong hệ thống
Dữ liệu được gửi và nhận thông qua hàng đợi (queue) và xử lý theo thứ tự (FIFO: vào trước ra trước)

3. Mục đích sử dụng message queue

Tách biệt các thành phần (producer, consumer) không bị phụ thuộc vào nhau
Đảm bảo xử lý bất đồng bộ: tăng hiệu suất và xử lý song song
Đảm bảo tin cậy: message được lưu trữ trên queue cho đến khi Consumer xử lý xong và ngăn mất dữ liệu khi hệ thống gặp sự cố
Dễ dàng mở rộng
Giảm tải cho hệ thống xử lý công việc dần dần

4. Có các loại công nghệ message queue nào ngoài kafka

RabbitMQ
AWS SQS
Azure Event Hub

5. Vậy trước đây hệ thống dùng gì trước khi sử dụng message queue

Request Http Api: Có độ trễ
Sử dụng qua db chung (A ghi - B đọc): ko real time (chờ schedule)
Polling: Tốn tài nguyên và ko real time

6. Mô tả cấu trúc chung của kafka

1. Producer

Cdb78680 0396 44aa 98c0 A9821f91e3e2

Khái niệm: Là 1 client application, publish message vào 1 topic cụ thể và luôn ghi vào leader broker
Theo mặc định, message được ghi đều vào các partition (có thể set key để chọn partition)
Quá trình gửi message tới Kafka gồm 4 bước:
Bước 1: Tạo ProducerRecord (Bắt buộc có topic và value, ko bắt buộc key và partition)
Bước 2: Serializer (Trước khi gửi qua network nó sẽ tuần tự hóa key và value thành dạng ByteArrays (mảng các Bytes)
Bước 3: Xác định số partition (Dữ liệu được gửi tới partition chỉ định, nếu không có chỉ định thì theo ProducerRecord key)
Bước 4: Broker xử lý event và trả về cho Producer (Nếu gửi thành công sẽ return partition, offset message, còn lỗi sẽ thông báo cho Producer và message được retry vài lần trước khi báo lỗi)

2. Broker

Ac16a6b7 075c 481b 9aaa 16bbb96d3a18

Là máy chủ server nằm trong Kafka Cluster.
Broker chịu trách nhiệm lưu trữ và xử lý message
Quản lý partition, lưu message trong commit log, xử lý replication

3. Topic

6dfe33d4 798e 4f10 A341 B457ca7de888

Là kênh hoặc danh mục để nhóm message
Là nơi producer gửi message và consumer lấy dữ liệu.
1 topic sẽ chứa n partition

4. Partition

Partition chia topic thành nhiều phần, để tăng khả năng xử lý song song và phân tán.
Mỗi message sẽ được gán 1 offset duy nhất, bắt đầu từ 0 và tăng dần (Offset dùng để xác định vị trí của message trong partition)
Mỗi partition được lưu trữ trên 1 broker chính (leader) và cho phép sao chép sang nhiều broker khác (follower) ngăn ngừa mất dữ liệu trong các trường hợp broker bị lỗi
Nếu 1 broker lỗi, 1 trong những follower sẽ được chọn làm leader nhằm đảm bảo tính khả dụng dữ liệu.

5. Consumer

Là thành phần nhận và xử lý message từ Kafka.
Kết nối tới topic để đọc message từ các partition theo thứ tự offset
Có 3 trường hợp đọc từ partition:
Trường hợp 1: Số Consumer < số Partition (Consumer 1,2 sẽ đọc lần lượt từ 4 Partition)
Trường hợp 2: Số Consumer = số Partition (Mỗi Consumer sẽ đọc từ 1 Partition, việc tăng Consumer sẽ chia tải và đọc message nhanh hơn)
Trường hợp 3: Số Consumer > số Partition (Không nên dùng vì 1 vài Consumer trở nên nhàn rỗi gây tốn tài nguyên)

6. Consumer Group

Là nhóm các consumer cùng đọc một topic (n group có thể cắm vào 1 topic)
Mỗi message chỉ được một consumer trong nhóm xử lý.
Hỗ trợ xử lý song song, chia tải giữa các consumer

7. Consumer offset

Là vị trí message mà consumer đọc đến trong partition của topic, giúp khôi phục lại quá trình tiêu thụ sau khi gặp sự cố.

8. Delivery Semantic

Là quy tắc đảm bảo message được gửi và nhận đặc biệt là khi gặp sự cố

At Most Once: Message có thể bị mất nhưng không bị gửi nhiều lần; không có cơ chế retry.
At Least Once: Message được gửi ít nhất 1 lần; nếu broker ko xác nhận (acks) thì nó sẽ gửi lại.
Exactly Once: Message đc gửi 1 lần ko bị mất và ko bị trùng lặp; sử dụng cơ chế idempotence.

9. Retention

Là chính sách quản lý thời gian dữ liệu được lưu trữ trong hệ thống trước khi bị xóa

Dữ liệu được giữ trong khoảng thời gian xác định: 7d, 30d,..
Dữ liệu được giữ với kích thước tối đa: 100GB,...
Xóa dữ liệu khi đạt trạng thái hoặc điều kiện nhất định

10. Fault Tolerance

Là khả năng của 1 hệ thống tiếp tục hoạt động khi 1 hoặc n thành phần gặp sự cố

Replication: Dữ liệu được sao chép trên nhiều broker.
Khôi phục dữ liệu ack từ Producer:
ack = 0: không cần xác nhận.
ack = 1: Broker leader xác nhận thành công.
ack = all: Chỉ xác nhận khi tất cả replica đã ghi thành công.

Consumer Offset: lưu lại vị trí đọc để khôi phục.

11. Replication

Partition trên broker (Ví dụ):
Broker 1: Partition 0, Partition 3, Partition 6
Broker 2: Partition 1, Partition 4, Partition 7
Broker 3: Partition 2, Partition 5

Set leader và follower sẽ nằm ở các broker còn lại.

7. Scale Application dùng kafka như thế nào

Chia partition: Tăng khả năng xử lý đồng thời
Tăng Broker: Tăng khả năng replication và dung lượng lưu trữ
Tăng Consumer: Tăng tốc độ đọc message và tự động cân bằng tải
Tăng producer: Tăng khả năng ghi message vào topic nhanh hơn

8. Kafka với Zookeeper (from which version), quorum?