본문 바로가기

D.S/DE

220315화 - 카프카 도커로 설치

728x90

 

airflow elt 작업 (db데이터 etl, 크롤데이터 etl 등등.. batch 작업용)+

pipeline쪽으로 카프카를 통해서 여러가지 타입의 로그를 수집해서 s3에 넣는 작업을 하고 있다.

 

개인 프로젝트에서 빅데이터의 트래픽을 처리하는 게 쉽진 않겠지만. 일단 집 서버의 한도에 맞춰서 모니터링해보는 걸로.. 어차피 AWS는 쓸 줄 모르는 게 아니고, 서버에서 클라우드로 옮겨가면 설정 빼고는 스케일아웃도 알아서 해줘 오히려 짐이 줄어드는 건데 굳이 aws만 고집해서 실습할 필요가 있을까?

 

kafka + zookeeper + akhq (kafka UI툴. 뭐라 읽나요?)도커로 설치했다.

카프카+주키퍼는 docker compose를 이용해 띄우고

akhq는 따로 도커로 띄우고, 도커의 카프카 주키퍼 네트워크에 편입시킴(카프카와 통신문제 때문에).

카프카는 1대만 띄웠다.

 

설정 부분은 작업하면서 책을 참조해야겠다.

빅데이터를 고려할 때 어떤 부분을 살펴봐야 하는지?

 

도커 컴포즈 yml 설정


version: '2'
services:
  zookeeper:
    image: confluentinc/cp-zookeeper:latest
    environment:
      ZOOKEEPER_CLIENT_PORT: 2181
      ZOOKEEPER_TICK_TIME: 2000
    ports:
      - 22181:2181

  kafka:
    image: confluentinc/cp-kafka:latest
    depends_on:
      - zookeeper
    ports:
      - 29092:29092
    environment:
      KAFKA_BROKER_ID: 1
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092,PLAINTEXT_HOST://0.0.0.0:29092
      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
      KAFKA_INTER_BROKER_LISTENER_NAME: PLAINTEXT
      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1

 

 

 

 

 

 

 

 

반응형