728x90
airflow elt 작업 (db데이터 etl, 크롤데이터 etl 등등.. batch 작업용)+
pipeline쪽으로 카프카를 통해서 여러가지 타입의 로그를 수집해서 s3에 넣는 작업을 하고 있다.
개인 프로젝트에서 빅데이터의 트래픽을 처리하는 게 쉽진 않겠지만. 일단 집 서버의 한도에 맞춰서 모니터링해보는 걸로.. 어차피 AWS는 쓸 줄 모르는 게 아니고, 서버에서 클라우드로 옮겨가면 설정 빼고는 스케일아웃도 알아서 해줘 오히려 짐이 줄어드는 건데 굳이 aws만 고집해서 실습할 필요가 있을까?
kafka + zookeeper + akhq (kafka UI툴. 뭐라 읽나요?)도커로 설치했다.
카프카+주키퍼는 docker compose를 이용해 띄우고
akhq는 따로 도커로 띄우고, 도커의 카프카 주키퍼 네트워크에 편입시킴(카프카와 통신문제 때문에).
카프카는 1대만 띄웠다.
설정 부분은 작업하면서 책을 참조해야겠다.
빅데이터를 고려할 때 어떤 부분을 살펴봐야 하는지?
도커 컴포즈 yml 설정
version: '2'
services:
zookeeper:
image: confluentinc/cp-zookeeper:latest
environment:
ZOOKEEPER_CLIENT_PORT: 2181
ZOOKEEPER_TICK_TIME: 2000
ports:
- 22181:2181
kafka:
image: confluentinc/cp-kafka:latest
depends_on:
- zookeeper
ports:
- 29092:29092
environment:
KAFKA_BROKER_ID: 1
KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:9092,PLAINTEXT_HOST://0.0.0.0:29092
KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
KAFKA_INTER_BROKER_LISTENER_NAME: PLAINTEXT
KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
반응형