본문 바로가기

210127목 - yaml의 alias yaml을 보는 중에 &default ,
220220일 - SQL과 NoSQL 다시 정리할 겸. 데이터엔지니어로 회사의 스택들을 보면 nosql보다는 sql쪽이 훨씬 많이 보이긴 한다. 계속 관계형 디비를 사용해와서 새로운 DB로 바꾸는 비용을 들이고 싶지 않아서 일수도 있을 것 같기도 하고. 분석쪽은 sql을 주로 많이 이용하니 다른 팀과의 데이터사용을 고려해서 관계형 디비를 사용할 수도 있을 것 같고.. 일관성 때문에 유연성이나 스케일아웃 문제에도 불구하고 sql을 더 쓰는걸까. 데이터 저장하면서 스케일 아웃이 필요한 시기가 있을 것이고 관계형DB는 스케일아웃에는 적합치 않다 들었는데. 어떻게 처리하고 있는걸까? 데이터레이크 쪽은 nosql로 하고, elt 작업으로 처리한 분석을 위한 데이터는 sql을 사용하고. 그런걸까? -> 생각해보면 sqldb의 데이터가 얼마 이상이고 튜..
220218금 - airflow dag file에서 내 module file 사용하기 dag py file을 작성하면서 나의 source 파일을 import해오는데 import가 안 된다고 에러가 나서 찾아보다 공식문서가 너무 친절하게 가이드를 해두어서 정리해본다. https://airflow.apache.org/docs → 의역있고, 적당히 정리해서 표현하기도 합니다. airflow 사용하시는데 도움이 되었으면 좋겠습니다. :)) Module management Airflow는 airflow의 configuration과 DAG에서 개인 파이썬 모듈(즉 나의 파이썬 코드)을 사용할 수 있도록 해두었습니다. 이 문서는 어떻게 커스텀 모듈을 생성하고 에어플로우가 그걸 제대로 로드할 수 있도록 가이드할 것입니다. 보통 에어플로우 배포에 보통 소스코드, 라이브러리 형태의 개인코드를 함께 사용해서..
220215화 - 데이터 탐색 #2 주말에 거사?를 치루고 다시 프로젝트로 돌아왔다. 잘 한 것같아 다행이나 다음 관문이 또 문제... 어쨋거나, 이 프로젝트. 이렇게 저렇게 하면 금방 될줄 알았는데..아니다. 누군가가 정리해준 거나 있는 디비를 가지고 구현하는 게 아니다보니 모든 걸 다 만들어야 한다. DB도 설계해야하고, 데이터도 탐색해야 해서 어떤 데이터를 삭제하고, 수정하고, 보완하고, 어떻게 새로운 데이터를 만들어낼지 찾아야 하고, 결코 빠르게 끝날 일이 아니었다. 이것만 붙잡고 있는 것도 아니니.. DB나 프로젝트 관련 스택에 대해 모르거나 궁금한 것들 찾아보고 정리도 해야 하고. 사실 대충 파이프라인만 만들어낸다 생각하면 아무렇게나 만들 수 있지만 또 그건 무슨 의미가 있고, 그렇게 해서 뭐를 얻어갈까 싶어서 데이터 들여다보면..
220211금 - 데이터웨어하우스 개념 개인적인 공부를 위해 짜집기한 글. 위키가 제일 도움이 되었고, 많이 가져왔다. DW는 하나의 툴이 아니고 데이터분석을 위한 데이터 관리 시스템이라 보면 되겠군.. 참조 aws 페이지 - 관련 aws 서비스: Redshift 해시넷 위키 데이터 웨어하우스란? 비즈니스 인텔리전스(BI) 활동, 특히 분석 작업을 지원하도록 설계된 일종의 데이터 관리 시스템 데이터 웨어하우스는 오로지 쿼리와 분석을 수행하기 위해 개발된 것으로, 주로 대량의 과거 데이터를 포함한다. 데이터 웨어하우스에 있는 데이터는 일반적으로 애플리케이션 로그 파일이나 트랜잭션 애플리케이션과 같은 다양한 출처에서 수집된다 특화된 데이터뿐만이 아니라 기업 활동 전반에 필요한 모든 정보를 일원화해 관리 병렬 서버의 등장과 자기 디스크 장치의 대용..
220211금 - Astronomer의 다양한 Dag example 저장소 Aiflow operator를 검색하다가 astronomer의 dag example 페이지를 발견했다. 카테고리별로 dag 예제가 잘 분리되어 있고 클라우드시스템과 연계된 dag들을 많이 보인다. - https://registry.astronomer.io/dags data pipeline쪽 토픽을 찾다보면 저 astronomer도 상당히 자주 눈에 띈다. 눈에 띈다는 얘기가 나온 김에 검색을 하다보면 snowflake도 상당히 눈에 많이 띈다. 찾아보니 클라우드 DW 관리 시스템이다. 한국 회사 스텍에서는 아직 본 적이 없어서 찾아보니 작년 11월 말에 스노우플레이크가 한국에 진출한다는 기사를 확인할 수 있었다. 아마도 대기업들이 어느순간 하나 둘 스노우플레이크를 도입하고 성공적인 관리 사례를 발표하면 ..
220210목 - 데이터 탐색과 파이프라인 구조 만들기 아이고고 몸이 여러 개였으면 좋겠다...새로운 일정과 프로젝트 진행과 하루하루 열심히 달리고 있음. ELT pipeline을 만들기 위해 데이터 선택과 간단한 분석, 이에 따라 데이터추출 파이프라인을 만들고 있다. 진행과정: 데이터 선택 → (데이터 분석 ↔ 어떤 데이터를 가공할 것인지 정리 ↔ 파이프라인 설계) 괄호 부분은 계속 루프를 돌면서 파이프라인을 쌓아갈 예정이다. 데이터를 요리조리 충분히 맛보고 작업을 하고 싶지만 그렇게 되면서 파이프라인 작업이 늦어질 것 같았다. 파이프라인 운영에 좀 더 초점을 맞추고 있어서.. 처음엔 테스트겸 비교적 단순한 작업이라도 파이프라인을 하나하나 만들면서, 추가적인 데이터분석을 통해 추출해보고자 하는 데이터 파이프라인을 쌓자. 작업하면서 추가적으로 DB의 테이블도..
220206일 - ELT(or ETL) 파이프라인 만들기 #1 바로 전에 apbot을 스케줄러에 올리는 작업을 통해 airflow에 입문을 했으니 이번에는 보다 여러 테스크가 들어간 DAG를 생성해보려고 한다. apbot은 원래 airflow를 염두에 두고 만든 것은 아니었기 때문에 글 발행 스케줄 작업이 순조롭지만은 않았고, DAG도 단일테스크였다. 하지만 앱을 airflow를 통해 관리하게 될 때 어떤 문제가 생기고 어떤 식으로 관리하는 게 효율적인지 생각해볼 수 있고, DAG와 Airflow 설정을 들여다볼 수 있었다. 또한 곁들여서 GCP와 같은 SaaS와 오케스트레이션 툴인 쿠버네티스도 입문할 수 있었다. 쿠버네티스의 기술은 차차 공부해가야 하겠지만 사용법은 도커와 흡사해서 그나마 다행인 듯 하다. GCP는 한번 사용하다보니 클라우드에서 제공하는 다양한 서..