본문 바로가기

D.S/DE

220210목 - 데이터 탐색과 파이프라인 구조 만들기

728x90

 

아이고고 몸이 여러 개였으면 좋겠다...새로운 일정과 프로젝트 진행과 하루하루 열심히 달리고 있음.

 

 

ELT pipeline을 만들기 위해 데이터 선택과 간단한 분석, 이에 따라 데이터추출 파이프라인을 만들고 있다.

 

진행과정:

데이터 선택 → (데이터 분석 ↔ 어떤 데이터를 가공할 것인지 정리 ↔ 파이프라인 설계)

 

괄호 부분은 계속 루프를 돌면서 파이프라인을 쌓아갈 예정이다.

데이터를 요리조리 충분히 맛보고 작업을 하고 싶지만 그렇게 되면서 파이프라인 작업이 늦어질 것 같았다. 파이프라인 운영에 좀 더 초점을 맞추고 있어서.. 처음엔 테스트겸 비교적 단순한 작업이라도 파이프라인을 하나하나 만들면서, 추가적인 데이터분석을 통해 추출해보고자 하는 데이터 파이프라인을 쌓자.

 

작업하면서 추가적으로 DB의 테이블도 추가해야 한다. DB는 scheme을 생성하고 데이터를 쌓으면 변경이 힘드니, 이 부분이 나중에 골치 아파질까봐 걱정이 된다. DB는 MariaDB를 사용한다. 쿼리공부는 많이 될 것 같다.

 

데이터분석은 가장 즐거운 부분이다. 처음 본 데이터를 이리저리 시각화 하면서 재미있는 인사이트나 미처 생각치 못한 부분을 찾는 건 언제나 재밌는 일이다. 시각화도 재밌고.

밑은 빅쿼리에서 추출한 데이터를 데이터 스튜디오로 연결해 이것저것 탐색했던 내용의 일부이다.

데이터스튜디오도 빅쿼리API를 이용해 데이터를 뿌리는 것이기 때문에 과금되니 주의해야 한다.

 

 

 

좀 더 자세한 내용은 노션의 프로젝트에 적고 있다.

 

반응형