본문 바로가기

220317수 - 아직 많음.. 오픈할 것들이.. 분석쪽도 제법 있는데 정리가 안 되서 저장소를 못 열고 있다. 현재 하고 있는 데이터 파이프라인 프로젝 큰 작업이 끝나면 이전에 NLP 작업 하던 것도 정리하고,.. 논문 쓰면서 강화학습도 공부했는데 -_-;; 많이 잊기도 해서 한번 정리하고 올리는 게 좋을 듯... 분석도 재밌고, 분석을 위해 파이프라인을 만드는 것도 재밌다. 프로젝을 프로젝을 위한 프로젝이 아닌 정말 오픈할 수 있는 서비스를 목표로 연습하고 개발해 나갈 것이다. 남이 아닌 오직 나를 위해서.. 서비스 수익구조같은 것도 틈틈이 공부를 해야지. 책을 보며 시간관리를 좀 더 자세하게 기록해나가고 있다. 이전에 1분 몇 초 단위로 시간 기록을 하는 사람들을 보곤 숨이 턱 막혀서 항상 러프하게 목표를 설정하고 했는데 뭔가 시..
220315화 - 카프카 도커로 설치 airflow elt 작업 (db데이터 etl, 크롤데이터 etl 등등.. batch 작업용)+pipeline쪽으로 카프카를 통해서 여러가지 타입의 로그를 수집해서 s3에 넣는 작업을 하고 있다. 개인 프로젝트에서 빅데이터의 트래픽을 처리하는 게 쉽진 않겠지만. 일단 집 서버의 한도에 맞춰서 모니터링해보는 걸로.. 어차피 AWS는 쓸 줄 모르는 게 아니고, 서버에서 클라우드로 옮겨가면 설정 빼고는 스케일아웃도 알아서 해줘 오히려 짐이 줄어드는 건데 굳이 aws만 고집해서 실습할 필요가 있을까? kafka + zookeeper + akhq (kafka UI툴. 뭐라 읽나요?)도커로 설치했다.카프카+주키퍼는 docker compose를 이용해 띄우고akhq는 따로 도커로 띄우고, 도커의 카프카 주키퍼 네트워..
220311금 - Go 환경변수: GO111MODULE 딱 한 시간만 Go하기. go get으로 패키지를 설치했는데 패키지 import가 되지 않아서 찾다가 GO111MODULE 설정을 해야하는 것을 알게 되었다. 변수 변경 go env -w GO111MODULE=auto 모듈 동작은 GO111MODULE 환경변수에 의해 제어된다. 설정값: on, off, auto on: 빌드 중에 $GOPATH에 있는 패키지를 사용 off: 빌드 중에 $GOPATH 대신 모듈에 있는 패키지를 사용 auto: 현재 디렉터리가 $GOPATH 외부에 있고 go.mod 파일이 포함된 경우 모듈을 사용하고 그렇지 않으면 $GOPATH의 패키지를 사용 참조 https://yoongrammer.tistory.com/33
220308화 - Go 언어 다른 언어도 슬슬 써봐야지. 뭐든 레이더에서 거르면 안 되는군... 할 게 많아서 현재로서 중요도는 좀 떨어지곘지만.. 해야하는 게 많으니 프로젝트를 (목표를) 작게 잡아서 여러 개를 만들고 필요할 때마다 불러내서 덧붙이고 이래야 할 듯. 크고 복잡한(?) 걸 한번에 오랫동안 만드는 것보다는 작게 만든 다음 필요할 때 계속 업데이트 가능하게 만드는 게 맞는 것 같다. 기술 트렌드 파악할 수 있는 대표적인 사이트를 좀 알면 좋겠는데. 사실 주변에 사람이 있다면 같이 공유하는 게 제일 좋긴할거 같다. 혼자 하는 건 물론 할 수 있지만 시간이 더 걸리는 듯. 스터디를 찾아야 하나 만들어야 하나; 참조 → 개인공부를 위해 밑의 주소의 내용을 많이 참조했으며 밑의 원문을 읽으시는 것을 추천. 물어보는 사람이 많아..
220305금 - elasticbeanstalk 사용해서 api 띄우기 당신은 돈을 내기 위해 태어난 사람 ~(...) EBS도 돈이 나가는구먼. 로드밸런서.. 거 kinesis도 메세지 몇 개 던지지도 않았는데 저렇게 나왔다. 쩝..서울 리전이어서 더 비싼 것도 있는 듯하고. 이래저래 서버 띄울 일이 생겨서 aws의 elasticbeanstalk를 써보게 되었다. 어디서는 lambda로 띄우는 법도 있던데 aws 문서를 대충 보니 사이트 패키지를 람다와 연결된 ec에 설치하는 것 같다. EBS도 완전 관리형이라 한데 최소한의 설정방법은 알고 해야 안 헤맨다. nginx 502에러가 진짜 복병이었다....이 에러는 nginx 설정을 잘못해서 날 수도 있고, app에서 나는 에러때문에 생길 수도 있다. 에러엔 역시 콘솔로 접속해서 로그를 봐야 함; EB 브라우저에서 로그를 보..
깃정리. 깃 관리를 잘해야겠다. 너무 잘 정리된 곳을 보니 좀 창피하네 ㅎㅎㅎㅎ 설명도 잘 쓰고, 싹 정리해야겠다. 레포를 관리할 때 항상 누군가 볼거라는 전제하에 만들어야 겠군.. 부족함이 많아도 부끄러워하고 숨기보다는 알게 되어서 감사하고 어떻게 더 개선할 수 있을지를 생각하자.
220227일 - Kinesis 로 stream data 처리해보기 AWS가 확실히 문서나 피드백 수집이나 활용이나..훨씬 사용자 친화적이다. 파이프라인 만드는 것도 쉽다. 유튜브에서 활용사례 등 자료 찾기도 좋다. 괜히 1등하는게 아니다. 최근에 인터뷰 준비를 하면서 클라우드 서비스로 데이터 레이크 - 데이터 웨어하우스 를 구축하는 부분을 많이 조사했다. 조사하면서 AWS가 상당히 데이터플랫폼 구축에 친화적인 듯 하여 한번 호다닥 만들어 보기로 했다. 조사하면서 오 이런 것도 됨?하거나 해보면 좋은 것들은 다 다뤄볼 예정. 데이터는 크게 신경쓰지 않고 더미로 던질 것이다. kinesis로 받은 데이터를 s3나 RDS에 집어넣기 RDS의 트랜잭션 로그를 가져와서 실시간으로 s3에 집어넣기 간단한 데이터 레이크 → 웨어하우스 플랫폼 구축해보기 등등.. 개인적으로 클라우드 ..
220226토 - 기본 ELT pipeline 완료 spotify api에서 artist, track 정보를 이용해서 관련 테이블 내용을 보충한 다음 저장하려 했지만 spotify db는 NoSQL로 유사데이터들이 다량으로 검색되어서 이 부분은 제외하고 elt 작업을 진행했다. get_rawdata에서 raw data를 가져와서 적절히 정제한 다음 artist, user, track, user_history DB테이블에 집어넣는 작업이다. 각 테이블의 키 참조 조건을 고려하다보니 단순히 get_data → transform → store에서 먼저 저장해야 하는 테이블의 순서가 생기면서 밑과 같은 구조가 나왔다. 여기에서 spotify 데이터를 어떻게 처리할지 결정한 다음 album, track, artist 데이터를 업데이트하는 작업을 추가할 수 있겠다...