본문 바로가기

220125화 - 에어플로우 설치와 기본 개념 찾아보기 #1 드디어 써보는구나. 설치 Docker 사용 공식사이트의 docker-compose.yml 이용. (postgre + redit) Airflow용 DB: postgre (*default: sqlite → 이 경우 executor를 SequentialExecutor밖에 못 쓴다고.) yml 설정에서 webserver 포트 9002:8080으로 바꿈. docker-compose v2.2.3 으로 업그레이드. 누군가 만들어놓은 docker-compose (v1.10.9 )를 사용했다가 2 설치 다시 함. 위의 스크립트를 띄우면 처음에 airflow-init이 실행하면서 메모리와 CPU를 체크한 후 문제가 없으면 airflow-webserver , flower, scheduler, triggerer 등등이 설치된..
220124화 - 새 프로젝트 시작 뭔가 잘 엮여있는 A, B, C 등 여러 일을 번갈아가면서 하고 있는데 상황이 상황인지라 그걸 다 하고 있는게 신기. 상황을 잘 이용해서 비교적 만족스러운 시간을 보내고 있다.집중도도 확 올라가고 지금처럼 신나게 개인 프로젝하기 좋은 타이밍도 없는 듯. 새 프로젝은 이전부터 생각하던 것인데 이런저런 이유로 바로 시작해야겠다. 간단히 설명하면..수영매니아들 중에는 맘에 드는 수영복을 찾는 경우가 종종 있다. 나같은 경우는 주로 티어제품을 뒤지다 이게 어디 브랜드 제품이고, 어디서 파는지 구글링으로 한참 찾고, 가격 비교도 내가 손수 다 뒤져야 하는 번거로움이 있었다. 또 각 브랜드의 신상도 한 곳에서 몰아보고 기타 등등 그 외에 기타 불편사항들을 해소하기 위해서 구상해둔 것이었음. 이번엔 혼자 쓰기보다는 ..
220113목 - google cloud logging과 monitor의 차이? 둘의 차이가 뭘까? 구글 클라우드 제품을 사용해 간단히 로그 파이프라인을 만들어보려고 하는데 둘의 차이가 헷갈린다. 글을 읽어보면 둘 다 데이터를 어느정도 분석할 수 있다는 건 비슷하지만 로깅은 데이터를 쌓는 것에 좀 더 중점을 두는 것 같고, 모니터링은 말 그대로 모니터링에 더 중점을 두는 듯 하다. alert 기능이나 실시간 데이터 대시보드 등도 제공하고. 구글문서: https://cloud.google.com/products/operations#:~:text=Cloud Logging automatically ingests Google,for non Google Cloud monitoring. 참조 https://stackoverflow.com/questions/63915463/google-cloud..
220124월 - 연습. 참조 그룹별 누적합계 구하기 다음 프로젝에는 RDBMS를 중점적으로 써야겠다. 더미 테스트 데이터 밀어넣기구글시트 → 판다스
220121금 - 종속변수 변환에 따른 오차 차이 관찰#1 house price 데이터를 RL로 예측하는 분석을 해보고 있는데. 전처리를 참조하는 데이터와 비슷하게 했음에도 불구하고 오차 차이가 0.6정도가 난다. 왜죠?? 처음에는 내 나름대로 전처리를 했으나 나중에는 하나하나 내가 다르게 했던 것들을 비교하며 바꾸었다. get_dummies()를 사용한 원핫인코딩 부분에서 0.1정도 줄이고는 도저히 안 줄여서 정말 한줄한줄 비교했는데...결정적으로 오차의 차이가 확 준건 종속변수인 SalePrice 변환때문이었다. log1p와 boxcox1p 의 오차율 차이의 원인? 처음에 SalePrice를 boxcox1p를 사용해서 변환했다. 그리고 그 밑은 log1p를 사용해 바꾼 것. skew 정도가 바뀌어서 평균이 오른쪽으로 이동했는데 큰 차이점은 값의 범위이다.lo..
GPU 하이재킹 #1 - 딥러닝 관련 패키지 설치시 특히 주의할 것 내가 당한 GPU 하이재킹 기록이다. 평소처럼 pip 로 딥려닝 관련 패키지를 설치하고 코딩을 하고 있었다. 보통 커맨드 창을 띄워놓고 gpu 사용량을 계속 모니터링하는데 어느 순간부터 이상한 위치에서 GPU를 절반이나 차지하고 있다. 처음에는 주피터에서 계속 여러 작업을 하고 놔두니 내 프로그램의 뭔가이겠구나 싶었는데, 커널을 다 내리고, 주피터 랩 자체를 셧다운했는데도 계속 남아있는 것이었다. 이상해서 프로세스 돌아가는 디렉토리로 가보니..웬걸;; 나도 모르는 T-Rex 채굴 프로그램이 돌고있네? -_-; 이더스캔 들어가니까 아주 그냥 많이 해드셨네. 도둑노무시키 지갑내역: https://etherscan.io/address 아니 이런게 대체 언제 깔린거지??? 싶어서 기억을 더듬어보았는데, pip로..
TF2 GPU 메모리 할당 수거 방법 ? TF2가 메모리 할당을 키우는 건 있어도 의도적으로 해제하는 공식적(?) 방법은 현재로서는 없는 것 같기도..;; 메모리를 다 잡고 있으니까 너무 불편한데. 계속 커널 내렸다 올렸다 해야 하고.. 참조: https://github.com/tensorflow/tensorflow/issues/36465 How can I clear GPU memory in tensorflow 2? · Issue #36465 · tensorflow/tensorflow System information Custom code; nothing exotic though. Ubuntu 18.04 installed from source (with pip) tensorflow version v2.1.0-rc2-17-ge5bf8de 3.6 ..
gensim 에러 2 - word2vec Index out of bounds with version 4.x gensim은 참 좋은 패키지이다. 주요 워드임베딩 기능을 편하게 사용할 수 있으니... word2vec 객체에서 pre-trained 임베딩 벡터를 가져오는데 몇 가지 문제가 생겨서 기록한다. 찾아보니 버전이 3.x 에서 4.x로 업그레이드 되면서 생긴 것들이었다. 현재 4.1.2를 사용하고 있음. # ! pip list | grep gensim # gensim 4.1.2 # 1. AttributeError: 'Word2Vec' object has no attribute 'intersect_word2vec_format' intersect_word2vec_format 함수가 Word2Vec 객체의 wv 안으로 들어갔다. # # 3.x 버전? w2v_model.intersect_word2vec_format..