728x90
docx2txt
설치: pip install docx2txt
참조: https://computersciencehub.io/python/python-converting-docx-file-to-text-file/
txt로 바뀌는 건 좋은데 \n
가 단락마다 들어가서 불편함.
ex>
docx파일 내용이 다음과 같을 때
안녕하세요.
또 만났네요.
잘 지내셨죠?
행복하세요
txt로 바뀌면 다름처럼 단락 사이마다 \n을 넣어서 변환한다.
제대로 단락을 작성 안 하고 문장 길이에 따라 띄어쓰기를 하는 글같은 경우 한 줄마다 단락으로 인식해서 엔터가 너무 많이 들어가서 불편함.
안녕하세요.
또 만났네요
잘 지내셨죠?
행복하세요
docx
설치: pip install python-docx
doc: https://python-docx.readthedocs.io/en/latest/
docx 문서 구조를 세세하게 다룰 수 있음. 근데 그냥 텍스트만 추출하고 xml에 대해 잘 모르면 하면 좀 복잡하게 느껴질 수 있다.
대충보기에 가이드 문서가 잘 되어있는 듯.
반응형