본문 바로가기

D.S/Python

210819목 - docx → txt 변환 python 패키지

728x90

 

docx2txt

설치: pip install docx2txt

참조: https://computersciencehub.io/python/python-converting-docx-file-to-text-file/

txt로 바뀌는 건 좋은데 \n가 단락마다 들어가서 불편함.

 

ex>

docx파일 내용이 다음과 같을 때

안녕하세요.
또 만났네요.
잘 지내셨죠?
행복하세요

 

txt로 바뀌면 다름처럼 단락 사이마다 \n을 넣어서 변환한다.

제대로 단락을 작성 안 하고 문장 길이에 따라 띄어쓰기를 하는 글같은 경우 한 줄마다 단락으로 인식해서 엔터가 너무 많이 들어가서 불편함.

 

안녕하세요.

또 만났네요

잘 지내셨죠?

행복하세요

 

 

 

docx

설치: pip install python-docx

doc: https://python-docx.readthedocs.io/en/latest/

docx 문서 구조를 세세하게 다룰 수 있음. 근데 그냥 텍스트만 추출하고 xml에 대해 잘 모르면 하면 좀 복잡하게 느껴질 수 있다.

대충보기에 가이드 문서가 잘 되어있는 듯.

 

 

반응형