다양한 문서 파일을 LLM용 마크다운으로 자동 변환하기
중급18분2026-03-31
PDF, 엑셀, 이미지 등 다양한 포맷의 문서를 MarkItDown 라이브러리를 사용하여 LLM이 이해하기 쉬운 마크다운 텍스트로 자동 변환합니다. 특정 폴더 내의 파일을 일괄 처리하고 OpenAI API를 연동해 이미지 데이터까지 텍스트로 추출하여 저장하는 파이썬 자동화 스크립트를 만듭니다.
이 실습은 터미널에서 진행됩니다
오른쪽 패널에서 설치 명령어를 복사하세요이런 걸 배워요
- MarkItDown을 사용하여 다양한 문서 형식을 마크다운으로 변환할 수 있다
- OpenAI API를 연동하여 이미지와 복잡한 문서 구조를 텍스트로 추출할 수 있다
- 파이썬 자동화 스크립트로 일괄 처리 파이프라인을 구축할 수 있다
어떻게 진행해요
1. MarkItDown 패키지 설치하기
2. CLI로 단일 파일 변환 테스트
3. 파이썬 스크립트 작성 (기본 변환)
4. OpenAI API 키 설정하기
5. LLM 연동 스크립트 확장
6. 결과 확인 및 테스트
AI 튜터가 각 단계를 하나씩 안내해줄 거예요