Wikipedia 기반 RAG QA 시스템 만들기
중급45분4시간 전
Wikipedia의 World War II 문서를 자동으로 수집한 뒤 250단어 청크로 나누고, Sentence Transformers로 임베딩을 만든 다음 ChromaDB에 저장해 질문과 관련된 문단을 검색하는 Python RAG 파이프라인을 만듭니다. 최종 결과물은 검색된 근거 청크를 바탕으로 답변용 컨텍스트를 출력하거나 LLM에 주입할 수 있는 Python 스크립트와 ChromaDB 벡터 저장소입니다.
이 실습은 터미널에서 진행됩니다
오른쪽 패널에서 설치 명령어를 복사하세요이런 걸 배워요
- Wikipedia API로 긴 문서를 자동 수집할 수 있습니다
- 긴 문서를 250단어 청크와 겹침 구간으로 나눌 수 있습니다
- Sentence Transformers로 청크 임베딩을 만들 수 있습니다
- ChromaDB에 검색용 벡터 저장소를 구성할 수 있습니다
- 검색된 문단을 LLM 답변 프롬프트에 주입하는 흐름을 이해할 수 있습니다
어떻게 진행해요
1. 환경 확인하기
2. 필요 패키지 설치하기
3. 문서 수집과 청크 생성하기
4. 청크 파일 실행 확인하기
5. 임베딩 저장소 만들기
6. 벡터 저장 결과 확인하기
7. 검색 답변 프롬프트 만들기
8. 질문 실행과 업무 적용 방향 정하기
AI 튜터가 각 단계를 하나씩 안내해줄 거예요