RAG 성공의 열쇠 ① 데이터 정제: 무엇을 버리고 무엇을 남길 것인가?
“모델이 문제일까?”—대부분은 아닙니다. RAG의 품질은 질문 전에 이미 결정됩니다. 바로 데이터 정제(garbage-out 방지), 문장화(의미 보존), 청킹(문서 분할) 설계에서요. 이 글은 실제 운영 환경에서 통했던 원칙과 근거를 바탕으로, 무엇을 버리고 무엇을 남겨야 하는지 단계별로 안내합니다. (다음 편: JSON·표 데이터를 ‘사람 말’로 바꾸는 문장화 실전)1) 왜 “정제→문장화→청킹” 순서인가?정제: 잡음을 걷어내야 임베딩/검색의 신호대잡음비(SNR)가 좋아집니다.문장화: JSON/표처럼 키-값 중심 데이터는 의미 검색에 취약. 사람 문장으로 변환하면 검색과 매칭이 크게 향상됩니다. 청킹: “크게는 의미를 담되, 작게는 빠르게 찾게” 균형이 핵심입니다. 고정 길이보다 **의미 경계(제목·섹..
카테고리 없음
2025. 10. 3. 08:15