RAG 성공의 열쇠 ③청킹 설계 패턴: 길이·자족성·중복 제어의 정석
RAG(Retrieval-Augmented Generation)의 성능은 데이터 준비 단계에서 결정됩니다. 앞서 ①편에서 정제, ②편에서 문장화를 다뤘다면, 이번 글의 주제는 청킹(Chunking) 입니다.청킹은 단순히 “문서를 잘라 넣는다”가 아니라, 얼마나 길게 자를지(길이), 자족성을 어떻게 보장할지, 중복을 어디까지 허용할지에 따라 검색 품질·속도·비용이 달라집니다. 이 글에서는 사실에 기반한 청킹 설계 3대 원칙을 설명하고, 적용 패턴을 제시합니다.1) 청킹이 중요한 이유너무 길면: 모델 컨텍스트를 초과해 잘려나가거나, 검색 정확도가 낮아짐.너무 짧으면: 의미가 단절되어 답변이 파편화, 여러 청크를 불필요하게 참조.중복이 많으면: 임베딩·검색 과정에서 잡음 증가, 비용 폭증.자족성이 없으면: “..
카테고리 없음
2025. 10. 5. 09:00