정보제공

고정 헤더 영역

글 제목

메뉴 레이어

정보제공

메뉴 리스트

    • 분류 전체보기
      • 4차산업혁명
      • 라이프스타일
      • 경제와 재테크
      • 커리어와 업무스킬
      • 문화와 역사

    검색 레이어

    정보제공

    검색 영역

    컨텐츠 검색

    Haystack Auto-Merging

    • RAG 성공의 열쇠 ① 데이터 정제: 무엇을 버리고 무엇을 남길 것인가?

      2025.10.03 by 늦둥이아빠

    RAG 성공의 열쇠 ① 데이터 정제: 무엇을 버리고 무엇을 남길 것인가?

    “모델이 문제일까?”—대부분은 아닙니다. RAG의 품질은 질문 전에 이미 결정됩니다. 바로 데이터 정제(garbage-out 방지), 문장화(의미 보존), 청킹(문서 분할) 설계에서요. 이 글은 실제 운영 환경에서 통했던 원칙과 근거를 바탕으로, 무엇을 버리고 무엇을 남겨야 하는지 단계별로 안내합니다. (다음 편: JSON·표 데이터를 ‘사람 말’로 바꾸는 문장화 실전)1) 왜 “정제→문장화→청킹” 순서인가?정제: 잡음을 걷어내야 임베딩/검색의 신호대잡음비(SNR)가 좋아집니다.문장화: JSON/표처럼 키-값 중심 데이터는 의미 검색에 취약. 사람 문장으로 변환하면 검색과 매칭이 크게 향상됩니다. 청킹: “크게는 의미를 담되, 작게는 빠르게 찾게” 균형이 핵심입니다. 고정 길이보다 **의미 경계(제목·섹..

    카테고리 없음 2025. 10. 3. 08:15

    추가 정보

    인기글

    최신글

    페이징

    이전
    1
    다음
    TISTORY
    정보제공 © Magazine Lab
    페이스북 트위터 인스타그램 유투브 메일

    티스토리툴바