정보제공

고정 헤더 영역

글 제목

메뉴 레이어

정보제공

메뉴 리스트

    • 분류 전체보기
      • 4차산업혁명
      • 라이프스타일
      • 경제와 재테크
      • 커리어와 업무스킬
      • 문화와 역사

    검색 레이어

    정보제공

    검색 영역

    컨텐츠 검색

    TF-IDF

    • 임베딩과 백터화 (6편): 하이브리드 검색으로 성능 뽑아내기

      2025.10.18 by 늦둥이아빠

    • 임베딩의 본질 (3편): “의미를 숫자로” 만드는 법

      2025.10.15 by 늦둥이아빠

    • 임베딩과 백터화 (2편): TF-IDF와 희소 벡터 제대로 쓰기

      2025.10.14 by 늦둥이아빠

    • 임베딩과 벡터화 (1편): AI가 언어를 이해하는 방법

      2025.10.13 by 늦둥이아빠

    임베딩과 백터화 (6편): 하이브리드 검색으로 성능 뽑아내기

    검색은 AI 시대에도 여전히 핵심 기술입니다.하지만, 전통적인 키워드 검색만으로는 의미를 놓치고, 임베딩 기반 의미 검색만으로는 정확도가 떨어질 수 있습니다. 그래서 최근에는 **하이브리드 검색(Hybrid Search)**이 주목받고 있습니다.이번 글에서는 하이브리드 검색의 개념부터 구현 방식, 그리고 실무에서의 적용 사례까지 살펴봅니다.1. 전통적 키워드 검색과 임베딩 기반의 검색 비교 구분전통적 키워드 검색 (BoW, TF-IDF, BM25)임베딩 기반 검색 (Dense Vector, RAG)개념문서와 쿼리에서 동일 단어의 등장 여부와 빈도를 기반으로 매칭텍스트를 벡터(임베딩)로 변환 후, 의미적으로 유사한 문서를 근접 탐색장점- 특정 단어 정확 매칭 강함 - 속도 빠름, 구현 단순 - 법률·계약처..

    카테고리 없음 2025. 10. 18. 09:00

    임베딩의 본질 (3편): “의미를 숫자로” 만드는 법

    앞서 우리는 BoW, TF-IDF 같은 전통적인 벡터화 방법을 살펴봤습니다. 이들은 단어의 빈도를 세는 데 탁월했지만, 의미와 맥락을 담는 데는 한계가 있었죠. 그래서 등장한 개념이 바로 **임베딩(Embedding)**입니다. 임베딩은 단순히 단어가 몇 번 나왔는지가 아니라, 단어·문장·문서가 어떤 의미를 가지는지를 수치(벡터)로 표현하는 방법입니다.1. 임베딩이란 무엇인가?정의: 임베딩은 텍스트를 저차원(dense) 벡터 공간에 매핑하여, 유사한 의미를 가진 단어와 문장을 가까운 벡터로 표현하는 방법입니다.예시:“강아지”와 “고양이”는 서로 가까운 위치“자동차”와 “커피”는 서로 멀리 떨어진 위치즉, 임베딩은 단순한 숫자가 아니라 언어 의미를 담은 좌표계라고 할 수 있습니다.2. 밀집 벡터(Dense..

    카테고리 없음 2025. 10. 15. 09:00

    임베딩과 백터화 (2편): TF-IDF와 희소 벡터 제대로 쓰기

    1편에서 우리는 임베딩과 벡터화의 큰 그림을 살펴보았습니다. 이번 2편에서는 그 출발점이라 할 수 있는 전통적인 벡터화 기법을 다룹니다. 바로 **BoW(Bag-of-Words)**와 **TF-IDF(Term Frequency – Inverse Document Frequency)**입니다.이 두 방법은 오늘날의 임베딩만큼 똑똑하지는 않지만, 여전히 검색·텍스트 분석의 기초 도구로 널리 사용됩니다.1. BoW (Bag-of-Words): 단순하지만 강력한 시작 정의: 문서를 단어의 “가방(bag)”으로 보고, 어떤 단어가 몇 번 등장했는지 세어 벡터로 표현하는 방식.예:문서 A: “고양이가 강아지를 쫓는다” → {고양이:1, 강아지:1, 쫓는다:1}문서 B: “강아지가 고양이를 쫓는다” → {강아지:1, ..

    카테고리 없음 2025. 10. 14. 09:00

    임베딩과 벡터화 (1편): AI가 언어를 이해하는 방법

    임베딩(Embedding)과 벡터화(Vectorization)는 자연어 처리(NLP), 검색 시스템, 추천 엔진, 그리고 RAG(Retrieval-Augmented Generation) 아키텍처의 핵심 기초입니다.많은 실무자들이 “임베딩=숫자로 바꾼다” 정도로 이해하지만, 실제로는 데이터 구조, 차원 공간, 거리 함수, 모델 특성까지 고려해야 성능이 보장됩니다. 이번 글에서는 실무 관점에서 벡터화와 임베딩을 정의 → 구현 → 활용 → 한계 순서로 풀어보겠습니다.1. 벡터화(Vectorization)의 기술적 정의 정의: 벡터화는 텍스트를 고차원 벡터 공간에 매핑하는 전처리 과정입니다.(1) 전통적 방법BoW (Bag-of-Words): 단어 등장 여부를 벡터화 (예: “고양이= [0,1,0,0,3]”)...

    카테고리 없음 2025. 10. 13. 09:00

    추가 정보

    인기글

    최신글

    페이징

    이전
    1
    다음
    TISTORY
    정보제공 © Magazine Lab
    페이스북 트위터 인스타그램 유투브 메일

    티스토리툴바