임베딩과 벡터화 (1편): AI가 언어를 이해하는 방법
임베딩(Embedding)과 벡터화(Vectorization)는 자연어 처리(NLP), 검색 시스템, 추천 엔진, 그리고 RAG(Retrieval-Augmented Generation) 아키텍처의 핵심 기초입니다.많은 실무자들이 “임베딩=숫자로 바꾼다” 정도로 이해하지만, 실제로는 데이터 구조, 차원 공간, 거리 함수, 모델 특성까지 고려해야 성능이 보장됩니다. 이번 글에서는 실무 관점에서 벡터화와 임베딩을 정의 → 구현 → 활용 → 한계 순서로 풀어보겠습니다.1. 벡터화(Vectorization)의 기술적 정의 정의: 벡터화는 텍스트를 고차원 벡터 공간에 매핑하는 전처리 과정입니다.(1) 전통적 방법BoW (Bag-of-Words): 단어 등장 여부를 벡터화 (예: “고양이= [0,1,0,0,3]”)...
카테고리 없음
2025. 10. 13. 09:00