'RAG' 태그의 글 목록

임베딩과 백터화 (6편): 하이브리드 검색으로 성능 뽑아내기

검색은 AI 시대에도 여전히 핵심 기술입니다.하지만, 전통적인 키워드 검색만으로는 의미를 놓치고, 임베딩 기반 의미 검색만으로는 정확도가 떨어질 수 있습니다. 그래서 최근에는 **하이브리드 검색(Hybrid Search)**이 주목받고 있습니다.이번 글에서는 하이브리드 검색의 개념부터 구현 방식, 그리고 실무에서의 적용 사례까지 살펴봅니다.1. 전통적 키워드 검색과 임베딩 기반의 검색 비교 구분전통적 키워드 검색 (BoW, TF-IDF, BM25)임베딩 기반 검색 (Dense Vector, RAG)개념문서와 쿼리에서 동일 단어의 등장 여부와 빈도를 기반으로 매칭텍스트를 벡터(임베딩)로 변환 후, 의미적으로 유사한 문서를 근접 탐색장점- 특정 단어 정확 매칭 강함 - 속도 빠름, 구현 단순 - 법률·계약처..

카테고리 없음 2025. 10. 18. 09:00

임베딩과 백터화 (5편): 백터DB 완전 가이드

앞선 4편에서 우리는 **청킹(Chunking)**의 정석을 다뤘습니다. 잘라낸 텍스트 조각을 이제는 저장하고 검색할 차례입니다.이때 등장하는 핵심 기술이 바로 **벡터 데이터베이스(Vector Database, 벡터DB)**입니다. 벡터DB는 단순한 저장소가 아니라, 임베딩을 기반으로 의미 검색을 가능하게 하는 핵심 엔진입니다. 이번 글에서는 벡터DB의 개념부터 대표 제품, 그리고 실무 적용 가이드까지 정리해보겠습니다.1. 벡터DB란 무엇인가?정의: 벡터DB는 텍스트·이미지·음성 등의 데이터를 임베딩 벡터로 변환해 저장하고, 유사도를 기준으로 검색할 수 있게 해주는 데이터베이스입니다.기존 관계형 DB: 키워드, 조건(where절) 기반 검색벡터DB: “의미(semantic)” 기반 검색👉 예: “애완..

카테고리 없음 2025. 10. 17. 09:00

임베딩과 백터화 (4편): 청킹 및 메타데이터 설계

임베딩을 아무리 잘 만들어도, 원문을 잘라 저장하지 않으면 검색 정확도는 급격히 떨어집니다.이 과정을 우리는 **청킹(Chunking)**이라고 부릅니다.청킹은 단순히 문서를 나누는 게 아니라, 얼마나 길게 자를지, 어디서 자를지, 어떤 맥락을 유지할지를 고민해야 하는 정밀 작업입니다. 이번 글에서는 청킹 설계의 정석을 단계별로 설명합니다.1. 길이: 적당한 분량이 핵심 너무 짧으면 → 문맥이 끊기고 의미 전달이 부족너무 길면 → 임베딩 비용 증가, 검색시 불필요한 정보 혼입실무 팁:일반적으로 300~500 토큰 단위가 적당법률·계약 문서처럼 길고 복잡한 경우 → 1,000 토큰 이상 청킹도 고려 가능2. 자족성(Self-Containment) 청크는 스스로 완결된 의미를 가져야 합니다.예를 들어,❌ 잘..

카테고리 없음 2025. 10. 16. 09:00

임베딩과 벡터화 (1편): AI가 언어를 이해하는 방법

임베딩(Embedding)과 벡터화(Vectorization)는 자연어 처리(NLP), 검색 시스템, 추천 엔진, 그리고 RAG(Retrieval-Augmented Generation) 아키텍처의 핵심 기초입니다.많은 실무자들이 “임베딩=숫자로 바꾼다” 정도로 이해하지만, 실제로는 데이터 구조, 차원 공간, 거리 함수, 모델 특성까지 고려해야 성능이 보장됩니다. 이번 글에서는 실무 관점에서 벡터화와 임베딩을 정의 → 구현 → 활용 → 한계 순서로 풀어보겠습니다.1. 벡터화(Vectorization)의 기술적 정의 정의: 벡터화는 텍스트를 고차원 벡터 공간에 매핑하는 전처리 과정입니다.(1) 전통적 방법BoW (Bag-of-Words): 단어 등장 여부를 벡터화 (예: “고양이= [0,1,0,0,3]”)...

카테고리 없음 2025. 10. 13. 09:00

RAG 구조 완전 해부: 벡터 DB부터 인덱싱 전략까지

최근 LLM(Large Language Model)의 활용이 폭발적으로 증가하면서, 정확도와 신뢰성을 높이는 방식으로 **RAG(Retrieval-Augmented Generation)**가 각광받고 있습니다.RAG는 단순 생성형 AI를 넘어, 외부 지식을 연결한 하이브리드 지능 시스템의 핵심 구조입니다.이번 글에서는 RAG의 구조부터, 벡터 DB, 인덱싱 전략, 기술 스택 비교, 실무 적용 시 고려사항까지 사실 기반으로 깊이 있게 정리해드리겠습니다.1️⃣ RAG란 무엇인가?RAG는 이름 그대로 **검색(Retrieval)**과 **생성(Generation)**을 결합한 구조로외부 지식 기반 문서 검색 → 해당 문서를 LLM에 함께 전달하여 응답 생성하는 방식입니다.기존의 키워드 검색, 검색 기반 QA ..

카테고리 없음 2025. 6. 24. 09:36

‘한컴어시스턴트’와 ‘한컴피디아’가 바꾸는 AI 문서 작성의 새로운 기준

2024년 12월 6일, 한글과컴퓨터(한컴)는 인공지능(AI)을 기반으로 한 혁신적인 솔루션 두 가지를 정식 출시했습니다. ‘한컴어시스턴트’와 ‘한컴피디아’는 문서 작성과 질의응답의 새로운 패러다임을 제시하며, 사무 환경의 효율성을 극대화할 도구로 주목받고 있습니다. 이 번 글에서는 한컴어시스턴트와 한컴피디아 그리고 한컴의 AI 혁신에 대해 알아보도록 하겠습니다.한컴어시스턴트: 자연어 기반의 문서 작성 혁신한컴어시스턴트는 자연어 기반으로 사용자의 의도를 파악해 자동으로 문서를 작성하는 AI 솔루션입니다. 제공되는 주제를 활용한 간편 초안 작성 기능, 이미지 생성, 한셀 연동 등의 강력한 기능을 갖추었으며, 클라우드 및 폐쇄망 환경 모두를 지원해 유연성을 높였습니다. 기존 생산성 도구와의 뛰어난 호환성으로..

카테고리 없음 2024. 12. 9. 18:13

AI 기반 그룹웨어란? 기업 생산성을 높이는 차세대 협업 도구

디지털 전환이 가속화되면서 업무 환경은 점차 협업 중심으로 변화하고 있습니다. 기업들은 효율적이고 유연한 협업을 가능하게 하는 도구를 찾고 있으며, 이에 따라 AI 기반 그룹웨어가 주목받고 있습니다. 이번 글에서는 AI 기반 그룹웨어란 무엇인지, 어떤 기술이 적용되며 기업에 어떤 이점을 제공하는지 알아보겠습니다.AI 기반 그룹웨어란?AI 기반 그룹웨어는 인공지능 기술을 활용해 기업 내 협업과 업무 관리를 지원하는 소프트웨어 플랫폼입니다. 단순히 이메일, 메신저, 일정 관리 등 기존 그룹웨어의 기능을 넘어 AI를 활용하여 데이터 분석, 자동화, 예측 등을 통해 업무 생산성을 극대화합니다.이러한 도구는 보고서 작성, 일정 조율, 데이터 정리와 같은 반복적 업무를 자동화하며, 팀 구성원이 창의적이고 전략적인 ..

카테고리 없음 2024. 12. 9. 09:02

생성형 AI 모델의 환각 현상 방지를 위한 방법

최근 생성형 AI 모델이 다양한 산업에서 혁신을 일으키고 있지만, 여전히 몇 가지 도전 과제가 존재합니다. 그중 하나가 바로 '환각 현상(hallucination)'입니다. 환각 현상이란 AI 모델이 실제로는 존재하지 않는 정보를 생성하거나 잘못된 내용을 사실인 것처럼 표현하는 현상을 말합니다. 이러한 문제는 특히 중요한 결정을 내려야 하는 비즈니스 환경에서 신뢰성과 정확성을 떨어뜨릴 수 있기 때문에 방지 방안이 필요합니다. 이번글에서는 생성형 AI 모델의 환각 현상을 줄이기 위한 여러 가지 방법에 대해 알아보겠습니다.1. 컨텍스트 그라운딩(Context Grounding)컨텍스트 그라운딩은 AI 모델이 생성한 정보를 실제 데이터와 비교해 정확성을 높이는 방법입니다. 이 방법은 모델이 생성한 내용이 실제..

카테고리 없음 2024. 9. 8. 08:16

정보제공

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

RAG

추가 정보

인기글

최신글

페이징

티스토리툴바