'임베딩'과 'reg'의 의미

'임베딩'과 'reg'는 대규모 언어 모델(LLM)과 RAG(Retrieval Augmented Generation) 맥락에서 자주 사용되는 용어입니다. 이 용어들의 정확한 의미를 이해하는 것은 LLM과 RAG의 작동 방식을 이해하는 데 도움이 됩니다.

임베딩(Embedding)

💡

임베딩은 자연어를 수치 벡터로 변환하는 과정을 의미합니다. 이는 컴퓨터가 텍스트 데이터를 이해하고 처리할 수 있도록 하는 핵심 단계입니다.

임베딩은 단어나 문장을 고차원 벡터 공간에 매핑합니다. 이때 의미적으로 유사한 단어나 문장일수록 벡터 공간에서 가까운 위치에 배치됩니다. 예를 들어, "개"와 "강아지"의 벡터 표현은 서로 가깝게 위치할 것입니다.

💡

임베딩 기술은 LLM과 RAG에서 매우 중요합니다. LLM은 입력 텍스트를 임베딩하여 내부 모델에 전달하고, RAG는 임베딩을 사용하여 관련된 정보를 외부 데이터베이스에서 검색합니다.

LLM과 RAG에서 임베딩을 사용하는 방식에 대해서는 /role-of-embeddings 섹션에서 자세히 다룹니다.

'reg'는 RAG(Retrieval Augmented Generation)의 약자입니다. RAG는 LLM의 생성 능력을 외부 데이터베이스의 정보 검색 기능과 결합한 기술입니다.

사용자의 질문이나 프롬프트를 임베딩합니다.

임베딩된 쿼리를 사용하여 외부 데이터베이스에서 관련된 정보를 검색합니다. 관련성은 임베딩 벡터 간의 유사도로 측정됩니다.

검색된 관련 정보와 원래 쿼리를 LLM의 입력으로 전달합니다.

LLM은 입력을 기반으로 최종 출력을 생성합니다. 이때 LLM은 외부 데이터베이스의 정보를 활용할 수 있습니다.

RAG 덕분에 LLM은 자신의 지식뿐만 아니라 외부 데이터베이스의 정보도 활용할 수 있게 되었습니다. 이를 통해 LLM의 성능과 응용 분야가 크게 확장되었습니다.

이처럼 '임베딩'과 'reg'는 LLM과 RAG의 핵심 개념이며, 두 기술의 작동 원리를 이해하는 데 중요한 역할을 합니다.