AI Study

반드시 알고가자!

jimmmy_jin 2025. 6. 4. 16:52

✅ 1. 

RAG 개념 (Retrieval-Augmented Generation)

 

💡 왜 필요한가?

 

기존 LLM(GPT)은 훈련된 지식 외에는 아무것도 몰라요.

RAG는 외부 문서를 “읽고” 답변하는 구조로, LLM을 보다 현실적인 업무에 쓸 수 있게 해줍니다.

 

구성요소:

 

  • Retriever: 유저 질문에 관련 있는 문서 조각을 가져옴
  • Generator (LLM): 그 문서를 바탕으로 답변 생성

 


 

✅ 2. 

문서 → Chunk → Vector로 변환하는 흐름

단계설명

Document Loader PDF나 TXT 등 원본 문서를 로딩함
Text Splitter 너무 긴 문장을 잘게 쪼갬 (chunk_size, chunk_overlap 이해)
Embedding Model 문장 조각을 벡터로 바꿈 (숫자화)
Vector Store (FAISS) 벡터를 저장하고 유사한 벡터를 검색
💡 이 흐름을 이해해야 나중에 다양한 문서 형식, 검색 방식, DB로 확장 가능

 


 

✅ 3. 

FAISS란 무엇인가?

 

  • Facebook에서 만든 고속 벡터 검색 라이브러리
  • 문서 조각을 벡터로 변환해서 저장하고,
  • 사용자 질문을 벡터로 변환한 뒤, 유사한 문서 벡터를 빠르게 검색

 

💡 RAG에서 “R”에 해당하는 중요한 핵심

 


 

✅ 4. 

Prompt Engineering의 영향력

query = "Summarize this document in one sentence."

질문 하나만 바꿔도 LLM의 답변이 완전히 달라짐.

이 구조에서는 prompt가 곧 ‘애플리케이션의 기능’이 됩니다.

 

💡 “프롬프트 = 인터페이스 설계”라는 점을 인식하고, 잘 디자인해야 함

 


 

✅ 5. 

LangChain 구조 익히기

 

LangChain은 단순히 여러 기능을 감싼 wrapper이지만,

그 안에서 작동하는 각 Chain, Retriever, LLM, Document Loader가 어떻게 연결되는지 이해하면,

더 유연하고 강력한 RAG 시스템을 만들 수 있어요.

 


 

🧠 요약하자면:

개념꼭 알아야 하는 이유

RAG 구조 LLM을 실무에서 쓸 수 있게 만드는 핵심
문서 → 벡터 데이터 준비 과정 이해
FAISS 빠른 검색 성능 이해
Prompt 설계 원하는 결과를 얻기 위한 전략
LangChain 구성 커스터마이징을 위한 핵심 구조