Quiz — Module 04: RAG¶
Q1. (Remember)¶
RAG 의 4-step 파이프라인은?
정답 / 해설
- Chunk — 문서를 의미 단위로 분할.
- Index — 임베딩 → vector DB 적재.
- Retrieve — 질의를 임베딩 → top-k 검색 (+ re-rank).
- Generate — 검색 결과를 prompt 에 합쳐 LLM 호출.
Q2. (Understand)¶
RAG 가 fine-tune 보다 운영 측면에서 유리한 시나리오를 설명하라.
정답 / 해설
- 자주 갱신되는 지식 : RAG 는 인덱스만 갱신하면 즉시 반영, fine-tune 은 매번 재학습.
- 출처 인용 필요 : RAG 는 검색된 문서 출처를 답변에 첨부 가능, fine-tune 은 어떤 데이터로 답이 나왔는지 추적 불가.
- 소량 데이터 : fine-tune 은 수천~수만 예시가 필요하지만 RAG 는 수십 문서로도 즉시 동작.
Q3. (Apply)¶
Hybrid 검색 (dense + BM25) 에서 두 점수를 어떻게 결합할 것인가?
정답 / 해설
- Weighted sum :
score = α * dense + (1-α) * bm25. α 는 validation set 으로 튜닝. - Reciprocal Rank Fusion (RRF) : 각 검색의 rank 만 사용해
1/(k+rank)합산. 점수 스케일 차이를 자연스럽게 흡수. - Re-ranker 로 합치기 : 두 검색의 top-N 합집합을 cross-encoder 로 재정렬.
RRF 가 대부분의 경우 robust 한 baseline.
Q4. (Analyze)¶
RAG 응답이 부정확할 때 단계별 진단 순서를 제시하라.
정답 / 해설
- Retrieval check : top-k 안에 정답 문서가 있는가? 없으면 → chunking, 임베딩 모델, hybrid 부족이 원인.
- Context window check : 정답 문서가 너무 길어 truncation 됐는가?
- Prompt check : 검색 결과를 LLM 이 무시하지 않도록 명확한 지시 ("Cite the source", "Answer only from the provided context") 가 있는가?
- Generation check : 같은 컨텍스트로 GPT-4 등 더 강한 모델이 풀면 풀리는가? → LLM 한계.
이 순서는 싸고 빠른 단계부터 점검하는 원칙이다.
Q5. (Evaluate)¶
RAGAS 의 Faithfulness, Answer Relevance, Context Recall 이 각각 측정하는 바는?
정답 / 해설
- Faithfulness : 답변이 검색된 컨텍스트로부터 grounded 되어 있는가? (hallucination 측정)
- Answer Relevance : 답변이 질의에 적합한가? (off-topic 여부)
- Context Recall : 정답에 필요한 정보가 검색된 컨텍스트 안에 다 들어 있는가? (retrieval 품질)
셋이 함께 측정되어야 어디가 깨졌는지 진단 가능. 한 가지만 보면 책임 소재가 흐려진다.