Quiz — Module 01: LLM Fundamentals¶
Q1. (Remember)¶
Transformer 의 핵심 3 컴포넌트는?
정답 / 해설
- Self-Attention — 토큰 간 관계 가중치 계산.
- Position Encoding — 시퀀스 순서 정보 주입.
- Feed-Forward Network (FFN) — 토큰별 비선형 변환.
Q2. (Understand)¶
LLM 이 "다음 토큰 확률 예측" 을 반복하는 자기회귀(autoregressive) 방식인데도 어떻게 글 전체에 일관성이 유지되는가?
정답 / 해설
이전 토큰들이 매번 입력에 포함되어 attention 으로 참조된다. 즉, "이전 컨텍스트 전체에 대한 확률 분포" 를 매 step 새로 계산하므로 일관성이 유지된다. context window 가 끝나면 일관성이 깨진다 — 그래서 long-context, summarization, RAG 같은 보완 기법이 필요.
Q3. (Apply)¶
사내 IP 보안 때문에 클라우드 LLM 을 못 쓰고 단일 A100 으로 70B 모델을 돌려야 한다. 적합한 조합은?
정답 / 해설
- Quantization (INT4, AWQ/GPTQ) — 70B FP16 약 140GB → INT4 약 35GB → A100 80GB 한 장에 들어간다.
- vLLM / TensorRT-LLM 같은 추론 엔진으로 KV cache, paged attention 활용.
- 품질이 부족하면 LoRA fine-tune 으로 소형 어댑터만 추가.
Q4. (Analyze)¶
Context window 가 두 배가 될 때 메모리/연산이 단순히 두 배가 아닌 이유는?
정답 / 해설
Self-Attention 의 연산은 시퀀스 길이 N 에 대해 O(N²). 메모리도 KV cache 가 N 에 비례해 늘어 attention 행렬은 N² 셀이 된다. 그래서 길이 2배 → 메모리 ~2배 + 연산 ~4배. Flash-Attention / GQA / Sliding Window 같은 기법으로 완화한다.
Q5. (Evaluate)¶
같은 task 에 대해 (a) 70B base 모델 직접 호출 vs (b) 7B + RAG 의 trade-off 를 평가하라.
정답 / 해설
- (a) 70B 직접: 추론 능력 ↑, 도메인 지식 부족 시 hallucination, 비용 ↑.
- (b) 7B + RAG: 도메인 지식은 RAG 가 채워줌, 추론 한계가 있어 복잡 reasoning 에서 실패 가능, 비용 ↓.
실무 결정은 task 의 reasoning 깊이 와 도메인 의존도 의 곱. reasoning 이 얕고 도메인 의존도 ↑ → (b). reasoning 이 깊고 일반적 → (a). 둘 다 깊으면 70B + RAG 조합.