Quiz — Module 02: Prompt Engineering¶

Q1. (Remember)¶

Zero-shot, Few-shot, CoT, Self-Consistency 의 한 줄 정의를 각각 적어라.

정답 / 해설

Zero-shot: 예시 없이 task 설명만 prompt 에 포함.
Few-shot: prompt 안에 입력-출력 예시를 N 개 포함.
CoT: 중간 추론 단계를 출력하도록 유도.
Self-Consistency: 같은 prompt 를 여러 번 샘플링 → 다수결.

Q2. (Understand)¶

Few-shot 이 모델 가중치를 변경하지 않는데도 동작이 바뀌는 이유는?

정답 / 해설

Transformer 의 self-attention 은 prompt 내 모든 토큰 패턴을 참조한다. 예시들이 prompt 에 들어 있으면 모델은 "최근 본 패턴을 따라서 다음 토큰을 만든다" — 즉, in-context pattern matching. 가중치 학습이 아니라 추론 시점에 컨텍스트 분포를 활용하는 것이다.

Q3. (Apply)¶

JSON 스키마에 맞는 출력만 받고 싶을 때 사용할 prompt 패턴을 작성하라.

정답 / 해설

시스템 prompt 에 형식 강제 — "Output MUST be valid JSON matching the schema below. Do not add commentary."
JSON Schema 본문 포함 — 필드/타입/required 명시.
Few-shot 예시 1~2개 — 정확한 형식의 예시 출력.
추가 안전장치 — response_format={"type":"json_object"} 같은 API 옵션이 있다면 같이 사용.

Q4. (Analyze)¶

CoT prompt 가 항상 정확도를 올리는 것은 아니다. 어떤 task 에서 효과가 미미한가?

정답 / 해설

단순 분류 / 추출 task: 추론이 거의 필요 없으므로 CoT 가 noise 만 추가.
모델 크기가 작은 경우 (7B 이하): CoT 자체를 잘 못 만들어 결과 악화.
출력 길이 비용이 critical 한 경우: CoT 로 비용 증가가 정확도 향상보다 클 수 있다.

→ CoT 는 multi-step reasoning + 충분히 큰 모델 조합에서 가장 효과.

Q5. (Evaluate)¶

"같은 task 에 prompt 만 다른 4가지 버전" 을 비교 평가할 때 권장되는 metric 3가지는?

정답 / 해설

정확도 (task-specific) — F1 / Exact Match / Pass@1 등.
토큰 비용 — 입력 + 출력 토큰 합 (USD 환산).
Robustness — 같은 입력에 대한 출력 분산(temperature 별로 N 회 측정) 또는 입력 paraphrase 에 대한 stability.

셋 모두 측정해야 ROI 가 보인다.