최종 시뮬레이션 분석

2020년 11월 1일 (촬영일 D-9)에 친구 4명을 모아 한 명은 진행자, 나머지 셋과 나를 가상의 참여자로 삼아 [우리말 겨루기] 최근 3개 회차(825, 830, 831회)의 문제를 함께 풀어보았다. 목적은 나의 현재 약점과 강점을 알아내 다음 일주일간 공부할 내용을 결정하는 것, 그리고 경쟁자가 있는 상황에서 내가 얻는 점수가 얼마나 바뀌는지 측정하고, 출연해 이길 확률을 계산하는 것에 있었다. 다음 세 가지 설정에서 문제를 풀었다:

  • 몸풀기 (825회): 모든 참가자에게 정답을 알려주지 않고 함께 문제를 풀었다.
  • 실전 (831회): 나를 제외한 참가자들에게 정답을 알려주되 TV에서 질문이 시작되고 나서 참가자가 버저를 누를 때까지의 시간을 측정하여 그 시간에 맞게 대답하게끔 했다.
  • 대조군 (830회): 이전 시뮬레이션과 마찬가지로 경쟁 없이 혼자 문제를 풀었다.

최대한 실제와 비슷한 상황을 만들기 위해, 이전 시뮬레이션과 달리 촬영 중 일어날 수 있는 식곤증의 효과를 살펴보기 위해 시뮬레이션을 점심 식사 30분에 진행하고, 카메라 앞에서 일어날 수 있는 긴장의 효과를 내기 위해 커피를 2잔 마셨다. (나는 커피에 약해 평소에는 먹지 않는다.)

점수 결과와 승리 확률 계산

경쟁으로 지식 대비 잃는 점수가 13%, 1등으로 마칠 확률은 87%

몸풀기에서 1950점, 실전에서 1450점, 대조군에서 2050점을 얻었다. 실전 편에서 경쟁이 없었다면 얻었을 점수는 1650점이었다. 따라서 경쟁 때문에 내가 실제로 가지는 지식 대비 내가 잃는 점수가 전체 점수의 약 (1650-1450)/1650=0.13이라고 예상했다. 이를 바탕으로 몸풀기/대조군 점수를 보정하여 예상 점수의 분포를 구했다. 1 이렇게 최종 점수의 분포와 점수별 승리 확률 자료를 종합해 최종 승리 확률을 계산했다. 점수 s 변수를 두면, 다음과 같이 1등의 marginal probability를 구할 수 있다:

p(\text{win}) = \int p(\text{win}|s)p(s) \,ds

여기서 p(s)가 시뮬레이션을 통해 구한 최종 점수의 분포, p(\text{win}|s)는 최종 점수에 따른 1등 확률이다. 이렇게 최종 승리 확률 p(\text{win})=87\% (약 8분의 7) 를 계산했다.

(첨언하자면 최종 점수를 바탕으로 승리 확률을 계산한 건 최선의 접근은 아니었다고 생각한다. 시간이 있었다면 참가자의 실력 분포를 이용하여 계산하는 편이 경쟁 때문에 잃는 점수를 더 잘 보정했으리라 생각한다. 다만 이 분석을 하는 시점에서는 그럴 시간이 없었다.)

문제 유형별 정답률 분석

아래 분석은 풀면서 머릿속에 정답이 떠올랐는지를 바탕으로 계산했으며, 실제로 경쟁을 뚫고 맞혔는지는 고려하지 않았다.

공부 유형에 따른 정답률

기출 / 흔한 단어 / 공부하지 않은 단어에 대한 정답률:

keechool correctness: 91.7% (33/36) 
Wrong keechool: ['가운데', '공치사', '뒤끝'] 
common correctness: 66.7% (6/9) 
Wrong common: ['문서', '도입', '내뱉다'] 
unknown correctness: 33.3% (15/45) 
Correct unknowns: ['흐리멍덩하다', '자존심', '두꺼운', ...]

기출 가운데 ‘가운데’는 첫소리 문제로, ‘개이득’이라는 유행어가 머릿속에 맴도는 바람에 맞히지 못했다. ‘공치사’와 ‘뒤끝’은 기출 문제이기는 했으나 이전 출제와는 다른 뜻이 나와 맞히지 못했다. 따라서 기출 가운데 [우리말 겨루기] 출제와 다른 뜻이 있는 단어를 다시 공부하기로 했다.

사용 빈도가 높은 단어 중에는 ‘내뱉다’를 공부했으나 기억하지 못했다. 그런데 사용 빈도가 높은 단어는 분량이 방대한 반면에 복습했을 때 기대되는 점수 향상이 부족하다고 판단하여 복습하지 않기로 했다.

공부하지 않은 문제를 맞힐 확률은 33%로 계산했다.

문제 형식에 따른 정답률

첫소리/일반 문제/자물쇠 문제 등등에 대한 정답률은…?

Question Type 첫소리: 66.7% (8/12)
Question Type Normal: 60.5% (26/43)
Question Type 자물쇠: 60.0% (9/15)
Question Type 영상 쓰기: 75.0% (3/4)
Question Type 겹낱말: 0.0% (0/2)
Question Type 연상 쓰기 문제 (200): 100.0% (2/2)
Question Type 바른말 고르기: 0.0% (0/2)
Question Type 다듬은 우리말: 50.0% (1/2)
Question Type 또순이: 100.0% (2/2)

한 번만 나온 문제 유형은 제외하였다. 특별히 염두에 둔 부분은, 겹낱말/바른말 고르기 문제의 출제가 생각보다 잦고 내가 시뮬레이션에서 이런 유형의 문제를 전혀 맞히지 못했다는 점이다. 겹낱말 계열은 달인2 띄어쓰기 문제에서도 도움이 되므로, 흔한 고유어 명사의 겹낱말을 벼락치기 하기로 했다.

첫소리 문제의 정답률이 생각보다 낮았지만 (2/3), 초성 문제는 기출 문제 공부 효율이 굉장히 낮아 공부하지 않는 것이 바람직하다고 판단했다. (하지만 결국 불안함에 못 이겨 촬영일 당일 KBS로 가는 길에 첫소리 기출 문제를 벼락치기 했다.)

기타 분석 결론

  • 틀린 고유어 가운데 겹낱말과 명사가 잦았다. 따라서 고유어 겹낱말 명사를 공부하는 것이 바람직하다는 단서를 더 얻었다.
  • 구(속담/관용구)의 정답률은 33%로, 다른 문제 유형에 비해 낮았다. 따라서 관용구를 벼락치기 하기로 했다.
  1. bootstrapping으로 구하긴 했는데 급한 마음에 전혀 엄밀하게 분포를 구한 게 아니라 자세히 말하기는 부끄럽다.