참가자들은 모두 동일하게 0점으로 시작하여 문제를 풀어 점수를 쌓는다. 한 참가자가 1등을 하다가도, 이내 다른 참가자가 손에 땀을 쥐게 하는 분발 끝에 큰 점수 차이를 뒤집기도 한다. 1등을 하는 참가자들은 자신이 이대로 우승까지 이어가기를, 아닌 참가자들은 자신이 뒤집을 수 있기를 바랄 것이다. 자연스럽게 제기되는 의문은 ‘현재 1등이 최종 우승을 할 확률은 어떤가?’ 이다. 더 자세하게는, ‘현재 1등이 300점 앞서고 있다면 그대로 우승을 할 확률은 얼마인가?’ 같은 질문에 대한 답을 찾고자 한다.
데이터는 2018년과 2019년 회차 가운데 (1) 일반인이 출연하고 (2) 개인이 출연하는 회차를 모았다. 조건을 만족하는 회차는 72개였다1. 2018년과 2019년 일반인 출연 회차는 모두 십자말풀이판 문제가 30개이므로 분석이 편하다. 2
1등이 우승할 확률
먼저 점수 차이와 상관없이, 현재 1등이 우승할 확률을 계산해보자. 특정 단계에서 1등이 우승할 확률을 아래와 같은 수식으로 표현할 수 있다.
n번째 문제에서 1등일 때 최종 우승할 조건부 확률 =
다시 말해 n번째 문제에서 1등을 하고 최종우승까지 한 사람의 숫자를 n번째 문제에서 1등을 한 사람의 숫자로 나누면 된다. 그런데 동점자가 있는 경우에, ‘1등을 한 사람의 숫자’가 분명히 정의되지 않는다. 1등이 없는 것인가, 아니면 2명인 것인가? 양쪽의 정의를 모두 분석해보기로 한다. 그런데 1등을 2명이라고 봤을 때 생기는 불균형이 있어, 이를 해결해야 올바르게 분석할 수 있다. 불균형을 구체적으로 살피기 위해 예를 들어보자. 회차 3개 가운데 회차 1은 10번째 문제에서 4명이 모두 동점이고 (당연히 이 중 한 명은 최종 우승자가 된다), 회차 2, 3번은 단독 1등이 있고 그대로 우승까지 거머쥔다. 이런 상황을 간단하게 나타내면 아래 그림과 같다:
이런 상황에서 위 수식을 별 생각 없이 적용하면, ’10번째 문제에서 1등이고 최종 우승한 사람의 수는 3명, 10번째 문제에서 1등인 전체 사람 숫자는 6명이니까 10번째 문제에서 1등인 사람이 최종 우승할 확률은 3/6=0.5로군.’이라고 결론을 내릴 수도 있다. 하지만 잘못된 계산이다! 이상한 점을 보기 위해, 다른 예를 생각해보자. 기존의 회차 1이 대체되어, 단독 1등이 있지만 1등이 우승을 하지 못한 상황이다. 그러면 아래 그림과 같은 상황이 된다.
이 경우의 확률을 계산해보면 10번째 문제에서 1등이고 최종우승한 사람의 수는 2명, 10번째 문제에서 1등인 사람은 3명이니 1등인 사람이 최종 우승할 확률이 0.66이다. 뭔가 이상하지 않은가? 기존의 데이터에서는 동점자이기는 했으나 1등이 항상 이겼고, 두 번째 데이터에서는 1등이 못 이긴 경우가 하나 있었음에도 두 번째 데이터에서 최종 우승할 확률이 더 높다! 이 문제는 첫 번째 데이터에서 승률을 계산할 때 각 회차에 동일한 가중치를 두지 않았기 때문이다. 각 회차에 동일한 가중치를 주려면, 동점자들을 ‘1/n’명으로 치고 계산해야 한다. 따라서 원래 상황에서 승률을 올바르게 계산하려면, 아래 그림과 같이 동점자들을 1/4명으로 쳐야 한다.
그러면 10번째 문제에서 1등이고 최종 우승한 사람은 2.25명, 10번째 문제에서 1등을 한 사람은 3명이므로 10번째 문제에서 1등 한 사람이 최종 우승할 정확한 확률은 2.25/3=0.75임을 알 수 있다.
이런 보정 끝에 1등의 승리 확률을 계산하면 아래와 같다.
당연한 일이지만 풀 수 있는 문제가 적을수록 역전에 필요한 점수를 얻기가 어려우므로, 뒤쪽 문제의 1등일수록 승리를 뒤집기 어려워진다. ‘동점자 무시’ 항목은 사실상 단독 1등을 하고 있을 때의 승리 확률이므로, 동점자를 모두 1등이라고 쳤을 때보다 승률이 조금 높다. [우리말 겨루기]의 중요한 변곡점에서 승률을 보면, 첫소리 문제가 끝났을 때 단독 선두가 이길 확률은 35%, 자물쇠 문제 직전의 25번 문제까지 풀었을 때 단독 선두가 이길 확률은 77%이다.
뒤 문제로 갈수록 승리 확률이 항상 높아져야 정확하겠으나, 그래프는 데이터가 충분치 않은 관계로 어느 정도의 등락이 있다. 선형 관계라고 가정하고 단독 선두의 승률에 대해 선형 회귀를 하면
와 같은 관계가 있음을 알아낼 수 있다. 1등을 하고 있으면 기본적으로 승리 확률이 35%, 문제가 하나하나 더해지면서 1등이 최종 우승할 확률이 대략 2%p씩 늘어나는 것이다. (intercept가 공정한 확률 1/4이 아니라 0.35인 이유는 이전 글에서 분석한 바와 같이 미지의 이유로 ㄱ자리가 평균적으로 우승자가 많이 나오는 것에 기인한다.)
재미로 꼴찌가 1등을 할 확률 역시 살펴볼 수 있다. 동점자를 1/n명으로 가정하는 방법을 써서 꼴찌의 승리 확률이 내려가는 모습을 계산하였다. 이 결과에 따르면 아무리 못해도 20번 문제에서는 꼴찌에서 벗어나야 우승을 할 가능성이 조금이나마 있다. (19번 문제에서의 꼴찌가 우승할 확률은 0.7%이다.)
선두가 점 앞섰을 때 이길 확률
그러나 방송을 보면 순위 자료뿐 아니라 누가 몇 점 앞섰는지도 알 수 있다. 비슷한 맥락에서 10번 문제에서 500점 앞선 선두와 50점 앞선 선두가 똑같이 55%의 승률을 가진다고 생각하기는 어렵다. 그러면 n번째 단계에서 x점 앞섰을 때, 선두가 이길 확률은 얼마일까? 아래 표에 해당 데이터를 정리해보았다. 공간이 여의치 않아 문제를 하나씩 건너 표를 만들었다.
예상할 수 있는 대로 2등과의 점수 차이가 높다면 이길 가능성이 일반적으로 올라간다. 또한 문제가 진행될수록 승리 확률이 높아진다. (표본 수가 적어 승률이 항상 아래로 오른쪽으로 갈수록 높아지지는 않지만, 경향은 확인할 수 있다.) 50~150점의 차이밖에 나지 않을 때는 문제가 진행이 돼도 우승할 확률이 눈에 띄게 증가하지는 않는데, 작은 점수 차이는 사실 한 문제로 뒤집힐 수도 있기 때문이다. 반면, 어느 시점에건 2등과 500점의 차이를 벌릴 수 있으면 우승하리란 자신감을 가져도 된다. 단 2명을 빼고 2등과 500점 차이를 벌린 사람은 항상 이겼다.3
이상으로 순위와 얻은 점수, 그리고 승리 확률에 대해 알아보았다. 글에서 내내 ‘확률’이라고 편하게 지칭했지만 사실 올바른 표현은 아니고, ‘역사적인 승리의 비율’을 ‘확률’이라고 줄여 말한 것이다. 이 글에 쓰인 값들은 어디까지나 역사적인 경향을 통해 계산한 근사치이며, 추후 더 많은 정보를 이용하여 업데이트될 수 있다. 또한 마지막 표를 해석할 때, 정말 500점 차이를 9번 문제에서 얻으면 무조건 이긴다고 해석하면 곤란하다. 9번 문제에서 500점 차이가 나는 참가자들이 우승한 것은 실력이 좋아서 이후 문제에서도 점수를 잘 얻는 경향이 있었기 때문이지, 단순히 700~800점을 얻었다고 해서 1등이 보장되는 것은 아니다. 일반적으로 각 단계에서 1등을 하는 사람들은 몇 점을 얻는지는 다른 글에서 살펴보기로 한다.