2020년 04월 – [우리말 겨루기] 분석

[우리말 겨루기] 809회 분석

(수치에 대한 설명은 여기서 찾을 수 있다.)

2020년 4월 27일 방영. 조용덕, 김현숙, 김용진 씨는 이전에 참여하여 우승을 한 경험이 있다. 김명숙 씨에 대한 정보는 찾을 수 없었다. 그럼에도 불구하고 김명숙 씨는 나름 분발했다: 8번 문제부터 22번 문제까지 1번을 빼고 내리 선두를 달렸다.

김용진씨의 역전이 눈에 띈다. 15번 문제에서 50점까지 내려가는 등 패색이 짙었지만, 이후 25번 문제까지 총 900점(!)을 얻으며 자물쇠 문제 전에 일반적인 1등의 점수 범위에 진입하는데 성공했다.

김명숙 씨와 조용덕 씨는 동점, 공동 3등으로 자물쇠 문제를 끝냈기 때문에 비교하는 집단 점수가 같다. 둘 다 최종 점수가 3등의 일반적인 점수를 상회했다. 특히 김명숙 씨는 초반에 많은 문제를 맞히며 승기를 굳히는가 했으나, 김용진 씨의 분발에 밀려 후반에서 점수를 얻지 못해 3등에 머물라야 했다. 앞서 말했지만 김용진 씨의 역전이 정말 눈에 띄는데, 15번 문제에서 꼴등인 경우 이길 확률이 1~2%밖에 되지 않는다. 다른 사람들 또한 평균적인 참가자를 넘어섰기 때문에, 우승은 점수가 고르게 갈린 것 보다도 김용진 씨가 후반 문제를 석권한 실력의 덕이 크다.

모든 참가자가 고만고만 잘했기 때문에 두드러지게 자신이 속한 집단에서 잘하거나 못한 사람은 없었다. 김용진씨는 30대 남자 그룹에서 상위권에 위치하기는 했다.

실상 대부분의 참가자가 일반적인 참가자와 통계가 비슷했다. 눈에 띄는 점은 김용진씨가 정답률이 높았다는 점 정도이다.

김용진 씨의 초반 부진에도 불구하고, 전체적인 통계를 봤을 때 김용진 씨는 김현숙 씨를 모든 면에서 앞섰다. 김용진 씨는 경쟁적인 문제를 더 많이 맞혔으며 속도가 더 빨랐고, 정답률 또한 더 높았다. 덕분에 우승의 기회를 잡을 수 있었다.

[우리말 겨루기] 808회 분석

(수치에 대한 설명은 여기서 찾을 수 있다.)

2020년 4월 20일 방영. 이전에 출연한 바가 있는 46세의 강수연 씨가 이겼다. 강수연 씨는 40대 여성으로, 승률이 가장 높은 인구 집단에 속한다. 2013년에 참가한 이력까지 있으니 한 문제를 풀기도 전에 강력한 우승 후보였던 셈이다. 그럼에도 불구하고 초반에는 고전을 면치 못했다.

9번 문제까지는 내리 꼴등이었다가, 10번 문제 이후 거의 모든 문제를 석권하며 1등 자리를 굳혔다. 18번 문제쯤부터는 이미 승리가 거의 확실하였다 (2등과 500점 이상의 차이를 벌린 뒤에 지는 일은 극히 드물다). 결국 처음 두 개의 자물쇠 문제를 맞추며 승리를 거머쥐었다.

이런 경향은 2018-2019년의 등수별 점수 분포와 비교해도 확연하다. 강수연 참가자는 처음에는 일반적인 우승자보다는 확연히 못하다가, 대략 12번문제를 기점으로 일반적인 우승자보다 높은 점수를 얻었으며 이후 꾸준히 상위권의 점수를 유지했다.

다른 참가자의 경우, 김슬기 씨는 초반에 2개의 첫소리 문제를 맞추며 호전하였으나 이후 점수를 얻지 못하면서 4등에 머물러야 했다. 2등을 한 김능황씨는 7번 문제 이후로 일반적인 2등 참가자를 상당히 하회하였고 (그래프에서 볼 수 있듯 대부분의 시점에 2등 참가자의 하위 10% 점수에 머물렀다), 김하늘 참가자는 일반적인 3등의 점수 양상에서 벗어나지 않았다.

40대 여성은 승률이 가장 높은 집단인데, 강수연 씨는 그 중에서도 높은 최종 점수를 얻었다. 20대 여성 역시 일반적으로 잘하는 집단이지만 김하늘씨는 높은 점수를 얻지 못했다. 두 남성 참가자는 고만고만한 점수를 얻었다.

강수연 참가자는 속도를 제외한 모든 수치에서 일반적인 참가자를 앞질렀으며, 김슬기 참가자는 모든 수치에서 일반적인 참가자를 하회했다. 김능황 씨와 김하늘 씨는 비경쟁 문제에서의 정확도를 제외하고는 일반적인 참가자와 크게 다른 모습을 보여주지 않았다.

비경쟁 문제를 제외하고 강수연 참가자가 모든 면에서 김능황 참가자를 앞질렀고 특히 중요한 정확도에서 한참 앞서 있었으니, 큰 점수 차이로 강수연 참가자가 우승한 것도 무리가 아니다.

참가자 통계 (2)

[이전글]

[우리말 겨루기]의 참가자들이 문제를 얼마나 정확하게 맞히는지, 얼마나 빠르게 맞히는지, 그런 요소가 최종 점수에는 얼마나 큰 영향을 미치는지 분석한다. 지난 글에서는 최종 점수 분포를 살펴보겠다고 말했지만, 회차 분석을 하고 있으니까 회차 분석을 설명하고 맥락을 제공하는 일이 필요해 보였다.

수치 정의

그래프부터 보고 싶으면 여기로.

사람마다 잘하는 일이 다르듯이 [우리말 겨루기] 참가자들 또한 뛰어난 방면이 각기 다르다. 어떤 참가자는 빠른 속도를 자랑하는가 하면, 다른 참가자는 높은 정답률로 좋은 점수를 획득한다. 궁극적으로 궁금한 바는 일반적인 참가자의 정답률은 얼마나 높은지 등등인데, 그런 계산을 하려면 먼저 수치를 정의해야 한다.

시도 횟수: 쓰기 문제에서는 모든 참가자가 1번의 시도 횟수가 있다고 센다. 누름단추를 누르는 문제에서는 누름단추를 누른 모든 횟수를 센다. 첫소리 문제에서는 문제에 해당하는 참가자가 항상 시도한다고 세고, 이후로는 누름단추 문제와 같다. 이론적으로는 한 참가자의 시도 횟수가 문제의 숫자를 넘을 수 있지만, 2018-2019년 데이터에서 실제로 그런 경우는 없었다. 모은 데이터셋에 각 참가자의 시도 횟수가 직접 써 있지는 않지만, 점수의 등락을 통해 유추한다. 0점인 참가자가 오답을 냈을 경우에도 셀 수 있도록 데이터셋에 표기하였다. 다만 자물쇠 문제에서는 점수를 통해 누가 오답을 말했는지 유추할 수 없으니 분석하지 않는다. (시도 횟수뿐 아니라 이후 글의 모든 부분에서 자물쇠 문제는 다루지 않는다.)
정답 횟수: 참가자가 정답을 맞힌 경우를 센다. 한 참가자의 이론적인 최댓값은 해당 참가자의 시도 횟수이다. 점수를 통해 유추하는데, 기본은 점수가 오른 사람이 있으면 정답자라는 것이다. ¹ 분석에서 다루지는 않지만, 정답자는 자물쇠 문제에서도 유추할 수 있다.
빠른 정답 횟수: 참가자가 (i) 정답을 한 번에 맞히고 (ii) 화면에 나오는 지문이 다 나오기 전에 대답한 횟수를 센다. 이론적인 최댓값은 해당 참가자의 정답 횟수이다. 빠른 정답은 데이터셋에 별도로 기록했는데, 참가자가 얻은 점수만큼 신뢰도가 높은 정보는 아니다. (오타가 있을 수 있다.)

이런 기본적인 정의를 통해 다음의 통계를 유도한다.

시도 비율 (시도, APQ= $\frac{\text{Attempts}}{\text{Questions}}$ ): 문제당 시도한 횟수를 나타낸다. 0 이상이다. 앞에서 이야기한 것처럼 총 시도 횟수가 문제 수를 넘을 수 있기 때문에 이론적으로는 1을 넘을 수 있지만, 실제로 그런 경우는 없으므로 다른 값과 마찬가지로 0에서 1 사이라고 생각해도 좋다.
정답률 (CPA= $\frac{\text{Corrects}}{\text{Attempts}}$ ): 시도당 정답 횟수를 나타낸다. 항상 0과 1 사이이다.
빠른 정답률 (속도, SPC= $\frac{\text{Fast Corrects}}{\text{Corrects}}$ ): 정답당 빠르게 답을 말한 횟수를 나타낸다. 항상 0과 1 사이이다.
경쟁적 문제 비율 ( $\frac{\text{Competitive Corrects}}{\text{Competitive Questions}}$ ): 누름단추를 눌러 정답을 맞히는 문제 중에 해당 참가자가 맞힌 비율을 이른다. 항상 0과 1 사이이다. 모든 참가자의 값을 합했을 때 1이 나온다.
비경쟁적 문제 비율 ( $\frac{\text{Competitive Corrects}}{\text{Competitive Questions}}$ ): 쓰기 문제 가운데 맞힌 문제의 비율이다. 최댓값은 1이지만 각 참가자의 값이 독립이다. 다시 말해, 경쟁적 문제 비율과는 달리 한 참가자의 값이 높다고 다른 참가자가 낮아야 하지는 않는다.

이 가운데 앞의 셋 (시도 비율, 정답률, 빠른 정답률)은 Laplace smoothing을 사용해서 보정한다. 이는 데이터가 충분치 않은 경우에도 극단적인 결론을 내지 않기 위함이다. 이 분석의 경우, 분모에 +2, 분자에 +1을 하면 laplace smoothing이 된다. 보정을 하는 이유는, 예를 들어 1문제를 시도해서 1문제를 맞힌 경우에 해당 참가자가 앞으로도 100%의 정답률을 가지리라고 예상하는 것은 무리이기 때문이다. ² 경쟁적/비경쟁적 문제 비율에 첫소리 문제는 세지 않는다.

분포 분석

각 수치를 정의했으므로, 이제 참가자 값의 분포를 따져볼 수 있다. 2018년부터 2019년까지, 72개의 일반인 회차에 걸쳐 288명의 참가자의 통계를 분석한다.

먼저 시도 비율의 분포를 보자. 예상되는 실제 분포를 그려보기 위해, 베타 분포를 데이터에 맞춰본다.

연파랑은 histogram, 진한 검은색은 분포와 맞는 베타 분포(alpha=8.4, beta=8.6)이다.

분포에서 볼 수 있듯, 평균적인 참가자는 대략 2문제당 1번 버저를 눌러보거나 쓰기 문제의 답을 쓴다. 아무리 무반응 일색인 참가자도 20%의 문제에는 참가하는데, 참가자당 첫소리 문제 1개, 쓰기 문제가 4~5개인 것을 생각하면 버저를 한 번도 누르지 않아도 계산상 20%의 시도 비율은 사실상 보장되는 셈이다. 문제당 시도의 최댓값은 0.81로, 이론상 1이 나올 수도 있는 값에 1이 나오지 않았다는 점은 눈여겨 볼만하다. 다른 통계를 보면, 시도 비율의 참가자 평균은 0.492, 25%/50%/75% 분위 값은 0.40, 0.48, 0.55이다.

아무런 보장³이 없는 정답률을 살펴보면:

문제당 시도보다는 평균값이 높다: 정답률의 평균은 0.58이다. 많은 참가자가 동전 뒤집기보다는 좋은 정답률을 보여준다. 이런 값을 이용하면 평균적인 참가자가 버저를 누를 때 얻을 점수의 기댓값은 100*0.58+(-50)*0.42=37점이란 셈이 가능하다.

빠른 시도는 희귀해서, 분포가 치우쳐 있다. 그런데도 베타 분포와 비교적 잘 맞는다.

Laplace Smoothing을 통해 보정하므로 빠른 정답률에 0은 없지만, 사실 빠른 정답이 하나도 없는 사람이 과반이다⁴. 그럼에도 불구하고 절반 정도의 참가자는 빠른 정답이 있고, 더러는 0.4, 0.5와 같은 높은 빠른 정답률을 보여준다.

연관 관계 분석

이러니저러니 해도 결국 중요한 건 이기는 것이므로, 각 요소가 최종 점수나 등수와는 어떤 연관 관계 (correlation이지 causation은 아님을 유의하라!)가 있는지 알아본다. 각 통계와 최종점수의 관계를 선형회귀로 살펴보기가 가장 쉽다:

왼쪽이 시도비율과 최종 점수의 관계, 오른쪽이 정답률과 최종점수의 관계를 나타낸다. x축과 y축의 히스토그램들은 각 축의 marginal distribution을 보여준다.

보다시피 정답률과 높은 점수의 연관도가 더 높다 (pearsonr 값이 연관도를 계산하는데, 정답률 쪽 그래프에서 연관도가 더 높다). 얼핏 보기에도 정답률 쪽 그래프가 가운데 선과 점들이 더 가까이 있다.

빠른 정답률과 최종 점수는 별다른 상관이 없는 것처럼 보인다:

그렇다고 빠르게 맞히는 것이 이기는 것과 아무런 상관이 없다고 성급하게 결론을 내리면 안 될 것 같다. 속도가 이기는 것과 상관이 있는지는 통제할 변수가 많아서 다소 까다로운 분석이 필요할 것 같으니 다음에 살펴보자.

왼쪽이 경쟁적 문제 비율과 최정 점수의 상관관계, 오른쪽이 비경쟁적 문제와 최종 점수 의 상관관계.

경쟁적 문제를 맞히는 비율은 점수와 강한 상관관계가 있으며 (당연한 일이지만 대부분의 점수는 누름단추를 누르는 문제에서 나오며, 그러한 문제를 많이 맞히면 점수가 높다), 비경쟁적 문제를 맞히는 비율 역시 최종 점수와 통계적으로 유의미한 상관관계가 있다. 비경쟁적 비율에 대한 선형 회귀 결과를 보면, 비경쟁적 비율이 0.0일 때는 예상 최종 점수가 대략 200점, 1.0일 때는 대략 1300점이다. 비경쟁적 쓰기 문제가 회차당 4~5개, 즉 400~500점인 것을 생각하면 비경쟁적 문제는 할당된 점수 이상으로 누가 높은 점수를 얻을지 알려주는 지표인 셈이다.

등수는 연속적인 값이 아니라 그래프를 예쁘게 만들기가 힘든데, 유독 순위와 정답률의 그래프는 직관적으로 나온다:

2018년과 2019년의 우승자 가운데 0.5를 밑도는 정답률을 가진 사람은 없었다! 다른 글에서 다루겠지만 일반적인 우승자가 문제당 50점을 얻어간다는 것을 고려하면, 정답률이 0.5 부근인 경우 이미 이기기가 거의 불가능하다. 그러니 곧 출연한다면 정답률을 올리는 데 주력해보자.

이 분석의 한계는 자물쇠 문제를 고려하지 않았다는 점, 빠른 정답 데이터가 오류가 있을 수 있다는 점, causal relationship이 아니라 correlation에 대한 분석이라는 점, 분석 코드가 길어서 어딘가에 코딩 실수를 했을 가능성이 높다는 점 등이다. 추후 데이터 오류나 코딩 오류를 찾아 고쳐도 추세는 비슷하리라 예상한다.

다음 참가자 통계 글에서는 진짜로 성별과 나이별 최종 점수 분포, 인구집단별 정답률 등을 분석해본다.

[우리말 겨루기] 805회 분석

2020년 3월 30일 방영. 59세 장성수 씨가 우승. 정확도, 속도, 쓰기 문제 등의 측면에서 장성수 씨가 좋은 성적을 보여주었다. 자물쇠 문제를 풀기 전 엄지인 아나운서와의 대담을 보면 장성수 씨가 이전에 [우리말 겨루기]에 참가한 것 같지만 참가하신 시점이 오래 전인지 2015년 7월까지 있는 데이터에는 보이지 않는다.

초반에 이상욱씨가 주목을 받는 가운데 세 문제를 내리 맞추며 선두를 달렸으나, 이후 문제를 많이 맞추지 못하며 3등에 머물러야 했다. 반면 장성수 씨는 꾸준히 득점을 한 덕에 20번 문제에서는 2등과의 격차를 350점으로 벌렸다. (역사적인 경향에 따르면 이런 상황에서 장성수씨가 결국 이길 확률은 대략 80%이다.) 이후 장성수 씨는 선두를 내주지 않고 우승을 가져갔다.

굵은 검은 선은 해당 문제에서 등수별 점수의 중앙값, 회색 부분은 문제별로 2018-2019년 등수별 참가자들이 해당 문제에서 가진 점수의 하위 10%~상위10% 범위를 보여준다.

2등을 하신 김현숙 씨는 자물쇠 문제 직전 점수가 대부분의 2등 참가자보다 낮았다. 마지막 자물쇠 문제 3개를 맞추며 최종 점수를 2등 참가자의 중앙값 턱밑까지 올렸으나 우승을 하기에는 부족했다. 장성수 씨는 일만적인 1등 참가자의 추세를 그대로 따랐다. 한편 장성수 씨가 마지막 3개의 자물쇠 문제를 맞추지 못하는 바람에 최종 점수는 2018-2019년 1등 참가자의 하위 10%에 머물렀다.

각 참가자의 인구통계적 집단과 최종 점수를 비교해보면, 특별히 높은 점수를 득점한 사람은 없었음을 확인할 수 있다. 임의의 20대 여성이 우승할 확률은 대략 30%로 평균보다 높지만, 박우영씨와 비슷한 점수를 얻어가는 참가자도 많음을 확인할 수 있다.

회색 막대는 각 수치의 전체 참자가 중앙값을 나타내고, 색 막대는 특정 참가자의 값을 나타낸다.

요소별로 각 참가자의 성적을 살펴보면, 장성수 씨를 제외하고 정확도가 전체적으로 낱은 회차였음을 알 수 있다. 장성수씨는 시도가 적음에도 불구하고 정확도가 높아 감점을 당하지 않은 덕분에 점수를 많이 가져갈 수 있었다. 쓰기 문제 성적이 극과 극으로 갈렸는데, 박우영 씨는 하나도 맞추지 못한 반면, 장성수 씨는 모든 쓰기 문제를 맞추었다.

1등과 2등을 비교하면, 대부분의 지표에서 장성수 씨가 김현숙 씨를 앞섰음을 볼 수 있다. 시도를 한 횟수의 측면에서만 장성수 씨가 김현숙 씨에게 밀렸음을 볼 수 있다. 장성수 씨는 이 차이를 높은 정확도로 보충했다.

[우리말 겨루기] 806회 분석

33세 박병현씨가 우승. 권명만씨의 속도는 어찌나 빨랐는지 그래프 밖을 넘어섰다. 그래프를 2018년과 2019년의 참가자 통계에 맞추어 계량했는데, 권명만씨는 2018-2019년의 어떤 참가자보다도 빨랐다. 특히나 비유적인 표현 등에서 빛을 발했다. 그럼에도 불구하고 끝내 우승하지 못했다.

10번 문제에서 박병현씨가 권명만씨를 따라잡은 이후, 권명만씨는 선두를 되찾지 못했다. 자물쇠 문제에서도 접전을 펼쳤지만, 마지막 문제를 놓치며 우승을 내줬다. 권명만씨 입장에서는 무척 아쉬울 듯하다.

굵은 검은 선은 해당 문제에서 등수별 점수의 중앙값, 회색 부분은 문제별로 해당 문제에서 하위 10%~상위10%의 점수 범위를 보여준다.

어떤 참가자도 자신의 일반적인 진행 과정에서 크게 벗어난 경로를 보여주지 않았다. 모두가 무난히 자신의 자리를 찾았다. 오답이 많은 탓이었는지 최종 점수가 중앙값을 넘어서는 참가자는 없었다.

각 참가자의 점수를 해당 참가자의 나이/연령 집단과 비교해보면, 50대 여성인 박지희씨와 최희씨는 비교적 낮은 분위에, 우승한 박병현씨는 비교적 상위 그룹에, 권명만씨는 50대 남성의 최종 점수 중 중간 분위에 있다.

각 참가자를 중간값의 참가자와 비교해보면, 먼저 전반적으로 모든 참가자가 속도가 빠른 편이었음을 확인할 수 있다. 특히나 치열했던 회차임을 알 수 있다. 한편 정확도를 보면, 박병현씨를 제외하고는 모든 참가자가 일반적인 참가자보다 정확도가 낮았다.

1등인 박병현씨와 2등인 권명만씨의 성능을 비교해보면, 권명만씨가 시도가 많았음에 비해 정확도는 낮았음을 확인할 수 있다. 점수에 가장 영향을 많이 미치는 것은 이 두 요소인데 특별히 우위에 있었던 사람이 없었기 때문에 두 사람이 접전을 펼쳤다.