참가자 통계 (1)

[다음글]

[우리말 겨루기]를 보다 보면 누가 이길지 궁금해지기 마련이다. 아직 한 문제도 풀지 않았을 때는, 먼저 보이는 특징을 가지고 점찍어 볼 수도 있다. 예컨대 “홍길동 씨는 20대, 젊어서 뇌가 빨리 돌아가니까 잘 풀지 않을까?” “성춘향 씨는 꼴찌만 면한다는데, 오히려 이렇게 겸손한 사람들이 잘할지도 몰라.” 생각하는 식이다. 그런 생각으로 보다 보니 궁금해졌다. 특정 나이나 성별을 가진 사람들이 [우리말 겨루기]에서 더 잘할까? 더 잘하는 집단이 있다면, 그 집단은 어떤 집단일까?

데이터는 다음과 같이 모았다. 2017, 2018, 2019년의 회차 가운데 (1) 연예인이 출연하는 회차가 아닌 일반 회차이며 (2) 개인이 겨루는 회차를 모았다. 조건을 만족하는 회차는 총 96개였다. 참가자는 한 회차에 4명이므로 96 곱하기 4 = 384명을 분석할 수 있었다.

성별

[우리말 겨루기]에는 남녀가 거의 항상 동수로 등장한다. 분석한 96개의 회차 가운데 8개만이 1:1의 성비가 아니었다 (여초가 6회1, 남초가 2회2). 그러니 남녀가 참여한 비율도 거의 같다:

그러면 여자와 남자의 승리 비율도 비슷한가? 그렇지는 않다. 여자가 더 자주 이긴다:

세로축의 ‘승리 확률’이 의미하는 바는, 임의의 여성 참가자를 골랐을 때 해당 여성 참가자가 참가 회차에서 우승했을 확률이 y%라는 것이다. 여성과 남성 참가자의 실력이 완전히 똑같다면 남녀 출연 비율은 사실상 동일하므로 둘 다 우승 확률이 1/4=25%여야 하는데, 그렇지 않은 것이다.

재밌는 것은 성별 간의 차이가 연도별로 큰 변이도 없이 굉장히 안정적이라는 점이다. 2017, 2018, 2019년에 대해 똑같은 분석을 한 결과를 붙여서 보면 서로 거의 차이가 없고, 위에서 보인 전체 추세와도 구분하기 힘들다.

왜 그런 걸까? 속설대로 ‘여자는 언어능력이 더 뛰어난’ 걸까? 추측은 다양하게 할 수 있지만 [우리말 겨루기] 데이터를 이용해서는 ‘[우리말 겨루기]에서는 여자가 이기는 회차가 60% 정도 되더라’는 결론 이상을 얻기 어렵다.

나이

나이의 다양함 또한 [우리말 겨루기]를 재밌게 해주는 요소다. 분석한 자료 중에는 최고령이 81세, 최저령이 15세였다. 그만큼 여러 연령대의 사람이 참여하는데, 어떤 연령의 사람이 제일 잘하는지도 흥미로운 질문거리다. 20대가 제일 순발력이 좋은 나이이니 20대가 잘할 것 같기도 하고, 또 한편으로는 60대 이상은 일생에 걸쳐 한국어를 20대보다 2~3배가량 더 많이 써왔고 상대적으로 외래어를 덜 썼기 때문에 [우리말 겨루기]는 더 잘할 것 같기도 하다.

먼저 전체 참가자의 나이 분포를 보자.

[우리말 겨루기]를 꽤 많이 봤다고 생각했는데, 20대와 30대가 제일 많이 출연한다는 사실이 놀라웠다. (항상 “생각보다 많이 출연하네” 정도로만 치부했다.) 평균 수명은 여자가 더 높은데 70대 참가자 가운데서 오히려 남자 참가자의 비율이 높다는 것도 흥미롭다.

어느 그룹이 제일 많이 이길지 예상이 되는가? 정답은…

20대도 아니고 60대도 아니고 40대다! 이 분석에서 40대는 대략 60년대 말, 70년대 초중반에 태어나신 분들이다. 40대 출연자의 승리 확률은 30%로, 평균보다 5%p 높다.

나이의 효과가 성별별로 다를 수도 있으니, 성별별로 따로 분석해보았다.

결과에서 드러나는 대로, 여성 참가자와 남성 참가자의 통계가 제법 다르다. 여성 참가자들은 20대와 40대에서 제일 승률이 높지만 (40대 여성의 승률은 40%에 육박한다), 남성 참가자의 승률은 60대가 제일 높다. 이를 통해 알 수 있는 바는 사실 40대의 높은 승리 확률은 여성 참가자들이 다 견인했고, 40대 남성들은 평균적인 남성과 별반 다를 바가 없다는 점이다.

참가자 다짐

[우리말 겨루기]를 진행하는 엄지인 아나운서는 참가자들에게 “몇 등 할 것 같으세요?”라고 묻곤 한다. 참가자들의 답변은 “달인이죠!” 부터 “꼴찌만 면하고 싶어요”, 혹은 “상품권만 타면 됩니다”까지 다양하다. 겸손하게 말하는 사람들이 더 잘하는 것으로 보이는 건 정말 잘하기 때문일까, 아니면 겸손한 이미지와 상반된 실력을 보여주기 때문일까? 목표 등수가 승률이 상관관계가 있는지 알아보자. 3

말이 씨가 된다고, 목표를 1등이라고 말한 사람이 평균적으로 더 잘한다. 40대나 여성인 것보다 강한 ‘승리의 신호’로, 거의 35%의 승률을 자랑한다. 물론 1등이 승률이 높은 게 정말 말이 씨가 되기 때문은 아니지만, 승률이 높다고 하니 만약 출연한다면 1등을 외치고 보면 좋지 않을까? 성별이나 나이는 금방 바꿀 수도 없는 마당이니 말이다.

ㄱ, ㄴ, ㄷ, ㄹ 위치

참가자들은 ㄱ부터 ㄹ까지 촬영장의 정해진 위치에서 자리를 바꾸지 않고 문제를 푼다 (자물쇠 문제 전까지는). 언젠가 읽은 참가 후기에서는 ㄱ과 ㄹ 위치가 문제가 잘 안 보인다길래, 과연 그런 가시성의 문제가 승률에도 영향을 미치는지 살펴보았다.

ㄱ이 제일 잘한다. 그것도 꽤 큰 차이로 더 잘한다! 왜 그럴까? 통계상의 노이즈는 아닐까? 조금 더 자세히 알아보기 위해4 성별과 마찬가지로 2017, 2018, 2019년의 자료를 따로 분석하여 ㄱ이 잘하는 일관적인 경향이 있는지 살펴보았다.

ㄱ이 일관적으로 더 좋은 성적을 보여준다! 상관이 있다고 생각한 적이 한 번도 없었는데, 어쩌면 먼저 첫소리 문제를 고를 수 있다는 점이 유의미할지도 모른다. 어떤 해에는 특정 위치가 정말 저조한 성적을 보이기도 하는데 (2017년의 ㄹ, 2018년의 ㄷ), 이걸 통계적으로 분석하면 저만큼 못한 건 운만으로는 설명이 안 된다. 5 역시 2017년의 촬영장 상태를 모르고서는 뭐라 결론을 내리기가 어려운 듯하다.

긴 글에 걸쳐서 다양한 요소가 승률에 어떻게 영향을 미치는지를 분석해봤다. 다음 참가자 분석 글에서는 조금 더 자세하게, 성별과 나이별로 최종 점수 분포는 어떠한지, 어떤 어휘를 잘 맞추는지를 분석해볼 예정이다.

예심 합격에서 출연까지

[우리말 겨루기] 예심에 합격하고 나면 언제 출연하게 되는지 궁금해지기 마련이다. 어떤 후기에 따르면 2~3달을 기다리면 된다고 하기도 하고, 한편으로는 달인의 후기를 보면 7~8개월을 기다려야 한다고 짐작할 수도 있다. 1

그렇지만 정량화할 수 있는 문제를 막연히 어림하거나, 역시 어림일 뿐인 남들의 개인적인 경험에 기댈 필요는 없다! 766회부터 793회까지2, 정보를 모을 수 있었던 출연자 83명이 예심에 합격한 뒤에 얼마나 기다렸는지를 분석해보았다. 방송에 출연한 날짜는 방송 다시보기를 통해 알아낼 수 있었고, 예심에 합격한 날짜는 KBS [우리말 겨루기] 웹사이트의 알려드립니다 게시판에 올라오는 “예심 합격자 발표” 글을 통해 확인할 수 있었다. 먼저 기본적인 통계를 구해보면, 아래 표와 같다.

총 데이터 수83명
최소 기간47일
최대 기간387일
평균 기간173.93일 3
중간값 기간158일
하위 25% 기간96일
상위 25% 기간228일
표준편차92.89일

이러한 통계로 알 수 있는 것 가운데 하나는 출연자의 50%가 예심 합격 후, 다섯 달이 조금 넘는 시간 안에 방송에 출연한다는 것이다. 앞서 인용한 달인의 후기에 적힌 일정이 일반적인 촬영 일정이라 가정하면, 출연 제의와 실제 촬영 사이에 2주, 촬영과 방영이 2주 가량 떨어져 있으니 50%의 합격자는 4달 안에 제작진으로부터 연락을 받는다고 유추할 수 있다. 한편 하위 25%, 상위 25% 구간을 통해 대략 언제 연락을 받을지 범위를 구해볼 수 있다. 예컨데 가장 최근 예심에서 합격한 사람들(2020년 2월 23일 합격) 가운데 50%가 2월 23일에서 각각 93일과 228일 떨어진 2020년 5월 26일과 10월 8일 사이에 출연하리란 짐작을 할 수 있다. (위와 비슷한 논리로 대략 4월 말에서 9월 초에 제작진으로부터 연락을 받으리라 예상할 수 있다.)

분포를 더 직관적으로 살펴보기 위해, 50일 단위로 히스토그램을 그려볼 수 있다.

데이터를 대단히 많이 모은 건 아니라 중간에 오르락내리락이 있긴 하지만, 얼추 오른쪽 꼬리가 긴 분포임을 알 수 있다. 물론 예심에 합격하자마자 출연할 수는 없고, 출연이 미뤄질 개인적인 이유는 많으므로 당연하다면 당연하다. 출연 날짜 결정이 어떤 분포의 가정들과 가장 맞는지 솔직히 전혀 모르겠지만, 그냥 쉽게 접근 가능한 감마 분포를 이용해 분표를 조금 부드럽게 표현해볼 수 있다.

분포를 근사한 감마 함수의 파라미터는 shape=1.53, scale=44.9, shift=84.0 이다.

오차가 있지만, 더 부드러운 분포로 출연 기간을 예상하고 싶다면 감마 함수의 파라미터를 이용해 예상해볼 수 있을 것이다.

마치며 이 분석이 가진 한계를 논해보자.

  • 이 데이터는 2018년 상반기 지역예심까지 거슬러 올라가며 예심 정보가 없는 연예인 출연 회차 등을 제외하고 각 출연자들의 예심 합격 날짜를 계산했는데, 5명의 경우는 정보를 정확히 구할 수 없었다4. 이들이 2018년 상반기나 그 이전의 예심에서 합격했다면, 이 분석에서 나타난 최대 기간, 중간값 등의 값이 올라갈 가능성이 있다.
  • 2019년 하반기의 추세가 미래에 계속되리라고 보장할 수 없으므로, 실제로 출연자들이 출연하는 날은 위 분석과 거리가 있을 수 있다.
  • [우리말 겨루기] 예심 합격 글을 보면, 다른 예심보다도 지역 예심에서 압도적으로 많은 사람이 합격한다는 것을 알 수 있다. 지역 예심은 상반기/하반기로 나눠서 하는 반면, 정기예심은 대체로 한두 달에 한 번 실시하여 꾸준히 합격자를 낸다. 따라서 정기 예심에 합격했는지, 지역 예심에 합격했는지에 따라 기다리는 기간이 다를 수 있다. 위 분석에서는 그러한 효과를 고려하지 않았다.

그럼에도 불구하고 위 분석이 의미를 갖는다고 생각한다. 막연히 연락이 언제 올 지 개인적인 일화 한둘에 의존하며 실망하지 않아도 되게끔, 많은 경우를 고려하여 대략의 예상 범위를 계산했기 때문이다.