무엇을 공부할 것인가?

어떤 단어들을 공부해야 최소한으로 공부하면서 [우리말 겨루기]에서 최대한 높은 점수를 얻을 수 있을까? 많은 시간 단어를 보면서 공부해야 하므로, 내가 준비 과정에서 가장 중요하게 생각한 문제다.

분석 방법에는 관심이 없고 정말 무엇을 공부해야 하는지가 궁금한 분들은 [이론] 부분을 건너뛰면 된다.

이론

다음은 2018-2019년에 출제된 (거의) 모든 [우리말 겨루기] 단어를 현대 국어 사용 빈도 조사 2에 등재된 한국어에서의 사용 빈도에 따라 히스토그램을 그린 것이다.

가령, 사용 빈도가 1-5인 단어가 [우리말 겨루기]에 출제될 확률은 0.06 (6%), 사용 빈도가 26-30인 단어가 [우리말 겨루기]에 출제될 확률은 0.01이다. 보다시피 사용 빈도가 낮은 단어의 출제율이 높다. 따라서 이 자료를 보면 사용 빈도가 낮은 단어를 위주로 공부해야 할 것 같다.

하지만 결론은, 그렇지 않다. 이는 빈도 정보가 있는 모든 단어의 분포 역시 살펴봤을 때 명확해진다.

단순 출제 확률에 따라서 빈도수 1-5인 단어를 공부하기로 한다면, 모든 단어의 13%가량을 공부하면서 [우리말 겨루기]에 출제되는 단어의 6%밖에 맞히지 못한다. 아주 쉽게 생각해서 모든 단어가 1000개, [우리말 겨루기]에 출제되는 단어가 100개라고 하자. 그러면 공부한 단어당 맞히는 문제가 (100*0.06)/(1000*0.13) = 6/130 ~= 1/20이다. 다시 말해 20개의 단어를 공부할 때마다 하나의 [우리말 겨루기] 문제를 맞힐 수 있는 것이다.

반대로 실제 출제 빈도가 41-45인 단어들을 공부한다면, 모든 단어의 0.2%를 공부하면서 [우리말 겨루기] 문제의 0.8%를 맞힐 수 있다. 이전과 같은 단어 숫자를 가정한다면, 공부한 단어당 맞히는 문제가 (100*0.008)/(1000*0.002)=0.4=2/5이다. 5개의 단어를 공부할 때마다 2개, 20개의 단어를 공부하면 무려 8개의 [우리말 겨루기] 문제를 맞힐 수 있는 것이다! 빈도수가 1-5인 단어를 공부했을 때와 효율 차이가 8배나 나는 것이다.

이처럼 단순히 ‘어떤 단어가 많이 출제되냐’를 넘어서, ‘단어 전체 집합에서의 숫자 대비 어떤 단어가 많이 출제되냐‘ 를 따져야 효율적으로 공부할 수 있다.

한편, 위 예시는 이런 전략의 한계 역시 드러낸다. 단순히 효율이 높다고 빈도 41-45인 단어만 공부한다면, 모든 공부를 마쳤을 때 전체 [우리말 겨루기] 문제의 0.8%만 맞힐 수 있다. 반면 효율은 낮지만 빈도 1-5인 단어를 모두 공부하면, 전체 [우리말 겨루기] 문제의 6%나 맞힐 수 있다. 그래서 공부의 효율을 따지는 것이 중요하지만, 내가 공부한 양이 우승하기에 충분한 정도인지도 살펴보아야 한다.

특정 집합의 단어에 대한 ‘효율’과 ‘모두 공부했을 때의 점수’를 측정하기 위해, 단위 ppwg (point per (word*game))과 ppg (point per game)를 정의한다. (“per game” 부분은 굳이 필요하지는 않지만, 사람의 직관이 하나의 회차 내 점수에 맞춰져 있으니 이해를 높이기 위해 더한다.) [우리말 겨루기]에 출제된 일반 문제 단어의 집합을 Q, 자물쇠 문제 단어의 집합을 L, 모든 단어의 집합을 A, 데이터에 있는 회차 수를 n으로 두자. 특정 단어 집합 W \subset A에 대하여 다음과 같이 정의한다.

\text{ppwg}(W)=\frac{100 \times |W \cap Q|+200 \times |W \cap L|}{n|W|}

\text{ppg}(W) = |W|*\text{ppwg}(W)

실제로 계산하는 예로, 가장 넓은 범위의 집합을 살펴보자. 표준국어대사전에 수록된 단일 항목 단어는 360,162개, 속담/관용구는 11,338개, 그래서 총공부량은 371,500개이다. 내가 분석했던 2018-2019 데이터는 72개 회차에 걸쳐 일반 문제 (음절조합 등의 유형은 제외한다) 와 자물쇠 문제가 각각 1184개와 360개가 있었다. 그렇다면 표준국어대사전을 모두 공부했을 때의 공부 효율과 공부 후 점수는 각각,

공부 효율 = (1184*100+360*200)/(371,500*72) = 0.0071 ppwg

공부 후 점수 = 0.0073*371,500=2629 ppg

이 수치를 이해하는 방법은 다음과 같다. 공부 효율의 측면에서는 표준국어대사전을 통째로 공부했을 때 단어 하나를 공부할 때마다 [우리말 겨루기]에 출연해 얻을 점수의 기댓값이 0.0071점 오른다 (혹은, 13,600단어를 공부할 때마다 100점이 오른다). 공부 후 점수의 측면에서는, 표준국어대사전을 모두 공부하면 일반 문제와 자물쇠 문제만으로 얻을 점수의 기댓값이 2629점인 것이다.

이상적으로는 공부 효율과 공부 후 점수가 모두 높은 단어 집합을 공부해야겠지만, 그런 집합은 흔치 않다. 따라서 공부 효율이 높은 단어 집합부터 시작해서, “내가 공부한 모든 단어 집합”의 공부 후 점수가 목표 점수를 넘길 때까지 공부하는 것이 올바른 공부 전략이다.

실제

(이론 장을 읽지 않았다면, ppwg은 특정 집합에 속하는 단어를 공부했을 때의 효율, ppg은 특정 집합을 모두 공부했을 때 얻는 점수에 대한 단위이다.)

각 단어 집합이 어떤 효율을 갖는지 표로 정리하였다.

보다시피 기출문제가 효율이 높은 동시에 공부 후 얻는 점수가 상당하기 때문에, [우리말 겨루기] 준비의 핵심은 기출 문제이다. 하지만 기출 문제 만으로는 1등을 노릴 수 없다. 최종 점수와 등수의 관계에 대한 분석을 보면, 정확히 기출 문제만으로 ~1000점을 얻으면 2등을 할 확률이 100%다. 따라서 효율이 높은 단어 집합부터 차례대로 사자성어, 비유적인 표현, 흔한 단어 등등을 공부해야 1등을 할 확률을 효율적으로 높일 수 있다.