在學校各個科目中,除了數學,國語也非常重要。中低年級時要多認識生字,才能閱讀、推開知識的大門。不過,同樣是學一個字,「鐳」只有在元素週期表才會遇到,學起來價值不大;「的」幾乎是所有文章都會出現的全明星選手,一定要趕快學會。
從這個例子我們可以發現:越常見的字越有價值。用數學(又從國語默默回到數學)的說法,就是「字頻(率)」越高,越該優先認識。
那麼,哪些字最常見、字頻最高呢
▍ 一有人來了,我是不在的
根據統計,九年一貫課綱時,三大教科書出版社的小學國語課本3×6×2=36冊,總計有21萬字的內容,由3,403個相異字所構成。其中,最常出現的前100個字,大量重複出現,佔了整體的45%。
也就是說,只要認識常見排名的前100個字,就大略可以看懂小學課本將近一半的字。附帶一說,第一百名選手是「從」。
只要認識前17個字,就可以讀出20%的字;第十七名是有點出乎意料的「這」,我個人以為它會再更前面一些。
最常出現的前4個字:的、一、我、是。
佔了將近10%的字量,可謂國語課本四大天王。
前十名重新排列後,可以寫成:
「一有人來了,我是不在的」
一首⋯⋯俳句?
我們將前二十名與對應的出現頻率整理在附圖 大家可以看到,這隱約符合某種趨勢,好像指數遞減。的確,在語言學上有所謂的齊夫定律,字頻跟名次成反比。不過這個再講下去又是另一件事,暫且略表不提。
從這個數據可以看到,認識字頻越高的字,對孩子幫助越大。此外,有些常被拿來討論的字,例如我當年心目的大魔王:白部的「的」 vs. ㄔ部的「得」。
原來,兩者出現的次數分別是 10,343 次與8,34 次,得竟然這麼不常用,使用頻率有著十幾倍的差距!
可惜小學考卷如果要考這個觀念,兩種字出現的頻率應該差不多,不然就可以教小孩,不會就寫「的」了(#錯誤觀念請不要學習)。
▍ 蘋果日報的殺死 vs. 全唐詩的風雲
不過,我們也都清楚,課本是經過特殊設計,具有教學用途的內容,會有大量的字重複出現。如果換作專為小學生編撰的新聞媒體《國語日報》呢?
110年《國語日報》語料總計約 150 萬字,其中前 100 名常出現的字,佔了整體的 38.2%,比課本少了將近7個百分點,的確更發散。進一步統計《聯合報》、《國語日報》等諸多媒體總計八百多萬字的語料,前 100 名常出現的字,下降到佔整體的34.5%。
雖然下降,可認識 100 個字,就能讀懂八百多萬字內容的 34.5% 字量,依然展現了就算是一般的文章,常用字還是非常有價值。八百萬字的常見排行榜前十名是:
的、一、是、不、有、人、在、中、國、年
跟課本的前十名有7個字一樣,表示課本果然有經過設計,能某種程度反映一般的文章內容。因為,就好像熱門歌曲有總榜,如果進到不同的分類榜,很可能就會有異軍突起。特定文本的常見字排行榜也是一樣。
極端一點的《蘋果日報》頭版標題,2012-2018的前十名裡出現了怵目驚心的「死、殺」,這或許也說明了儘管當時《蘋果日報》暢銷,但我們還是很少看到有家長拿著它來教小孩認字。
《全唐詩》某種程度上則是座落在光譜的另一端,前十名是:
不、人、山、無、風、一、日、雲、有、何
少了白話文霸主「的」,多了幾分景緻。大家也可以想想看經典小說《西遊記》、我們都喜歡的王文華的童話公園 老師作品,或是數感實驗室的科普讀物中,常見字排行榜又會是哪些字呢?
註:要特別強調,認識字不代表認識詞,或是理解文意,所以我們是指孩子能「看懂多少比例的字」,並非能「讀懂多少比例的內容」。跟這個主題更相關的有詞頻分析,大家有興趣的話歡迎留言讓我們知道,我們可以再來寫一篇。此外,每個字筆畫不一樣,有些字會相關,所以實際上學生字的理想順序會更複雜,更因人而異。這邊都簡化到只單就頻率來討論。