fbpx
您正使用的 IE 舊版瀏覽器將於2022年6月正式終止服務,本站所提供的線上服務需要較新版本的瀏覽器才能使用,建議您更換至 MS Edge、Google Chrome 或其他新版瀏覽器,謝謝。
您正使用的 IE 舊版瀏覽器將於2022年6月正式終止服務,本站所提供的線上服務需要較新版本的瀏覽器才能使用,建議您更換至 MS Edge、Google Chrome 或其他新版瀏覽器,謝謝。
2024/9/26

小學課本常見字排行榜!「一有人來了,我是不在的」


作者:

在學校各個科目中,除了數學,國語也非常重要。中低年級時要多認識生字,才能閱讀、推開知識的大門。不過,同樣是學一個字,「鐳」只有在元素週期表才會遇到,學起來價值不大;「的」幾乎是所有文章都會出現的全明星選手,一定要趕快學會。

從這個例子我們可以發現:越常見的字越有價值。用數學(又從國語默默回到數學)的說法,就是「字頻(率)」越高,越該優先認識。

那麼,哪些字最常見、字頻最高呢❓

▍ 一有人來了,我是不在的

根據統計,九年一貫課綱時,三大教科書出版社的小學國語課本3×6×2=36冊,總計有21萬字的內容,由3,403個相異字所構成。其中,最常出現的前100個字,大量重複出現,佔了整體的45%。

也就是說,只要認識常見排名的前100個字,就大略可以看懂小學課本將近一半的字。附帶一說,第一百名選手是「從」。

只要認識前17個字,就可以讀出20%的字;第十七名是有點出乎意料的「這」,我個人以為它會再更前面一些。

最常出現的前4個字:的、一、我、是。

佔了將近10%的字量,可謂國語課本四大天王。

前十名重新排列後,可以寫成:

「一有人來了,我是不在的」

一首⋯⋯俳句?🤔


我們將前二十名與對應的出現頻率整理在附圖 👇 大家可以看到,這隱約符合某種趨勢,好像指數遞減。的確,在語言學上有所謂的齊夫定律,字頻跟名次成反比。不過這個再講下去又是另一件事,暫且略表不提。

從這個數據可以看到,認識字頻越高的字,對孩子幫助越大。此外,有些常被拿來討論的字,例如我當年心目的大魔王:白部的「的」 vs. ㄔ部的「得」。

原來,兩者出現的次數分別是 10,343 次與8,34 次,得竟然這麼不常用,使用頻率有著十幾倍的差距!

可惜小學考卷如果要考這個觀念,兩種字出現的頻率應該差不多,不然就可以教小孩,不會就寫「的」了(#錯誤觀念請不要學習)。

▍ 蘋果日報的殺死 vs. 全唐詩的風雲

不過,我們也都清楚,課本是經過特殊設計,具有教學用途的內容,會有大量的字重複出現。如果換作專為小學生編撰的新聞媒體《國語日報》呢?

110年《國語日報》語料總計約 150 萬字,其中前 100 名常出現的字,佔了整體的 38.2%,比課本少了將近7個百分點,的確更發散。進一步統計《聯合報》、《國語日報》等諸多媒體總計八百多萬字的語料,前 100 名常出現的字,下降到佔整體的34.5%。

雖然下降,可認識 100 個字,就能讀懂八百多萬字內容的 34.5% 字量,依然展現了就算是一般的文章,常用字還是非常有價值。八百萬字的常見排行榜前十名是:

的、一、是、不、有、人、在、中、國、年

跟課本的前十名有7個字一樣,表示課本果然有經過設計,能某種程度反映一般的文章內容。因為,就好像熱門歌曲有總榜,如果進到不同的分類榜,很可能就會有異軍突起。特定文本的常見字排行榜也是一樣。

極端一點的《蘋果日報》頭版標題,2012-2018的前十名裡出現了怵目驚心的「死、殺」,這或許也說明了儘管當時《蘋果日報》暢銷,但我們還是很少看到有家長拿著它來教小孩認字。

《全唐詩》某種程度上則是座落在光譜的另一端,前十名是:

不、人、山、無、風、一、日、雲、有、何

少了白話文霸主「的」,多了幾分景緻。大家也可以想想看經典小說《西遊記》、我們都喜歡的王文華的童話公園 老師作品,或是數感實驗室的科普讀物中,常見字排行榜又會是哪些字呢?

註:要特別強調,認識字不代表認識詞,或是理解文意,所以我們是指孩子能「看懂多少比例的字」,並非能「讀懂多少比例的內容」。跟這個主題更相關的有詞頻分析,大家有興趣的話歡迎留言讓我們知道,我們可以再來寫一篇。此外,每個字筆畫不一樣,有些字會相關,所以實際上學生字的理想順序會更複雜,更因人而異。這邊都簡化到只單就頻率來討論。