美文网首页
如何看待 COCA 词频

如何看待 COCA 词频

作者: juniway | 来源:发表于2019-02-12 14:19 被阅读14次

    COCA 根据词频的统计提供了几个不同数量的词汇表,最大的有 6 万词汇。那么这个词汇表与我们常见的那些比较高阶的比如 TOEFL, GRE 词汇表有什么本质区别?

    这些词表的本质都是基于单词的出现频率,比如 TOEFL/GRE 词汇表,它的选词就是来源于 TOEFL/GRE 这个考试中的试题或材料。那么出现在试题或材料中频率高的自然就会入选,其最大特点就是针对性强,适合应试。而 COCA 取词范围则非常广,而不仅限于某个试题库或材料库,因此更加科学和普遍。

    COCA 只是提供了一个词表,告诉我们,这些词是使用比较频繁的,但是怎么去学习和记忆它们,却没有提供方法,所以这篇文章主要就讲讲该怎么看待这个词表,后续文章还会介绍该如何科学地利用这个词表提高自己的词汇。

    先了解下 COCA 词表的局限

    (1)不是所有的词的“同源异形”都出现在 6w 词频表中
    比如 libel, 在 6w 词频表中,只出现了 libellibelous 这两个词,其它的比如:libelant, libeller, libelee 等。

    (2)不同的形态出现频率不一样
    有些词,其源词出现词频靠后,但是它的其它形式却出现比较靠前,比如 abash 出现在第 44303 排名处,但是 unabashed 则出现在 16795 处。
    同一个单词的不同释义,会出现多次

    类似的,比如 barb(倒钩;带刺的话,讽刺),它的被动形式 barbed (讽刺的)出现频率更高,protracted (拖延的) 也比 protract 出现频率高,glittering(闪闪发光的)glitter 出现频率高,woven (编织的) 比 weave 出现频率高。这样的例子太多了,我就不一一列举。

    甚至,有些词的词源并没有出现在 6 W 词表中,但是它的异形却出现了,比如 stomp "跺脚,重踩",不在词表中,但是 stomping 却出现在 27957 处。

    hoof “蹄,脚” 也没出现在词表中,但是 hoofed 却在 37256 处。

    (3)某些常见词在 6w 词表中没得到体现

    比如 chore "家庭杂务;日常琐事",没有出现在 COCA 中年,但它却是托福和雅思词汇。
    有些词的词频跟感觉相差很远,比如 low-ball 这个词是非常常见的一个词,但是在 COCA 中统计的频率比较低(在 45000 名左右)。

    (4)与 TOEFL/GRE/Vocabulary.com 等词汇表的区别

    GRE 中的很多单词,都出现在 6 万词表中靠后的部分。有些 GRE 单词甚至不在这 6 万词表中,比如 excogitate “认真想出,发明,设计出”

    http://vocabulary.com 提供了 12000 的词汇学习。它与 coca 的词频重合度也有区别。比如 lurid “可怕的;色彩耀眼的,就不在 coca 提供的 6w 词汇表中。

    有些常见的事物或概念,在词频中出现可能并不高。比如 isle 岛,小岛

    (5)词频的可靠性

    coca20000 以后的单词,其频率意义不大,因为差别非常小。
    coca 提供的最大的词汇本只有 6 W,因此很多词典上的词不会出现在这个词表中。

    (6)有些词出现频率虽然比较高,但是记忆意义不大

    比如 mackerel 鲭鱼,马鲛鱼。这是一种海鱼,我们可能一辈子也见不到也吃不到这种鱼。很难建立直观的联想。所以即使背了,这种记忆也难以长期维持。

    (7)无效单词
    coca 词频一个很大的问题是,很多在平时单词书中根本不会作为新词进行背诵的单词也被列出了,比如那些缩略词,语气词,数字合成词,甚至有些商品名称等等。

    总结:

    COCA 词汇表不是一份拿来就能直接用的词汇表,它必须要加以处理才能变成适于背诵(实用的)的词汇表。

    如果你对我的文章感兴趣,欢迎留言或者关注我的专栏。

    微信公众号(ID:知辉)

    相关文章

      网友评论

          本文标题:如何看待 COCA 词频

          本文链接:https://www.haomeiwen.com/subject/olqkeqtx.html