linguistats | 数据告诉你，刘欣的英语到底有多好？

作者: 书先生和路夫人 | 来源:发表于2019-05-31 19:11 被阅读19次

linguistats | 数据告诉你，刘欣的英语到底有多好？
linguistats | 数据告诉你，刘欣的英语还有哪些需要提
刘欣:英语你要这么学才能好!
郑州大数据培训告诉你大数据到底有多大
给母乳妈妈的强心剂：坚持母乳喂养，远没有想象中复杂
2018-06-26
linguistats | 语言学告诉你18岁和30岁到底有什么
如果忘记了该多好—
什么是鸡汤文？
10个理由告诉你学Java到底有多好！

我所说的一切都可能是错的！
即使你赞同我的观点，你的生活也不会因此有任何改变！
除非——你采取了相应的行动。

（这是书先生在简书的第171篇文章。本文约4100字，请花12分钟来阅读。）

引子

昨天，大家期盼良久的“中美主持人对决”在非常“祥和”的气氛中开始、进行并结束了。缺少了预期中的火药味，可能有些朋友会有点失望。不过仔细一想，这也是意料中事：一方要刻意展示友好或者至少不要继续表现出“泼妇”的样子，另一方是带着镣铐跳舞，对话自然不会那么针锋相对。

相信大家昨天也看了不少关于这次对话的分析，我也浏览了一些。说实话，对目前的分析，我有点失望，因为大多数分析人士连对话原文都不清楚，甚至连CGTN自己的报道也是“断章取义”。不过话又说回来，这个对话无论是从辩论、还是演讲的角度都没有多少分析价值，原因嘛，就是上面说的两点。例行公事似的对话、官宣一般的发言，实在算不上特别好的学习材料。

不过从语言分析的角度来看，这段“中美主持人巅峰对决”的对话可是是好材料。它好就好在具有可比性：两个英语水平都非常高的人就同一个话题展开对话。这可是做语言学分析的人梦寐以求的好东西啊。

看完她们的对话，我相信很多中国人都会有这样的感叹：刘欣的英语真流利啊。我的感觉和大家一样。不过，我想更深入的看一下这个问题：刘欣的英语到底有多好，尤其是和翠西相比。于是有了本文的标题。

翠西的英语无疑是非常好的。首先，英语是她的母语；其次，她是哥伦比亚大学历史系毕业，要知道，文科对语言水平要求都很高；第三，她常年在美国主流电视台做主持工作，这个工作对语言水平要求也很高。

刘欣的英语简历也是非常出彩的。南京外国语大学英语专业毕业，中国首届全国大学生英语演讲比赛冠军，世界英语联合会（ESU）举办的世界英语演讲比赛冠军。

两位都是英语高手。从背景来看，我们可以假设翠西的英语水平略高。如果这个假设成立，一个很有意思的问题就是：刘欣可能是哪一块稍微要差一点？这个问题，不但有趣，而且很重要，因为它的答案可以为英语已经很好的学习者指明精进的方向。

下面，我就用数据来回答这个问题。

第一步是什么？

分析数据的第一步是什么？——清理数据。如果你数据本来不干净，noise太多，甚至还不准确，那后续的分析都没有意义。这也是为什么我对昨天读到的分析都不是太满意，因为其中大多数根本就不知道准确的对话是什么。

所以，我做的第一件事情就是尽可能准确的转录翠西和刘欣的对话。她们短短的16分钟对话，我花了好几个小时来整理。因为网上的文本大多不靠谱，我只能靠自己听。最后的结果是：虽然她们抢着说的地方有几个单词不清楚，其它部分我应该非常准确。

如果你需要整理好的文本用于学习、教学或者研究，请在后台回复“刘欣”，即可获取下载地址。

有了准确的数据，我们就可以分析了。

如何分析？

我准备从文本复杂度入手来比较翠西和刘欣分别的发言。通常有两个向度可以衡量文本复杂度，一是词汇复杂度（lexical complexity），二是句法复杂度（syntactic complexity）。有很多研究都表明，这两个向度和语言水平（proficiency）呈正相关，所以通过它们来比较翠西和刘欣的英语是可行的。

在呈现分析结果之前，我必须提醒一下：所有分析结果都只是基于这个对话。或许对话并没有完全展示双方的真实水平，因此不能就此就得出谁英语比谁更好的结论。也就是说，我后面的讨论只针对被分析的文本，不能视为我对双方英语水平的判断。

下面就开始我们的分析，在这个过程中，我也会介绍一些有关文本复杂度的基础知识。相信大家看完这篇文章，以后就会自己去分析了——授人以鱼不如授人以渔。

词汇复杂度

我们先来看词汇复杂度。为了理解词汇复杂度的指标，我们有必要知道几个基本的概念：

形符数（type）：文本中所有单词数量的总和。
类符数（type）：文本中不重复的单词书路的总和。
实词（lexical word）：名词、动词、形容词和副词等开放词类
虚词（grammatical word）：介词、冠词、连词和代词等封闭词类
难词（sophiticated word）：在本分析中指频数排名在前2000以后的单词（以BNC统计为准）

举个栗子：Boys are always boys.这句话形符数是4，因为它含有4个单词。类符数是3，因为其中有两个boys，不重复的数量只有3。

好了，基础知识已经够了。词汇复杂度的各种指标大多都是基于这5个指标的计算。所以，第一步，我们先来观察一下，翠西和刘欣的发言在这些基础指标上的比较。

基础指标比较

从上表可以看出，刘欣说了大约1600个词，而翠西丝略少，约1300词。我用约，是因为双方抢着说的地方有几个单词不是很清楚，不过大致是没有问题的。刘欣说得稍多，这容易理解，因为她是答问的一方。单从数量上来看，我们会觉得刘欣用的复杂词汇更多。但这可能是因为刘欣说的话更多。事实是否如此，还要看比例。下面我们就来看一下词汇复杂度。

词汇复杂度一般通过三个大类来衡量：词汇密度（lexical density），词汇复杂性（lexical sophistication）和词汇多样性（lexical variability）。我们挨个儿来看。

词汇密度

词汇密度是指文本中实词所占的比例，即实词形符数/总词数。在这个指标上，刘欣为0.49，翠西为0.46，刘欣略高于翠西。通过更细致的分析，我认为，出现这个差异的原因可能有三个：

第一，翠西使用“填充语”（filler）的频率更高。填充语是指那些没有实际意义，只是起一些引起注意或者为说话者争取时间的词或者词组。比如，well, you know, look, I mean等。从上表可以看出，翠西使用you know, I mean, look等的频率都高于刘欣。在有一句话里，翠西甚至一连用上了三个填充语（如下）。you know和I mean里都包含代词，这客观上降低了翠西的词汇密度。

Trish: Right, I mean, you know, look, I think, as I said, we can all agree that if you're going to do business with someone, it has to be based on trust, and you don't want anyone stealing your valuable information that you've spent decades working on.

Trish: And you know, look, I think that the the liberalized economic world in which we live has valued intellectual property and it's governed by a set of laws, and so we all need to kind of play by the rules and play by those laws.

另外，有意思的是，刘欣使用well的频率高于翠西，而look一次都没有用。这可能是因为well是我们会学习的一个填充语，而look很少显性教学。这表明，我们在英语教学中，可能需要有意识增加一些填充语使用的内容。

第二，翠西使用人称代词的I和you的频率也高于刘欣。同样有意思的是，刘欣使用I think的频率要高于翠西。可见，哪怕英语水平高如刘欣，也免不了中国英语学习者I think使用过多的问题。

第三，翠西使用that的频率远高于刘欣。这和第二条也有点关系。在翠西的13次I think后面，4次用了that，占比30.77%。而在刘欣的24次I think后面，只有5次用了that，占比20.83%。更仔细的分析，发现翠西的I think有不少是用作插入语，例如：

Trish: There is a rule that enables the United States to use tariffs to try to influence the behaviour of China should it be taking, stealing our intellectual property, and that, I think, in some way is part of what this all comes back to you.

Trish: But this issue is, I think, where the country as a whole needs to step in and we're seeing the United States do that.

而在刘欣的发言里，I think没有一次用作插入语。这种用法，是母语使用者和外语学习者的一个显著的差异。所以，I think, I guess这样的词组用作插入语的用法，可能我们在英语教学中需要有意识的提一下。

词汇复杂性

词汇复杂度一般通过难词的占比来测量。常见的有以下几种测量方式：

复杂实词占实词的比例，我们用LS1来表示。
复杂类符占总类符的比例，我们用LS2来表示。

另外由于动词是句子的核心，所以有专门的算法来测量动词的复杂性，比如：

复杂动词类符占动词的比例，我们用VS1来表示。

上面三种测量方式都有一个弊端，那就是随着文本长度增加，结果会变小。也就是说，如果两个文本长度差异很大，结果会不准确。好在两位主持人的发言字数差不多，所以我们就只用这三个指标就可以了。检测结果如下：

词汇复杂性比较

有意思的结果出现了：如果不考虑词类，翠西和刘欣的词汇复杂度几乎没有区别。但当我们聚焦在动词上时，翠西的动词复杂性高出刘欣60%。这是不是就表明翠西使用了更多更难的动词呢？不一定。VS1指标有一个问题，那就是它是一刀切，没有考虑2000词频以上的差异。举个例子，一个可能的情况是翠西在2000-5000这个词频段用得多，而刘欣在5000-10000这个词频段用得更多，但是总体上来，在2000以上翠西更多。这样分析结果就会显示翠西难词用得更多。

真实情况到底是什么呢？不如我们来具体看看双方分别用了什么动词。

双方都使用的动词：'base', 'agree', 'mean', 'lower', 'know', 'do', 'be', 'pay', 'get', 'work', 'develop', 'believe', 'steal', 'have', 'let', 'ask', 'see', 'decide', 'need', 'play', 'will', 'look', 'want', 'make', 'hear', 'happen', 'use', 'force', 'go', 'talk', 'tell', 'think', 'define', 'may', 'come', 'take', 'give', 'speak', 'thank', 'say'

翠西使用而刘欣没有使用的动词：'welcome', 'mention', 'forgive', 'discuss', 'abandon', 'govern', 'operate', 'lead', 'include', 'liberalize', 'pass', 'stall', 'identify', 'watch', 'require', 'appreciate', 'value', 'turn', 'rid', 'guess', 'join', 'explain', 'share', 'stall', 'live', 'stress', 'borrow', 'oversee', 'enable', 'bear', 'try', 'run', 'spend', 'stop', 'charge', 'bring', 'pursue', 'love', 'step', 'claim', 'keep', 'realize', 'influence', 'overlook', 'care', 'hang'

刘欣使用而翠西没有使用的动词：'learn', 'call', 'sue', 'face', 'correct', 'plan', 'invest', 'understand', 'divide', 'reach', 'achieve', 'grow', 'consider', 'contribute', 'show', 'own', 'establish', 'employ', 'forget', 'put', 'wanna', 'depend', 'skid', 'deny', 'become', 'dream', 'write', 'continue', 'explore', 'deal', 'prosper', 'skip', 'treat', 'control', 'affect', 'commit', 'carry', 'discriminate', 'expect', 'assume', 'produce', 'find', 'change', 'cooperate', 'like'

双方都使用的，显然是一些常见的单词。而刘欣使用翠西没有使用的词直觉上难度比翠西单独使用的难度更高。这说明两个问题：**一方面，我们可以说刘欣的词汇复杂度不属于高水平母语使用者。另一方面，我们可能需要加强中等频率词汇的教学，因为刘欣使用更难单词的原因是因为我们过于强调难词的使用，而反之，对中等评率使用重视不够。

词汇多样性

最后，我们来看一下词汇多样性。词汇多样性是指文本中不重复单词的比例。说到这里，我相信你很快就会想到，最简单的检测方式就是“类符-形符比”（Type-token ratio, TTR）。没错，TTR是最直观的方式。

不过TTR也有个问题，那就是对文本长度很敏感。随着文本长度增加，TTR会下降。更准确的测量方式是使用“标准类符-形符比”（STTR），即按顺序截取n个字符，计算TTR，然后再取平均数。因为我们的文本很小，所以我们顺序截取50个单词。你肯定也能想到，这种方法会造成数据浪费，因为文本大小不一定是50的整数倍。

TTR是实词、虚词一起考虑的。从文本的内容角度来看，实词的多样性更能说明问题。所以，我们也考察实词多样性（LV），即实词类符/实词形符。我们也可以看得更细，每一种实词种类占实词形符的比值，分别用VV1, NV, ADJV和ADVV来表示。结果见下表：

词汇多样性

从上表可以看出，实词多样性翠西要高于刘欣，但这个差异主要来源是动词多样性，而名词、形容词和副词的使用上，双方没有差异。

结语

今天我们比较了翠西和刘欣对话的词汇复杂性。通过上面的分析，我们可以得出了一些对英语学习和教学有参考价值的结论。我帮你再总结一下：

刘欣的英语真的是非常好，和高水平母语者相比也不遑多让。
我们应该适当加强填充语使用的教学。
我们应当适当加强插入语使用的教学。
我们应当适当加强中等频率词汇使用的教学。

词汇复杂度的分析就到此，下一篇分析她们的“句法复杂度”，欢迎继续关注。词汇复杂度和句法复杂度在线分析的网址如下：

https://aihaiyang.com/software

其余数据我是用spaCy分析的。

记得在后台回复“刘欣”，即可获取校对过的完整文本。然后你也可以自己分析一下。

顺祝各位大小朋友，儿童节快乐。

linguistats | 数据告诉你，刘欣的英语到底有多好？
我所说的一切都可能是错的！即使你赞同我的观点，你的生活也不会因此有任何改变！除非——你采取了相应的行动。（这是书...
linguistats | 数据告诉你，刘欣的英语还有哪些需要提
我所说的一切都可能是错的！即使你赞同我的观点，你的生活也不会因此有任何改变！除非——你采取了相应的行动。（这是书...
刘欣:英语你要这么学才能好!
CCTV英语频道主持人刘欣:英语你要这么学才能好! 珠宝佩戴攻略快传号 | 2019-02-26 关注刘欣，国...
郑州大数据培训告诉你大数据到底有多大
郑州大数据培训告诉你大数据时代下的大数据到底有多大？奇酷学院给大家讲个例子：每年的双十一，双十二的数据告诉我们，...
给母乳妈妈的强心剂：坚持母乳喂养，远没有想象中复杂
到底选择母乳还是奶粉，你心里可能早就有了答案。写此文，并不是来宣传母乳喂养到底有多好，而是想告诉你，如果你想选择...
2018-06-26
有很多人问：小雨你卖了两年的姨妈巾到底有多好？那我就告诉你，女人最常见的妇科病：【痒】是怎么回事！外阴...
linguistats | 语言学告诉你18岁和30岁到底有什么
我所说的一切都可能是错的！即使你赞同我的观点，你的生活也不会因此有任何改变！除非——你采取了相应的行动。（这是书...
如果忘记了该多好—
如果忘记该多好，掩面哭泣多可笑，你其实可以假装，什么都听不到。爱情到底有多好？明明赔...
什么是鸡汤文？
什么是鸡汤文？就是那些只会告诉你有钱多好，有才多好，美貌多好等等，却不告诉你普通人有什么机会和办法获取这些美好。 ...
10个理由告诉你学Java到底有多好！
如今互联网蓬勃发展，继Java、C++、php后也不断涌现出了许多新的编程语言，例如Google Go、Apple...