大家好,我是6C
一个学心理学的营销人
为了过上大数据指导下的新世纪斜杠青年的美(tou)好(lan)生活,6C又开始折腾了。这次是非常实用的广告营销圈超高频英文单词TOP500
为什么要折腾这一个项目呢?
在营销圈,英文好是一个加分项。这个加分项首先要求是够用的词汇量,而词汇量是最花时间的一个事情,有没有偷懒高效的方法呢?带着这个思考,便有了这个针对营销人的营销圈高频英文单词项目
这个项目利用爬虫获取海量的营销广告文章语料,然后通过词频分析提取高频英文单词
(心急的朋友可直接滑到文末获取资源)
获取足量合适的英文营销语料
网络上分散的英文营销资料很多,从营销文章细分行业覆盖度、文章的专业程度、文章的来源、文章更新的频率等方面综合考量,最终选择了digiperform和marketo两个站点作为爬取对象。通过Python爬虫技术,最终共获取1200+篇文章,文章字数670000+
https://digiperform.com 是第一个被称为“亚洲最被信任的Digital Marketing教育品牌,里面有超过2000位的专业作者
https://blog.marketo.com 是一个成立7年即完成纳斯达克上市,现被Adobe收购的一家以做自动化营销的公司
分析语料库,提取高频词汇
这部分比想象中的要复杂一点,英文单词的分析并非把词一分统计个词频就好了。我摸索后经过了三个处理步骤
Step1 单词清洗
众所周知,同一个英文单词会有多种变形,例如动词的分词形式、名词的单复数形式、形容词的比较级等等。这些词拼法不同,但把它们算作是独立单词显然是不准确的,会影响词频的准确性。因此,需要先进行进行单词清洗
经过一些时间的寻找,发现这已经是属于AI领域里最为困难的一个分支NLP(自然语言处理)了。(敢情一不小心还涉足了AI领域?)
NLP(Natural Language Processing)属于AI的一个分支,主要包括中文自动分词、词性标注、句法分析、机器翻译、文字蕴含等。比如那些做Social Listening的产品核心技术就是NLP
然而实际我们这需要解决的问题跟NLP也关联不大,一个nltk库就搞定了。经过一些时间的摸索和尝试,成功的完成了单词的清洗工作
Step2 去停用词
清洗完就能直接统计词频么?还不够
稍微思考一下我们就能猜到,这样统计出来最高频的一定是the、of、have 这样的介词,以及夹杂着很多的also、change、cost、easy、line这样即使是营销小白也耳熟能详的单词。这些词如果不做处理,那这些所谓的高频词也将意义不大
最终我选择去掉了英文中最常用的1000个词,基本相当于初中英语需要掌握的词汇量,是一个比较低的门槛了
1000个英文当中最常用的词Step3 输出单词及词频
做好前2步的准备工作之后,终于可以统计词频输出了。最终输出的TOP500词都至少是出现60次以上的单词。
那剩下的词自然是出现的概率不到万分之一,以每篇文章500词计算,属于你读20篇文章都不会遇到一次的词,可以再实际碰到的时候再详细了解
营销圈TOP500单词词云图增加单词发音和释义
为了使用起来更加方便,我最后还为这500单词增加了对应的发音和释义,排好版制作成了PDF文件共下载
释义词典选用的是韦氏英英词典
为什么选择英英词典呢,源自我个人在学英语的过程中的一个痛点:一个单词通常有多个中文释义记起来很累。但你如果看英英释义就能发现,其实核心都是一个意思,只不过是用在不同的场景中。英英释义能方便你理解这个单词核心的释义,容易记忆并且能够举一反三灵活运用
比如abandont这个单词,有道给的中文意思为:“遗弃;离开;放弃;终止;陷入”五个词义,而韦氏词典给的释义为“to give up completely;to withdraw from often in the face of danger;to withdraw protection, support, or help from”,可以看出这个词的核心意思是“退出某个状态”,退出直面危险的状态那是终止,退出保护的状态是陷入
下面是最终的成果,每个单词选用了最常用的三个释义(若有)。细心的你一定发现了,这里依旧有很多单词是你已经熟悉的。
但我提醒你再仔细的看一下对应的释义,是不是发现之前的理解不够彻底不够完整呢。希望你不要跳过你自认为熟悉的词,温故而知新。
营销英语TOP500及翻译若你想要获得完整版的文件,可关注“6C的笔记”回复“英语”获取。创作不易,若文章对你有帮助,记得点赞评论赞赏一键三连哦
THE END.
往期精彩:
我分析了林夕近20万字的词作曲,告诉你林夕到底写的是什么
亚瑟王传奇 | 阿瓦隆角色背景介绍
5分钟学会怎么说服客户
网友评论