用数据聊一聊TED

作者: 弃用中 | 来源:发表于2018-01-29 14:03 被阅读82次

关于TED


TED由理查德·萨尔曼(Richard Saulman)于1984年成立,作为一个非盈利组织,旨在将来自技术(Technology,),娱乐(Entertainment)和设计(Design)领域的专家聚集在一起,TED大会已经成为各行各业思想的圣地。截至到2015年,TED及其姊妹TEDx分会已经发表了2000多个群众免费谈话,其发言人包括艾尔·戈尔,吉米·威尔士,沙鲁克·汗和比尔·盖茨等。

以“值得传播的思想”为口号的TED,完成了一个令人难以置信的壮举,成功的为世界各国的专家提供了一个平台,让他们讲述关于自己的研究和工作18分钟。值得欣喜的是,他们宝贵的见解可以在互联网上免费获得。

比如:
TED官网:https://www.ted.com/

网易公开课:https://open.163.com/ted/

TEDtoChina:http://www.tedtochina.com/

数据可以通过在官方TED.com网站上运行自定义网页抓取工具获得。这些数据是根据知识共享许可证(就像TED讲座)共享的,并在Kaggle上进行托管。你可以在这里下载:https://www.kaggle.com/rounakbanik/ted-talks

数据集

数据集包含2017年9月21日前在TED.com网站上托管的每个TED Talk的数据。让我简单介绍一下,以便让你对其有个了解。

查看一下数据集的列名:

Index(['comments', 'description', 'duration', 'event', 'film_date',
       'languages', 'main_speaker', 'name', 'num_speaker', 'published_date',
       'ratings', 'related_talks', 'speaker_occupation', 'tags', 'title',
       'url', 'views'],
      dtype='object')

列名含义

  • name: TED演讲的正式名称,包括标题和演讲者
  • title: 演讲的标题
  • decsription: 演讲是关于什么的
  • main_speaker: 演讲的第一个说话人
  • speaker_occupation: 主讲人的职业
  • num_speaker: 演讲的发言人数量
  • duration: 以秒为单位的演讲时长
  • event: 演讲活动
  • film_date:拍摄日期
  • published_data: 在TED.com发表的日期
  • comments: 评论数量
  • tags: 演讲的相关主题
  • languages: 可用语言数量
  • ratings: 收视率
  • related_talks: 推荐的其他演讲
  • url: 观看地址
  • views: 演讲观看次数

数据如下图所示:


共计2550部视频资料,代表着TED的辉煌!

最受欢迎的演讲

不妨先进行一些简单的分析。比如,有史以来最受瞩目的TED谈话是什么。从观看次数入手,应该是个不错的注意。


处理结果如下:


分析

  • 肯·罗宾逊演讲《学校扼杀人们的创造力?》是有史以来最受欢迎的TED Talk,拥有4720万观看次数。巧的是,这也是首次在TED站点上传的谈话之一。
  • 紧随其后的是艾米·库迪(Amy Cuddy)的演讲《身体语言决定你是谁》。
  • 有两个演讲超过了四千万次观看,四次演讲超过了三千万次观看。

不如画个图直观感受一下,


横轴表示主讲人,纵轴表示观看次数

分析TED演讲的月份和年份

TED(特别是TEDx)会谈倾向于全年进行。就TED而言,有没有一个热门的月份?换句话说,自从成立以来,这些演讲如何分配?让我们尝试找出来。



分析统计结果如下:


二月份显然是TED大会最受欢迎的月份,而八月份和一月份是最不受欢迎的月份。 二月份的受欢迎很大程度上是由于二月份举行的TED官方会议。让我们只检查TEDx的情况。

就TEDx会谈而言,十一月是最受欢迎的一个月。但是,我们不能将这个结果作为面值,因为很少有TEDx会谈实际上传到TED网站,因此,数据集中的样本不可能代表所有TEDx会谈。更准确的说法是,十月和十一月最受欢迎的TEDx会谈最多。

TED主题

在本节中,我们将尝试找出TED会议中最受欢迎的主题。 TED虽然是以技术,娱乐和设计为主题开始的,但事实上,它几乎已经渗透到各个领域中。现在我们就不妨研究一下这个问题。


把数据处理之后,我们发现TED囊括了惊人的416个不同类别。现在让我们来看看最受欢迎的主题。

如下表:


将其绘制成图:


不出所料,技术是最受欢迎的演讲话题。另外两个原始派系设计与娱乐也列入了前十名主题。 科学与全球问题分别是第二个和第三个最受欢迎的主题。

下一个问题是世界范围内TED演讲的趋势,技术演讲的需求是否增加?某些年份与全球问题有关的演讲成比例吗?让我们找出来!

我们只会考虑前7个主题,不包括TEDx和2009年之前的演讲。


以及


分析

  • 技术类演讲的比例多年来稳步上升,2010年略有下滑,考虑到区块链,深度学习和增强现实等技术的蓬勃发展,这是可以理解的。
  • 文化类演讲从2013年开始稳步下滑。文化类演讲的份额在2017年是最少的。自2009年以来,娱乐类演讲的受欢迎程度似乎也略有下降。

TED演讲者


我们要问的第一个问题是谁是最受欢迎的TED演讲者。也就是说,哪些发言人给出了最多的TED演讲。

瑞士健康教授Hans Rosling显然是最受欢迎的TED发言人,在TED论坛上有超过9次的出席。胡安·恩里克斯紧随其后,出场7次。 Rives和Marco Tempest 6次加入了TED平台。

如果你想成为TED演讲者,你应该选择哪个职业?让我们来看看TED最想邀请哪些人参加活动。


作家高居榜首,艺术家和设计师紧随其后。

TED词云

TED 演讲者们最经常使用哪些单词。我们能否在TED演讲中创建一个词云?当然可以,下图便是。


单词One是TED最受欢迎的单词,我认为它很好地包含了TED的想法。Now, Think, See, People, Laughter 和 Know是TED演讲中最流行的词汇。 TED演讲似乎强调知识,洞察力,现在当然还有人民。

项目来自:https://www.kaggle.com/rounakbanik/ted-data-analysis

如果方便的话,关注一下我的公众号呗!


以上。


相关文章

  • 用数据聊一聊TED

    关于TED TED由理查德·萨尔曼(Richard Saulman)于1984年成立,作为一个非盈利组织,旨在将来...

  • 聊一聊

    就是这样,喜欢自我欺骗,明知道,真心想你,或者有事的人,会打电话给你。却还是忍不住的用微信,看一个人的消息和动态,...

  • 聊一聊

    记录一下,现在是女儿的生日。2020.7.25星期六 生日快乐我的小天使 微淼商学院说过最经典的话是:有些做商学院...

  • 聊一聊

    早在三天前师兄就告知我们今天上午老师会和我们在实验室聊一聊。校园卡余额不足,时间紧张未吃早餐,早上慌忙收拾赶紧到实...

  • 聊一聊

    大家好,我是野生梅花鹿。 马上就12点了,我决定用几分钟的时间随便写点啥~ 首先呢,是反省。 这个月,其实懒惰了很...

  • 聊一聊

    很久没写了,聊聊最近发生的事,十月份开始了一段长板之旅,一开始担心害怕摔,因为通过挑战一个个动作,挺有趣的,当你为...

  • 聊一聊

    疫情这些年,常常听到的是,哪哪被封控了之类,作为天选打工人,一直在正常上班搬砖中。 直至上周五晚接...

  • 聊一聊Redis之数据结构

    基本数据结构 简单动态字符串 Redis中的字符串使用“简单动态字符串”(SDS)表示,无论是字符串值还是键底层都...

  • AthenaFei聊TED欲打造中国版TED

    2018年6月,安徽姑娘蔡菲去美国加利福利亚参加CPA考试,刚到那边,就想着先四处看看,领略一下美国西海岸的风土...

  • 聊一聊自律

    很久以前就知道韩雪,当时只觉得她是气质很优雅,长得很美丽的女明星,没有什么特殊的感觉,应该就是花瓶而已。 她的才气...

网友评论

    本文标题:用数据聊一聊TED

    本文链接:https://www.haomeiwen.com/subject/irkxzxtx.html