作家
登录

用2600条文本数据,为你揭秘TED受欢迎的真正原因!

作者: 来源: 2018-03-15 10:06:57 阅读 我要评论

TED 在讲什么?

一向以来,各个范畴的前沿思惟者被邀请到TED 来分享他们独特的不雅点。TED 演讲涉及的主题大年夜宇宙来源到将来科技,大年夜奥妙天然到生活感悟… 可说是搜罗万象。然而,大年夜演讲的文本内容出发,TED的主题又有何特点呢?下面我将会分享在TED文本

个中“Thinkers 50顶尖思惟家”与“创造力和立异范畴的全球出色思惟家”Ken Robinson用滑稽而睿智的立异案例告诉我们应培养创造力而不是去破坏它,成为浏览量最高的演讲。

数据分析中的发明和经验。此次分析的数据是大年夜官网爬取下来截止到2017年9月的数据内容,包含演讲标题、演讲者信息宣布、录制时光、浏览评论量以及最重要的演讲文本内容,一共是2600多条数据。

大年夜上图可以看到对不合录制时光的演讲视频建立LAD主题模型的结不雅,个中People、Time和Life是每年TED浩瀚主题中的“常客”,并且所占权重很大年夜。大年夜结不雅看来,TED并不像很多人认为如神坛一般遥远,相反它更侧重人文,也异常切近生活,存眷爱和孩子;其次,科技创意和故事的讲述同样是TED的重头戏,演讲者往往以滑稽滑稽的方法与大年夜家分享本身的亲自经历,感悟和不雅点。

此外,跟着时代的变迁,TED的主题也随之变更着。

数据和信息爆炸的年代,TED的话题同样更多集中在数据,社交方面。与以前加倍侧重一些小我,狭小的主题不合,近些年的TED 更多雌教国度当局,健康和家庭的主题。此外,女性的话题越来越受到演讲者们的存眷。

TED有着不合范畴的新创意和设法主意的碰撞,同时也关怀着时下的最新讯息。

例如大年夜积年TED演讲文本主题中发明,相较其他年份,2008年除了“老生常谈”的话题之外,其他有很多和太空、宇宙、星球之类相干的主题。2008年关于太空产生了什么呢?大年夜Google Trend 上来看,个中关键词Earth在2008年的搜刮率异常高,并且,接洽关系搜刮“earth-like planet”出现频率异常高。

我们搜刮了该年太空大年夜事宜消息,发明08年美国专家借助 “凤凰” 号着陆探测器发明火星泥土里有冰冻水,掀起了学术和媒体界关于仁攀类移居去火星的激烈评论辩论,“earth-like planet”也成了人们移居其他星球的妄图指南,Mars和NASA在Google的搜获同样在2008年达到岑岭: 某种程度上这也解释TED和时下最新的热点也是关系慎密。

一向以来,TED在启发思虑和鼓舞人心方面扮演侧重要的角色。大年夜积年演讲文本的情感分析结不雅上来看,TED不雅然是正能量的存在。

值得一提的是2004年的情感分析得分异常之高,而将此年的主题零丁拿出来看,不难发明,happy、glamorous等异常正向的主题出现的权重很高。此外System、Money也涌如今2004年TED演讲时主题中,不免让人猜想,莫非TED的情感得分与经济有接洽关系?也许!下图是密歇根大年夜学花费者信念指数图:

个中2004年该指数总体偏高,并在2004年一月达到103.8,此后该值直到2017年十月才冲破100。可以看到,在2008年经济危机时,TED的得分同样出现低谷。可见,经济形势或许对演讲者的心态有着必定的影响。

以上就是我分析的第一部分,应用它自身的数据,重要大年夜时光维度、不合事宜维度对TED的主题进行提取和分析,并大年夜情感角度对TED进行了解剖。

但你细心一看,发明文┞仿中全部都是关于科比的八卦,这时刻你就会断定文本的主题可能是娱乐八卦。这就是LDA想解决的问题,它认为不合词语在不合主题里的权重是不一样的,所以一个词并不克不及代表一个主题。那用什么代表主题呢?

TED的情感分析得分一向在0.13高低波动,解释总体来看TED演讲内容是积极向上的。同时,大年夜主客不雅度来看,TED演讲文本的得分稳定在0.45到0.5,可见固然TED是一个不雅点的传播,但并非鸡汤式,情感类的传播,大年夜文本内容来看,TED照样相对客不雅的。(polarity的分数是一个范围为[-1.0, 1.0] 浮点数, 正数表示积极,负数表示消极。subjectivity是一个 范围为 [0.0, 1.0] 的浮点数,个中 0.0 表示 客不雅,1.0表示主不雅的。)

另一种我想分享的是应用无监督机械进修的办法来提取文本主题的办法,也就是此次我对TED文本分析重要应用的办法——主题模型(LDA)。

第二个部分主如果针对TED不雅看者的反馈信息来揭开TED如斯受迎接的原因,个中重要涉及到的数据包含TED官网截止到2017年9月各个演讲的浏览数、一级评论数以及不雅看者对于评论的打分情况。

大年夜上图中可以不雅察到我们拔取的2600余个视频的浏览量、评论量和评分数量的分布,这些样本的浏览量大年夜概都集中在100万到500万,但个中也不乏切切浏览量级的经典视频。可以明显地看到,图中有六个点异常凸起,也就是不雅众反馈最好的六个演讲。

所以我将这六个最受迎接的演讲零丁找了出来:


  推荐阅读

  关于Hive数据仓库的那些事儿--数据存储结构

有奖调研 | 人脸辨认功能在互联网行业认知度情况 本篇我们大年夜底层存储数据构造出发,讲一讲Hive是若何组织>>>详细阅读


本文标题:用2600条文本数据,为你揭秘TED受欢迎的真正原因!

地址:http://www.17bianji.com/lsqh/40720.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)