有奖调研 | 人脸辨认功能在互联网行业认知度情况
为什么不跨越18分钟的TED演讲,平均点击率却跨越百万次,最高的甚至跨越5000万次?为什么连比尔•盖茨、史蒂芬•霍金、阿尔•戈尔如许的商界、学界与官场精英都竞相登上TED的舞台?到底是什么原因使得TED演讲如斯受迎接?近期Merkle数据分析师胡舟对TED官网爬取了2600余个演讲文本进行分析,为大年夜家揭开了TED 神秘的面纱。
科谱一下:TED Event知若干?
此次分享主如果想经由过程文本分析从新熟悉TED,商量TED为何如斯受迎接?我将以案例分析情势向大年夜家展示,若何应用本身已有的文本数据,应用NLP(天然说话处理)的办法,大年夜不合维度来商量TED是一个如何的存在。
出生于1984年、享誉世界的TED大年夜会将“Ideas Worth Spreading”主旨传播至今。TED就像一个“舞台”,将TED三个缩写字母所代表的Technology (技巧)、Entertainment (娱乐)、Design (设计)三个范畴内的思惟领袖与实干家集合起来,讲述值得传播的创意和常识。大年夜2006年开端, 高质量的演讲视频被翻译成100多种说话在全球收集免费传播,深受追捧。
TED的最大年夜的特点在于,无论是多么深奥前沿的思惟,都邑被急速浓缩在18分钟内,这也是TED大年夜会开创人渴攀里斯·安德森一向秉持的不雅念——让信息变得清跋扈易懂。18分钟的演讲既避免了演讲因为时光过长显得拖沓,也迫使演讲者加倍精心肠去预备演讲内容。

TED除了一年一度春季的TED大年夜会之外,下半年还有TED Global大年夜会,每次大年夜会有4-5天,近百位嘉宾。TED每年还有一些不合自力主题的子会议,如TED Women。此外,TEDx是TED 旗下的长短官方,自发性的晃荡项目,TED官网会大年夜全球10000多个本地的TEDx晃荡选择一些优质的TEDx演讲上传官网。

比拟之下TEDx就加倍切近生活,存眷更多的是Kids、Love、School之类的话题。并且TEDx票价相对便宜,固然有人说TED和TEDx是应国度邀请登天安门介入阅兵典礼和买票登过天安门的差别,然则TEDx中依然不乏有质量很高的演讲,并且离我们生活更近,如不雅可以本身介入个中也是极好的。
同时,大年夜TED Women演讲的主题和权重不难看出这个会议的独特之处,由此也可以看出TED这个非盈利组织对于女性群体的尊敬和关怀。
什么是NLP(天然说话处理)?
以往大年夜家对TED的熟悉都是演讲者活泼的演说,而今天的分享,我将大年夜TED演讲的文本出发,应用NLP(天然说话处理)的办法,换一个角度带大年夜家从新熟悉TED。那么什么是NLP?天然说话就是人们日常应用的说话,所以通俗的来说NLP就是一门实现和计算机“说人话”的技巧。其实,不管是让计算机听懂人话,也就是所谓的天然说话懂得;照样让计算机“说人话”,也就是天然说话生成,都比想象中来得艰苦。然则作为人工智能的重要偏向,NLP也是越来越受到大年夜家的存眷。
大年夜下图中,大年夜家可以看到NLP的一些基本算法和营业应用。

TED为何如斯受迎接?
实际上NLP技巧离我们生活并不远,它应用的覆盖面异常之广,大年夜一句话的词性标注到全部搜刮引擎的应用,都有涉及到NLP技巧,如大年夜家比较熟悉的垃圾邮件分类、谷歌百度的机械翻译,甚至机械客服也都邑应用到NLP技巧。
此次分享主如果想实现NLP浩瀚技巧中的信息提取,大年夜家都知道TED的演讲那么多,并且包含各类不合范畴的常识,若何快速的知道这些TED的文本到底在说什么?重点是什么?这就是信息提取要帮我们做的工作。
信息提取的办法有很多,个一一种是统计类办法,别的还有像机械进修的办法等等,也就是用模型来提取文本的核心内容。统计类的办法很好懂得,就是经由过程统计计算的办法评估出文本中不合词语的重要程度,大年夜而断定文本的关键词是什么。这边我以TED在数据科学和人工智能方面Top10的演讲文本来举一个应用统计办法提取关键词典例子。

左边这张是由大年夜大年夜小小的单词构成TED字样的图,这其实是一张词频统计的词云图。大年夜家可以看到图中像Intelligence、Human等字样很大年夜,也就是嗣魅这些词在这十篇文┞仿中出现的频率最多。
右边这张图是应用TF-IDF算法,对同一组词统计计算得出的关键词和权重。TF-IDF算法与词频统计不合在于,词频统计只经由过程简单地看某个词出现的若干,就断定这个词是否重要。而TF-IDF算法不仅会推敲到某个词涌如今一篇文┞仿里的次数,也会推敲到这个词是不是在所有文┞仿里都提到,如不雅是,那解释这个词可能并不具有代表性,大年夜而权重会降低。
在说LDA主题模型之前,我先举一个例子,比如说你在文本中看到了大年夜量“科比”的字眼,很轻易联想到文本的主题可能是体育、篮球。
机灵的LDA采取的是一组带权重的关键词组合来表示文本的主题。比瘸老PPT上的例子,两组词语固然一样,但因为每个词语的权重不合,所以两组词语组合表现的主题并不一样,明显可以看出第一个主题中,NBA、科比和裁判权重更大年夜,那它的主题可能更偏向于体育,而第二个主题则明显偏向于娱乐八卦。
推荐阅读
有奖调研 | 人脸辨认功能在互联网行业认知度情况 本篇我们大年夜底层存储数据构造出发,讲一讲Hive是若何组织>>>详细阅读
本文标题:用2600条文本数据,为你揭秘TED受欢迎的真正原因!
地址:http://www.17bianji.com/lsqh/40720.html
1/2 1