作家
登录

Hadoop 2.0将发布 大数据的新突破在即

作者: 来源: 2013-05-27 11:28:13 阅读 我要评论

以往Hadoop似乎就是大数据的代名词。不过最近随着大数据应用的深入,大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了。

不过这并不一定就是坏事。把Hadoop当作廉价有效的存储正好是Hadoop下一阶段演进的的完美起点。今年夏天就要亮相的Hadoop 2.0将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问。

Hadoop大桶

自成为大数据工具以来,Hadoop就是一个非常棒的数据存储系统,但是需要开发Java应用来访问数据的MapReduce学习起来却比较困难。

当然,还有别的办法可以从Hadoop中获取信息。Hbase数据是Hadoop的一部分,它可以让用户按照数据库范式来处理数据。Hive数据仓库则可以让你用类SQL的HiveSQL查询语言来创建查询并转化为MapReduce任务。不过Hadoop仍受限于单线程性。MapReduce任务、Hive查询、Hbase操作,等等,这些都要轮流进行。

这就是许多大数据供应商倾向于仅将Hadoop当作数据容器的原因,为了提高效率,他们在此基础上再开发自己的工具来获取或分析其中的数据。尽管把Hadoop形容为一个大桶很形象,但是Hadoop用户当中已经有人把它看作是数据大湖甚至数据海洋了。不过光是规模大还是不行的,那些限制影响到了Hadoop的卖点。

Hadoop的开发社区也意识到这个问题,随着Hadoop即将迭代到新的版本,上述限制即将在很大程度上被解除。

YARN解决方案

在Hadoop 2.0发布经理Arun Murthy看来,其最重要的变化是MapReduce框架升级为Apache YARN,这将扩展Hadoop中可以应用的软件种类和应用程度。Arun Murthy本人就是YARN项目主管,他指出,Hadoop 1.0和2.0的区别在于,前者所有的事情都是面向批处理的,而后者则允许多个应用同时在内部访问数据。

相对于当前MapReduce系统能处理的事情,把这些功能分开使得Hadoop集群资源的管理更加强大。其主要管理方式类似于操作系统对任务的处理,也就是说不再有一次一项操作的限制了。

有了YARN,开发者就能够直接在Hadoop内部来开发应用,而不是像许多第三方工具所做的那样,在外面把数据筛选出来。

Murthy称,现在已经有供应商对在YARN框架内开发应用表现出兴趣。Murthy估计,Hadoop 2.0的强力beta版有可能会在今年6月或7月推出,正式版则可能在8月发布。

如果YARN的确能履行其承诺的话,开发者将可以在原生的Hadoop平台里方便地接触到许多的数据大湖大海,令搜寻有用信息的任务更加流畅和便捷。届时,大数据会变得更加有用、更加大众化。

【编辑推荐】

  1. 一个用大数据干掉导演的案例
  2. 别把“大数据”演绎成“大神话”
  3. 大数据化生活喜忧参半:可预测犯罪 可窥视居住
  4. 大数据如何使黑客人赃俱获

  推荐阅读

  大数据最懂你的心

别再问旁人爱你有多深了,估计月亮也代表不了什么。想要得到最权威的答案?不妨试试大数据!深谙此道的人都能赢得江山和美人,比如美国的奈飞(Netflix)公司,这些年就凭着这个法宝赚得盆满钵满。这家主营电影电视剧的美>>>详细阅读


本文标题:Hadoop 2.0将发布 大数据的新突破在即

地址:http://www.17bianji.com/yunjisuan/33542.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)