Hadoop的创造者Doug Cutting在不久的将来将解开大数据的技术

导读 Doug Cutting:“如果你可以在内存中有一个pb级的数据,可以从周期内的任何节点访问,那么这将是几个级别的性能改进。”十年前,当Doug Cu...

Doug Cutting:“如果你可以在内存中有一个pb级的数据,可以从周期内的任何节点访问,那么这将是几个级别的性能改进。”

十年前,当Doug Cutting创建Hadoop框架时,他从未想过它会将大规模计算带到企业界。

“我的预期肯定比我们看到的要温和,”他在Strata和Hadoop世界大会上说。

如今,Hadoop被许多家喻户晓的名字所使用,帮助Facebook分析其超过16亿月度用户的流量,帮助Visa揭露价值数十亿美元的欺诈。

Hadoop的吸引力在于它可以让大数据的处理成本更低,在某些方面也更简单。该平台提供了一组技术,允许将非常大的数据集分散到大量的商品服务器集群中,并并行处理。

然而,这个平台所能做的也有局限性。今天,Hadoop集群处理非常大的数据集的速度是由数据在二级存储器(ssd或更慢的旋转磁盘)和计算机的内存和CPU之间穿梭的速度所限制的。

出现这种I/O瓶颈是因为处理器速度和效率的增长快于存储的读写速率。

但现在存储技术正准备进行重大转变,其中之一是削减说,这将有助于停止大数据处理的刹车。

今年,英特尔计划发布其3D XPoint存储芯片,该芯片检索数据的速度比通常用于ssd的NAND闪存快1000倍,同时存储数据的密度也比DRAM高10倍,DRAM是目前常用的内存类型。

虽然XPoint最初将以optane品牌的ssd的形式提供存储,但英特尔计划随后发布XPoint内存模块。由于XPoint以比传统DRAM高得多的密度存储数据,这些模块将允许服务器拥有比现在大得多的内存。英特尔曾表示,英特尔Xeon服务器明年将推出6TB内存,由DDR4 DRAM和XPoint组成。也就是说XPoint在性能上无法与DDR4 DRAM相匹配。预发布的XPoint ssd的7微秒延迟和78,000读/写IOPS比DRAM慢,一些估计比高性能ssd快不超过20倍。

大数据最大的问题是:获取数据太难了

虽然大数据更多的是一种营销术语,而不是一种技术,但它仍有巨大的未开发潜力。但是,首先要解决一个大问题。

阅读更多

不管怎样,Cutting预测在Hadoop集群中使用XPoint和其他非易失性内存将为新的用途打开平台,允许用户在内存中处理更大的数据集,这将绕过从磁盘获取数据时固有的延迟。

“如果你可以在内存中有一个pb级的数据,可以从周期内的任何节点访问,这是几个级别的性能改进,如果你在做某些类型的算法,”Cutting说,他现在是Cloudera的首席架构师,Cloudera提供自己的Hadoop分发。

“现在非常昂贵的东西,比如图形操作、各种迭代机器学习算法、集群——这些传统上需要很长时间的事情——现在可以非常快地完成,并覆盖相当可观的数据量。”

“数据集仍然会太大,计算速度也会太慢,但我认为它会改变很多事情,”他说,并补充说,与网络流量相关的延迟也会通过远程直接管理访问和千兆以太网交换来减少。

2014年,英特尔向Cloudera投资约7.4亿美元。作为两家公司合作的一部分,Intel将向Cloudera提供正在开发的新特性和硬件,以确保Cloudera的Hadoop发行版可以利用这项技术。

“我们希望确保我们提供的工具能够利用这一点,”Cutting谈到XPoint时说。

“我们已经非常努力地将访问内存中数据结构的CPU使用量降到最低,”他说,并补充说Cloudera已经尝试防止不必要的操作,这些操作会导致CPU在处理内存数据时遇到瓶颈。

Cutting还希望让Hadoop更容易地在云中运行Hadoop集群,从而让更多人可以使用Hadoop。

在各种云平台上构建Hadoop集群已经成为可能。例如,那些运行Cloudera的Hadoop (CDH)发行版的用户,可以使用Cloudera Director来启动Amazon Web Services和谷歌云平台上的虚拟服务器集群。

不过,Cutting表示,为了简化处理过程,还有一些限制需要解决,Cloudera计划改进从AWS S3和其他云存储向Hadoop数据处理引擎提供数据的支持。

“我们需要对Hadoop做一些调整,使它能够更好地在云中工作。我们需要把存储,比如Amazon的S3,和HDFS (Hadoop分布式文件系统)一起作为一等公民来对待,这样人们就可以动态地启动集群。

而且云中的集群更有可能向上或向下旋转,Cutting说Cloudera也想要改善启动时间。

Cutting想要解决的另一个问题是使Hadoop集群从一个云平台转移到另一个云平台变得更容易,而cut对当前的云锁定状态感到沮丧。

“我们认为,我们可以提供一些真正的价值,让人们在云提供商之间的可移植性。现在,如果你开始在云中开发你的应用程序,你很快就会被锁定在一个云供应商那里。”

随着Hadoop的发布,Cutting说Cloudera正在构建“一个层,让人们决定工作负载是在本地进行,还是进入亚马逊、谷歌、微软或其他云提供商。”

他表示,目前Cloudera的董事在一定程度上可以使用这一功能,“我们将继续推进这一功能,使其更加无缝”。

进一步展望分布式系统的未来,Cutting说需要一种能够同时参考实时和历史数据的架构来帮助做出实时决策。

“现在有各种各样的方法,但都有缺陷。我想我们很快就能解决这个问题。”

最终,他相信Hadoop的遗产将在使大数据成为规范、开源软件成为软件的实际选择以及将关系数据库打入小众市场方面发挥作用。

“我们讨论的不是大数据,而是数据系统。开放源代码栈将不再是一个新事物,它将是现有的和人们操作的方式。关系系统将是与cobol相当的系统,并且是非常重要的遗产。10年后,我们将取得长足的进步。”

免责声明:本文由用户上传,如有侵权请联系删除!