转发:大数据的那些事(1):Google的后悔药

大数据这个概念红红火火的也有两三个年头了,笔者在这个坑里的时间可能要更长一些,勉强可以从08年开始算。所谓年头待得久了,看得也多一些。对应中国传统文化的说法,什么东西老了都能成精。这个坑的主要目的还是以八卦为主,顺便把自己知道的道听途说的有的没的的大数据相关的东西给大家讲一讲,顺便也把大数据来龙去脉理一理,权当诸位茶余饭后的谈资。倘若写到精彩之处,还请多多打赏。钱多钱少其实不是问题,收起打赏就颇有成就感。感觉人生又完整了一些。

大概说起大数据,我们就不可避免的要谈起这个曾经在国内风光无限,然后又从国内退出去的公司,号称Do not Evil而实际上相当Evil的公司——Google。当然,因为本人的经历的关系,我是:dog:黑软粉,不是和主流大众的审美观一致。

不可否认,大数据伊始,主要是因为Google这个公司。更加确切的说,不仅仅是因为Google的一系列的论文,更是因为Google以自己的一年又一年的财报告诉大家,免费的消费者们,结合大数据的技术,做成广告平台,就像开了印钞机一样。钱之所在,趋之若鹜,人性本来就是如此。

我们把时光倒流到2009年,经济危机的时候。那一年全世界发生了很多事。除了大家开始狂印钞票以外,大数据作为一个概念也开始悄然登场了。这个时候我曾经听到一个特别著名的笑话。笑话大致上是说,有人采访了Larry Page,问他有没有什么后悔的事情,Larry Page说,他很后悔让MapReduce和Google File System这样的paper给发了出来。

这个采访估计是子虚乌有的东西,然而其反应的本质问题,Google后悔了,却是非常真实而有据可循的。在我看来,Google不仅仅是后悔了,而且是在不停的后悔又后悔之中。所以当一个新的名词人工智能,以及伴随着的AR/VR出现的时候,Google采取了一种截然不同的做法。今天我们从Google的后悔药说起。

Google的后悔药的第一层意思其实非常的名曲,倘若Google早年没有发表了Google File System, MapReduce,以及BigTable这三篇文章,那么Google依然拥有着这世界上最为先进而独特的大规模数据存储和计算的能力。而业界的其他公司如果要想平地起高楼的起起来,那可能会需要更多的时间。

这其实从Google发表的一系列文章里也能看出来。Google File System是论文里面的经典,必须说每个做数据处理的人都值得一读。MapReduce则写得没那么实诚了。等BigTable出来的时候,那就更需要读者更多的想象空间了。至于此后若干年才诞生的Spanner,这个系统也许可以称为是一个伟大的系统,这篇论文,写得遮遮掩掩的那种样子,能被OSDI接收也是奇迹,更何况是Best Paper Award呢。就事论事,Google从一个非常开放的方式到越来越保守,和它后悔自己泄露了自己的商业机密,而以后又不得不继续以泄露商业机密的方式来半遮半掩的显示它在大数据领域的存在,无疑说明Google其实很后悔一开始发了那几篇论文,可惜这世界上并没有后悔药。

然而我觉得Google其实是一个商业上极其失败的公司。倘若我做CEO的话,估计高marketing的应该从上到下都清几遍。为什么这么说呢。Google这个公司有着天生的优越感:老子就是有Google File System,老子还有MapReduce,你们这些老朽的,还有新生的公司们,没有我这样牛逼的体系结构,你们搞什么飞机都没办法赶得上我。所以呢,Google这个作为奠定了整个BigData最开始的框架和基础的公司,从来都没有想过开源自己的系统,以便可以占领市场。于是活雷锋Yahoo上场,硅谷大大小小的公司都凑上去,乱拳打死老师傅。Hadoop这样的一个看起来很烂的系统就这样在大家七拼八凑的节奏下搭出来了。然后就茁壮成长起来了。这是一件非常有意思的事情。作为大数据技术的奠基人,在大数据领域的影响力,基本上是等于零。那么大一块饼,你Google只要自己open一点,本来很大的市场,现在是做了雷锋却没捞到任何的好处,我想Larry Page回头想起来,估计后悔药吃的不止是一瓶。

除去商业上极其的傲慢以外,Google还是一个以自我为中心的公司。Jobs的伟大在于他说过用户是愚蠢的我们要告诉用户怎么用才是正确的,这话的前提是Jobs的确是非常的比用户更知道他们需要的是什么。尽管苹果有诸多弊端,对用户的真实需要的理解是很深刻的。

Google不同,每次都是不切实际的指望用户去按照他们的方式去用他们的产品。早年的Google玩的那个只需要浏览器就可以让消费者访问全世界以及完成日常所有应用的Chrome应该是一个很好的例子。然而在大数据这个背景下,和云计算相关的地方,Google做了一件事:Google App Engine。非要定义的话,这是个PAAS的东西。Google2008年正式开始做这个App Engine,进入云计算市场,并且提供了包括BigTable在内的API的支持。问题吧,Google大概忘记了它自己和它的用户的不同。它的系统的Scalability对大部分用户来说,都没意义,没有什么用户要用几万台电脑去解决问题的。而它的API的局限,对很多用户来说其实无法接受。最简单的,Google当时并不支持join。并且Google告诉大家我自己这么大的公司就没有用Join,你们也不需要用。

Google App Engine折腾几年,并不成功。相反的微软亚马逊都开始做卖虚拟机的生意,而且越来越红火,所以到了12年终于忍不住开始做Google Compute Engine,也就是终于承认自己以前的战略错误,开始卖机器了。相信4年时间可以做很多事情,也相信4年时间足够让一个本来可以抢占一部分蛋糕的市场,变得无足轻重起来。所以说西雅图才是云的中心,而弯曲,包括Google在内,终究是慢了。本人想Larry Page肯定是非常的感叹他接二连三的做出的错误决定。这些错误决定的唯一结果就是BigData这块大蛋糕,基于Google的论文,但是却没让Google吃到一口。

所以当人工智能这个新泡泡起来的时候,Google迅速采用了一个完全不同的策略,不仅仅用AlphaGo这个程序告诉大家,所谓围棋,不管东亚人怎么吹是信仰是人生是哲理,其实无非就是个计算的问题。Google接下来很快的开放了Google内部的人工智能平台TensorFlow。我想这个战略上的转变,反映了Google不想在人工智能这个新的热点上再一次吃上BigData上面颗粒无收的后悔药。