大数据那些事(9):起早贪黑竹篮打水的18摸(IBM)

18摸的名字在国内怎么来的已经无法可考察了。International Business Machine的名字听起来要霸气很多。大数据这趟集,IBM是赶得早,自己把自己给玩掉了,现在一无所获的只能蹭Spark的残羹冷炙。

曾经每次走进IBM Almaden Research Center的那个山顶的时候,我都油然升起一种顶礼膜拜的感觉。IBM Almaden Research Center里面有两个镇山之宝,一块油桶一般大的硬盘,一本System R的手册。前者代表它做出了世界上第一块硬盘。虽然说18摸早早就把硬盘的业务卖给日立了。后者则是第一个关系数据库系统原型。DB2的前身。

作为一个生长在relational algebra的光辉下,日夜受着图领奖获得者的Michael Stonebraker的红宝书(如下)熏陶,一心要做关系数据库接班人的我。一踏上这地方,就像是穆斯林到了麦加一般,顶礼膜拜,说不出的崇敬
image
但是我必须说,在整个计算机研究界,industry research lab这个东西,通常都是需要很多关系的。尤其是18摸这样的讲政治,讲正气的地方,如果没有点背景,没有个好导师,找实习是非常的艰难。我找了好几年,年年都被拒。正好赶上了我导师和18摸里面的一个实权人物的老公有合作,于是我就浑水摸鱼的混进了这个让关系代数红小将的我心潮澎湃的地方。时过境迁啊,当初的红小将已经沦落成卖弄文字,纠结于join有几种写法的孔方兄了。

我进去的那个组正在进行着一个非常非常的先进的项目研究。而我的任务有俩,第一是作为被试,要用那个项目的东西来实现我做的那个关于蒙特卡洛数据库的东西,二是作为这个项目的全世界最早的第一个外来使用者,好好的做小白鼠多找bug。

这个项目是什么呢?在2008年的硅谷很多人都知道,是JAQL:JSON Analytical Query Language。有那么一段时间,开Hadoop的会的时候,这个东东是和另外两个东东并列的,分别是HIVE和PIG。这是一个在Hadoop上面,以JSON作为数据模型的query language。组的领导者是Eugene Shiketa。这位一直是我见过的最让我尊敬的最为睿智的人之一。在18摸实习的那几个月里面他说过的话很多年以后我回头看依然很有受益。

这个Team四个人,在做两个项目,另外一个是基于Lucent的JSON 搜索系统。这些人后来有两个去了Google,包括Eugene,一个去了非死不可,一个城了Platfora的构架师,是不是首席我忘了,还有一个则是Linkedin的开源大项目Kafka的创始人之一的那个中国人。这是一个非常强大的团队,团队里面的人让我也很惊艳。

后来发生了什么呢?首先是一场巨大无比艰难的开源还是不开源的斗争。在18摸里面开源是个很麻烦的事情,吃力不讨好。队伍好不容易把JAQL给开源了,这个开源也没持续多久,最后又成了IBM自己内部产品用的语言,不让开源了。在这个大数据开源的年代里,不开源真的能存活么?

其次就是各种各样的政治和站队的问题,很不幸的是我们的领导并不太擅长玩政治,虽然技术上非常有远见,又对IBM极其热爱。最终当手下的人都一个一个离开以后,自己也只能走了。而会玩政治的,则慢慢的就升成了IBM fellow。

中国有句古话,百足之虫死而不僵。IBM这种百年老妖怪,里面的技术积累人才储备应该是从来都不缺的。但是大公司往往特别喜欢自己和自己玩,左割一坨肉,右砍一只手。18摸后来还推了一个项目SystemML,这个项目也不是很成功,写了好几个版本。最新版的好像底层都换到了Spark上来了。我想这到底是IBM的失败还是Spark的胜利呢?
转自:飞总聊IT