BAT三巨头开始挖掘大数据,第1张

BAT三巨头开始挖掘大数据

阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。

实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。

概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。

BAT都是大矿主,但矿山性质不同

数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。

百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。

阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

下面,就将三家公司的情况一一扫描与分析。

一、百度:含着数据出生且拥有挖掘技术,研究和实用结合

搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。

除了网页外,百度还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管百度拥有核心技术和数据矿山,却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用,与Google相比,百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。

2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。

接下来,百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。

百度还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管百度已经出发,其在大数据上可做的事情还有很多。

在数据收集方面,百度需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。

在数据处理技术上,百度成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,百度等探索者还有很多待解问题,如:无监督式学习、立体图像识别。

在数据变现方面,百度需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。

百度的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面百度是聚集国内最多大数据相关领域顶尖人才的公司。听说百度前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。

在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。

总体来看,百度拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。

二、腾讯:数据为产品所用,自产自销

微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。

腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的787%;电子商务业务占141%;网络广告收入占63%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。

在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。

在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。

腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向百度、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上百度,就难了。除非将百度的数据和众大牛一起倒腾过来。

总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。

三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市

阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。

数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。

阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。

就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。

计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。

阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。

总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。

总结一下

移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。

通过淘宝查看:

1、在淘宝APP点击右下角的“我的淘宝”。

2、在服务中心点击“我的快递”。

3、找到“身份码”点击进入即可查看。

通过支付宝查看:

1、打开支付宝app,接着在首页点击更多。

2、在便民生活栏里点击我的快递即可。

银行业和互联网行业在IT建设上最大区别在于:银行业考虑的不是技术能力,也不是人才数量和质量,而在于开始建设时的时间点和需求。

上世纪银行业有钱,也有准确的业务需求,最主要的是业务变化很慢,需求风险低,业界没有Hadoop等开源的产品,甚至连IBM自己都没有Unix服务器。

银行业唯一的选择就是大型机,再加上那时的富士通、日立、天腾等都不如IBM好,所以银行业就自然而然的选择了IBM大型机。

大型机和超级计算机的区别在于:超级计算机是将所有的数字技术都集中在尝试解决单个的问题上,而大型机所有的计算能力是用来执行数十亿的小事务。IBM大型机被称为是“云计算时代最强大的交易系统”,它主宰了“非x86”的主机市场,占了大约75%的市场份额,每天处理超过300亿笔交易,超过了谷歌的日搜索量。

比如:IBM z14拥有32TB的内存,可以在单个系统上每天处理120亿次事务,运行Java工作负载要比x86快50%,并且可以执行1000个并发的NoSQL数据库。

新一代的z15和z14相比:处理器核心数从170个增加至190个,单线程性能提升14%,最大系统处理能力提高25%,内存增加25%,压缩吞吐量提升17倍,I/O通道增加20%。Z15的推出也让IBM的摆脱了过去几个季度的困境。

如今IBM大型机处理87%的信用卡交易,每年有290亿次ATM交易和40亿次旅客航班预订都是通过IBM的大型机处理的。更加令人惊叹的是全球68%的生产工作负载是在IBM大型机上运行的。

IBM也并非造了个大型机那么简单

银行业除了依赖IBM的大型机外,还对IOE(IBM、Oracle、EMC)框架产生了巨大的依赖性。

比如:招商银行能在几分钟内把总行核心业务真从深圳切换去上海,用的是IBM的i系列,自带的DB2数据库,自带的中间件,自带的通行包,自带的邮件支持。TIMI的设计让现代黑客用尽各种招数。

IOE提供了应用程序以外的所有“基础软件”,包括了操作系统、中间件、数据库等,并且这些“基础软件”的源代码是不会对外公开的,银行业的很多业务都是基于它们开发的。IOE框架从单机的性能、安全性、稳定性、扩展性、可靠性和高可用架构来讲是领先的,银行业都是在守成,很难脱离IOE。

银行也没有这个技术,就像航空公司也不会自己造飞机一样,因为它们的飞机也是买来的,刚买来怎么的也得用10多年才替代吧。银行业想去IOE的路线只可能是:有一个新的业务需求,甚至是对内部人员使用的系统开始在去IOE的环境下建立起来,才能慢慢的侵蚀IOE建立的高楼大厦。如果现在新开一家银行,让BAT的高手去弄这样一套东西,顺带去个IOE,代价不见得比用IOE要小。

综上所述

银行业一直使用IBM,跟IBM出现的时间节点有很大的关系,其他同类的产品包括x86也很难做到IOE框架的优秀程度。IOE框架的几十年深耕,再加上银行的业务流程的复杂程度。银行就算打出了去IOE的口号,也只敢做小范围的尝试。

以上个人浅见,欢迎批评指正。

从设计目标上看,银行广泛使用IBM的Z系列大型机机是以0宕机为设计目标,他的迭代速度要低于企业核心应用为目标的Power系列。我们常用的x86架构,从诞生之初面向的是桌面,之后才面向服务器,稳定性相对比较差,蓝屏很常见。

Z系列从CPU到服务器系统到软件到服务全套都是IBM的产品,从整体上满足零宕机的要求,同时也不存在常用软硬件那样的多个供应商的推诿扯皮。

国产系统大多是基于开源软件改的或是基于多重开源软件的集合,能够完全自研的少之又少,软硬件设计又是多家公司的集合,在没有bat那样强有力的内部开发能力之前,国内上百家银行只能使用IBM的成熟产品。

因为“安全”。

你懂我意思吗?特别是核心 科技 。

啥叫去IOE?

这是三家IT巨头的名字,I=IBM,O=Oracle,E=EMC。他们的产品的作用,可以看下面这个表格:

IOE提供了应用程序以外的所有的”基础软件“,包括操作系统,中间件,数据库等。这些”基础软件“的源代码一般都是不公开的。

当然,应用程序还是要银行的人自己来开发,最威武雄壮的工行,开发队伍有几千人。

那银行为什么不像阿里那样呢?是做不到吗?

并不是。

1、银行要稳定,一旦出了风险,谁来承担责任?没人愿意

2、采购背后的利益,谁愿意让?没有愿意

3、人才不够强,嗯,这是比较现实的问题

4、国内的产品还是顶不上

如果现在新开一家银行,BAT高手去弄,可以去IOE,但需要投入巨量的人力物力,代价不见得比当年用IOE要小。

老银行都在摸索如何去IOE,但并没有很迫切的需求,只是作为减少成本和新技术的 探索 。而且技术上来说,在10年内核心系统不可能完全去IOE。

互联网和银行业在IT建设上的最大区别是:不是技术能力,不是人才数量和质量,而是开始建设的时间点和需求不同。

前几个月和IBM的一个软件销售(非大中华区)吃饭,人家表示了对IBM在中国软件销售前景的担忧,随后他又说了一句:“IBM现在中国比较安全的业务就是高端服务器了,虽然贵但是稳定性好,那几个大银行的数据量现在只有IBM的高端机能支持,也不太有可能放到云上。中国的竞争对手还没有这个技术。”

公司做大了,任何政府都会想插一手,这是无可奈何的事情。枪打出头鸟,这就是美国政府要对付华为,中国政府对付Google麦肯锡IBM一样的。这是非常正常的外交手段。

中国的IT企业现在比不过人家,这是事实。保护主义要不得,看看东南亚那些小国就知道,国有垄断企业根本不求发展效率低下。希望中国的企业能静下心来搞技术。人家IBM,微软,oracle雇了那么多科学家一个季度花十几个亿美元在研发上,这点就是值得学习的。

利益相关,我就匿名了。

IBM提供的不是单一产品,是系统的解决方案,包括了服务器、操作系统、数据库以及应用系统,越早成立的银行核心系统越依赖IBM,早期没有其他可以替代的解决方案,反而新的银行选择很多。银行系统是相对封闭的一个行业,也对稳定性要求很高的行业,进行国产化替代需要投入的资金成本和时间成本都很大,需要银行和大厂联合才能处理,当然我们大部分大行都是国资,希望国家政策能适当引导,加快进程。

银行的系统都是30年前的,所以都是美国甲骨文系统。银行都不愿意换系统是因为银行领导都怕担责任。能做到银行的大领导,都希望稳定不出错,不求有功但求无过的思想。这就是几十年来银行系统落后也不换系统的原因。

目前世界上就两种系统,一种是美国甲骨文数据库系统,另一种是阿里巴巴自研的云系统。阿里巴巴云系统肯定远远超过了甲骨文老式小型机系统,由于今年美国甲骨文公司总在泄密,才让中国的银行们害怕了,不敢继续使用美国甲骨文系统了。

在IBM生产的大型机领域,也就是主机领域,目前全球没有同段位对手,大型机的特点在于高稳定性和高速计算,这一点远非小型机或x86以计算力堆叠方式可以实现的,核心是不同的系统架构实现的。在这个领域,IBM是全球唯一的巨人。在量子计算机领域,IBM也是率先的研制者,并已有样机展现,小型机卖给浪潮,x86卖给联想,是因为利润薄弱,IBM需要聚焦高端计算。

如果IBM被美国政府要挟以国家为由禁止用,那我们银行系统会瘫痪吗?

大学里的计算机信息管理不知道你们知道不?里面有一个叫决策系统。这个中国的程序员好像不在行,另外还有银行里个风险控制,这个好像程序员也不在行。根据我的档案管理经验,这个系统得会全部银行业务、统计学和计算机程序,感觉有点像人工智能,貌似这样的全能人才中国几乎没啥了,想搞出这样的软件不太可能,于是乎有现成的,绝对不会自已再去整这个复杂的软件。

现在正在国产化改造,最多四五年,ibm就会淘汰掉。现在新银行已经不用ibm,比如蚂蚁。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » BAT三巨头开始挖掘大数据

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情