在我看来,凡是具有3V特性的数据,就是大数据,即:其一为Volume,极大的数据量;其二为Variety,极复杂的数据类型与数据来源;其三为Velocity,极高的数据产生与流转速度。以Windows Azure为例,该平台上的计算使用量在过去6个月中翻了一番,现有计算容量已超过1999年全球服务器计算资源的总和,其上存储的数据在过去2个月中增加了一倍。
从3个V的角度看,大数据可以说是IT产业发展的必然结果。仅在15年前,我们主要面对的数据还是ERP和CRM系统的结构化数据,其来源是交易、产品销售、客户信息等,产生和流转的速度多以年、月计。
随着互联网的兴起,数据量开始攀升,同时数据类型也不断丰富,网页、文件、日志,非结构化、半结构化数据的存储技术随之兴起,同时我们看到新的数据平台、分析和展示工具不断诞生,对大爆炸的数据进行分析和存储,其时数据产生与流转的速度大概以周、日计。
时至今日,来自物联网(典型如智能设备传感器网络、车载传感器网络、气候传感器网络、海洋传感器网络等、太空传感器网络等)、互联网、移动互联网、通信网、广播电视网上的数以百十亿计的传感器与智能终端,能让人类搜集到前所未有的宇量信号。而云计算成为主流,则让网络、计算和存储资源的潜力得到了充分利用,再加上摩尔定律的持续影响,让上述设备产生的信号得以被快速地处理为数据,并进行存储和传输。接下来要解决的问题,就是如何通过数据挖掘、数据呈现、数据洞察,利用好其中蕴藏的巨大价值——在这样的背景下,大数据成为全球热门话题,自然是水到渠成。
微软的“大数据”观
如上所述,大数据中所增加的大多是社交网络的言论、图片、视频等不受控制的内容,以及来自于各类传感器的不规则信号,这些非关系型数据与传统数据库中的关系型数据有本质不同,作为专业的“数据人”,我们正在试图从这些庞大的“数据宝藏”中获得知识和洞察力。例如,我们已经开始尝试通过对社交网络数据的分析,来量化评估企业或个人的品牌影响力;可以利用实时的交通、天气信息为每个人优化出行日程与线路;甚至可以帮助分析企业策略,如某种新产品投放市场后,其反响会怎样,如何优化市场战略?
在我看来,大数据并不特指某一种具体的技术与产品,而应包括三个层次,分别是:数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。
从14年前进入微软起,我们便开始了类似的研究,当时就有这样一个愿景:希望建立一个体系,可以让任何客户,管理任何种类、任何大小、任何来源的数据。现在我们正逐步实现这个愿景。
作为微软大数据解决方案的核心基础,最新版本的SQL Server 2012也已是今非昔比,它已完全成为一个综合性平台,可以管理比以前复杂一百倍的数据——关系型数据、空间数据、图像、数据流以及高性能的数据存储和获取,过往可能需要几个月时间来进行的数据分析,现在只需要几天。
微软“大数据”:兼顾简易、开放与灵活
微软所提供的大数据平台,有着对大数据生命周期的全方位考虑,从数据到工具再到最后产生价值,都会纳入到微软的大数据平台上。这也是为什么我们决定将Hadoop等开源架构,整合到微软的大数据平台里,一方面是将Hadoop作为SQL Server一部分进行无缝整合,将其作为对非关系型数据处理的补充;另一方面是将Hadoop作为一个服务,整合到微软的公有云与私有云平台里。
对于非技术企业的IT部门而言,Hadoop部署比较复杂,微软即将正式发布的Hadoop版本则非常强调部署的简易性,这也是微软的传统优势。同时在Hadoop高性能和高扩展性的基础上,增强了它的安全性和可靠性,打消了客户对开源软件的顾虑。
值得强调的是,微软不是简单地将Hadoop迁移到微软的大数据平台上,而是真正的融合,会系统地考虑其可用性、可靠性、安全性、部署的简易性与灵活性,乃至对Hadoop上工具的集成与优化。与此同时,微软也会坚持开源的原则,将在Hadoop上做的一些研发工作回馈给社区,与社区形成良性互动。
我们期待着,无论是数据科学家,还是商业智能专业人员或是普通的业务分析人员,都可以通过微软的大数据平台,去探索关于过去、关于现在、关于未来的奥秘,并得到答案。