·设为首页
·联系站长
·加入收藏
 位置: IT外包服务提供商 >> 文章频道 >> 新闻中心 >> 行业新闻 >> 正文 当前没有通告!
  我的“大数据“观:管理、丰富 与洞察力    3星级
我的“大数据“观:管理、丰富 与洞察力
[ 作者:bianhongjin     来源:IT外包     点击数:1066     更新时间:2013-1-3     文章录入:bianhongjin
【字体: 字体颜色
微软亚太研发集团首席技术官孙博凯

    去年以来,从硅谷到中关村,从白宫到中国工信部,从《彭博商业周刊》、Business Insider到《商业价值》和新浪科技,“大数据“这个名词已经成为各界新宠,甚至连以稳重著称的《纽约时报》都宣称:“大数据时代”已经来临!

    或许您有一种“前度刘郎今又来“的感觉?我想是的,正如科技史上每一种新技术出现时,都会或多或少地引发一些泡沫和虚热,但真正经得起时间考验的技术与产品,会成为推进文明的原动力,譬如PC、互联网、云计算。

    大数据时代的到来,意味着在这一领域拥有专长的人士面临着前所未有的机会。幸运的是,我恰好身处其中。在过去的20年里,大部分时间我都在做与数据相关的技术研发,对于我这样一个“数据人”来说,这是一个激动人心的时刻,因为数据库、大数据正成为一场变革的中心,并终将改变世界的运行方式。

    什么是大数据?

    鉴于“大数据”正如当年的“云计算”一样,还处在众说纷纭的阶段,所以在具体展开之前,有必要先厘清“大数据”的定义。

    在我看来,凡是具有3V特性的数据,就是大数据,即:其一为Volume,极大的数据量;其二为Variety,极复杂的数据类型与数据来源;其三为Velocity,极高的数据产生与流转速度。以Windows Azure为例,该平台上的计算使用量在过去6个月中翻了一番,现有计算容量已超过1999年全球服务器计算资源的总和,其上存储的数据在过去2个月中增加了一倍。
 

    从3个V的角度看,大数据可以说是IT产业发展的必然结果。仅在15年前,我们主要面对的数据还是ERP和CRM系统的结构化数据,其来源是交易、产品销售、客户信息等,产生和流转的速度多以年、月计。


    随着互联网的兴起,数据量开始攀升,同时数据类型也不断丰富,网页、文件、日志,非结构化、半结构化数据的存储技术随之兴起,同时我们看到新的数据平台、分析和展示工具不断诞生,对大爆炸的数据进行分析和存储,其时数据产生与流转的速度大概以周、日计。

 

    时至今日,来自物联网(典型如智能设备传感器网络、车载传感器网络、气候传感器网络、海洋传感器网络等、太空传感器网络等)、互联网、移动互联网、通信网、广播电视网上的数以百十亿计的传感器与智能终端,能让人类搜集到前所未有的宇量信号。而云计算成为主流,则让网络、计算和存储资源的潜力得到了充分利用,再加上摩尔定律的持续影响,让上述设备产生的信号得以被快速地处理为数据,并进行存储和传输。接下来要解决的问题,就是如何通过数据挖掘、数据呈现、数据洞察,利用好其中蕴藏的巨大价值——在这样的背景下,大数据成为全球热门话题,自然是水到渠成。
 

    微软的“大数据”观

 

    如上所述,大数据中所增加的大多是社交网络的言论、图片、视频等不受控制的内容,以及来自于各类传感器的不规则信号,这些非关系型数据与传统数据库中的关系型数据有本质不同,作为专业的“数据人”,我们正在试图从这些庞大的“数据宝藏”中获得知识和洞察力。例如,我们已经开始尝试通过对社交网络数据的分析,来量化评估企业或个人的品牌影响力;可以利用实时的交通、天气信息为每个人优化出行日程与线路;甚至可以帮助分析企业策略,如某种新产品投放市场后,其反响会怎样,如何优化市场战略?

 

    在我看来,大数据并不特指某一种具体的技术与产品,而应包括三个层次,分别是:数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。

    从14年前进入微软起,我们便开始了类似的研究,当时就有这样一个愿景:希望建立一个体系,可以让任何客户,管理任何种类、任何大小、任何来源的数据。现在我们正逐步实现这个愿景。


    作为微软大数据解决方案的核心基础,最新版本的SQL Server 2012也已是今非昔比,它已完全成为一个综合性平台,可以管理比以前复杂一百倍的数据——关系型数据、空间数据、图像、数据流以及高性能的数据存储和获取,过往可能需要几个月时间来进行的数据分析,现在只需要几天。

 
    微软“大数据”:兼顾简易、开放与灵活


    微软所提供的大数据平台,有着对大数据生命周期的全方位考虑,从数据到工具再到最后产生价值,都会纳入到微软的大数据平台上。这也是为什么我们决定将Hadoop等开源架构,整合到微软的大数据平台里,一方面是将Hadoop作为SQL Server一部分进行无缝整合,将其作为对非关系型数据处理的补充;另一方面是将Hadoop作为一个服务,整合到微软的公有云与私有云平台里。


    对于非技术企业的IT部门而言,Hadoop部署比较复杂,微软即将正式发布的Hadoop版本则非常强调部署的简易性,这也是微软的传统优势。同时在Hadoop高性能和高扩展性的基础上,增强了它的安全性和可靠性,打消了客户对开源软件的顾虑。


    值得强调的是,微软不是简单地将Hadoop迁移到微软的大数据平台上,而是真正的融合,会系统地考虑其可用性、可靠性、安全性、部署的简易性与灵活性,乃至对Hadoop上工具的集成与优化。与此同时,微软也会坚持开源的原则,将在Hadoop上做的一些研发工作回馈给社区,与社区形成良性互动。


    我们期待着,无论是数据科学家,还是商业智能专业人员或是普通的业务分析人员,都可以通过微软的大数据平台,去探索关于过去、关于现在、关于未来的奥秘,并得到答案。

编辑:北京信诚www.xcitbm.com>IT保姆www.xcitbm.com>IT外包部 http://www.xcitbm.comwww.xcit.com.cn
  • 上一篇文章: 为什么知识产权诉讼高发?

  • 下一篇文章: 为什么知识产权诉讼高发?
  • 发表评论   告诉好友   打印此文  收藏此页  关闭窗口  返回顶部
     最新5篇热点文章
     联想固态硬盘SL700在BIOS里...
     IT外包首选我们的八大理由...
     中国劳科院与我公司续签了...
     中共中央政治局常务委员会...
     北京IT外包服务联盟知行社...
     
     最新5篇推荐文章
     0x000000ce蓝屏解决方案
     HP 706n 打印机打印A3纸的...
     什么是网络瓶颈?
     网线质量不好有什么影响?...
     蓝屏提示0x0000006B
     
     相 关 文 章

      网友评论:(只显示最新5条。评论内容只代表网友观点,与本站立场无关!)
  • 这篇文章还没有任何评论。
  • ::发表评论::
    姓名:  *  Email: * 
    评分:10  20  30  40  50  60  70  80  90  100