摘要:BDTC 2013中国大数据技术大会首日全体大会,CCF大数据专家委员会秘书长,中科院计算所研究员程学旗宣布《大数据热点问题与发展趋势》&《大数据白皮书》发布。不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

程学旗更为我们分享了大数据发展的10大趋势:

  1. 大数据从概念化走向价值化、
  2. 大数据处理架构多样化模式并存、
  3. 大数据安全与隐私越来越重要、
  4. 大数据分析与可视化成为热点、
  5. 大数据产业成为战略性产业、
  6. 数据的商品化和数据共享的联盟化、
  7. 基于大数据推荐和预测逐步流行、
  8. 大数据性能成为支撑性的技术、
  9. 数据科学的兴起、
  10. 大数据生态环境逐步完善。 

 

以下为演讲实录(节选): 

白皮书分六个章节。

第一章节关于大数据发展背景。

第二章关于业务先兆,互联网大数据,通信大数据,网络空间安全大数据,城镇化大数据,金融大数据,健康医疗大数据和生物信息和制造大数据。我们把这个环节想重点写,由于篇幅有限我们白皮书里面这个环节写的比较简要,我们希望在未来版本里面把大数据应用的环节做的更加深入和详实,数据的价值只有应用起来才能体现它的价值和前景。

第三部分大数据技术体系现状,我们把大数据整个技术的图跟数据采集、计算挖掘做了详细的阐述和介绍。

第四章介绍大数据产业链和环境。

第五章介绍大数据人才培养人才资源,只有好的资源才能推动我们产业发展。

最后一章对大数据发展趋势和建议专家委做一个简单的总结和思考。

我们第六章建议和思考基于我们2012年发布的热点问题和发展趋势以及我们现在看到发展情况,我们今天发布的这个可能在我们明年发布的白皮书里面做进一步的阐述。整个专家委第一次撰写这样的白皮书,来回改了十余次,这样书中内容有一定偏颇和错误,我们希望逐步的完善,也希望我们业界、用户能够对白皮书提出一些改进的建议。稍候白皮书将在中国计算机学会的官方网站正式发布,在会场我们印了一部分纸质版由于数量有限,我们大会之后立即面向社区免费公开。这是第一部分关于大数据发展白皮书。

下面我们重点讲一下2014年大数据发展趋势预测。从去年中国计算机协会大数据专家委员会成立之后保留节目,我们过程跟去年一样,持续了大概三个月左右,从开始一些调研,大数据的趋势涉及到哪些领域哪些话题做一个调研,然后做一些收集,形成一些侯选的集,然后列成表格方便大家投票描述的表格,最后由专家委投票。目前结果是由120多位里面90个委员投票,形成我们今天的报告。我们去年分两个环节,一个热点问题一个发展趋势。今年发布了白皮书,热点问题我们融入了白皮书,这里面我们更多思考2014年或者说近期大数据业界发展一些趋势的预测。这个预测我们首先十大发展趋势是我们经过统计,经过大家投票。

统计出的十大发展趋势

第一个发展趋势我们总结叫做大数据从概念化走向价值化。票选是第一位,总票选93票涉及几个方面,大数据向更多领域进行扩张。我们知道从去年今年大数据变成一个非常热的词。在每个应用领域里面大家都提大数据,比如说我们是大数据金融、大数据安全、大数据制造、大数据物流、几乎每个领域都提到大数据。大家每个人讲这个概念,我们大数据专家委员会发现在一些领域里面实实在在的落实了大数据的价值。所以今年整个我们讲这些趋势用一个关键词来讲就是说务实。2013年中国大数据从2012年概念炒作到2013年走入务实可持续发展的阶段,正是由于这个情况我们十大发展趋势第一个趋势就是大数据从概念走向了价值化。

第二发展趋势大数据处理架构多样化模式并存。hadoop与大数据之间的关联和差异,反映了我们大数据专家委大家的共识,大数据处理不是拿某一个东西,我们数据的管理也许关系数据同样存在,肯定还同样存在,并不是由一个架构处理解决所有大数据问题,实际上由实际需求驱动的。我们在这个总票选71票,得票比较高是大数据处理多样化模式并存。专家委的意见就是hadoop的一些新的GPU的处理架构并存。大数据存储和管理未来会推动存储与管理能力技术提升。和议题相关内存计算成为提高主要的处理之一。大数据处理架构的多样化模式并存。

第三发展趋势大数据安全与隐私越来越重要。这个问题基本不用我们解释,我们去年这个议题已经非常重要了,有了大数据之后一些碎片化看上去不涉及到那么安全那么隐私的问题,随着大数据的融合,一是带来一些安全上的挑战,同时为安全提供了新的机会。这有两项投票结果,大数据安全33票,大数据个人保护和隐私立法得了20票。

第四趋势大数据分析与可视化成为热点。我们说今年有一个关键词务实发展。务实发展分析可视化,大数据专家委投票里面趋势越来越具体化。可视化成为很多专家讨论议题,有了大数据以后大规模多角度多视角多手段的数据可视化,整个贯穿了数据分析和数据展示过程,还有实时处理分析和大数据的处理方法,三个相关结果票选是61票。我们前面的票少一点,是因为我们点出中间主要的选项。

第五发展趋势大数据产业成为战略性产业。第一专家委员认识首先大数据产业成为国家战略性新兴产业是保障国家安全一个重要战略。大企业大数据和政府大数据是一些支柱型产业,总得票71票。

第六发展趋势数据的商品化和数据共享的联盟化。这是我提的词。数据共享联盟是我们去年大家议论的议题,由于数据共享联盟生态环境去年有一些不足,大家还是希望数据共享联盟能够逐步壮大,成为产业、科研和学术一个环环相扣的支撑环节和产业发展的核心环节。另外一个观点由于数据变成资源变成有价值的东西,数据私有化和独占问题是客观存在的,在客观存在如何界定数据传输,以及让数据有数据传输保护情况下数据商品化是未来一个重要的发展趋势。

第七发展方式基于大数据推荐和预测逐步流行。我们看到很多关于大数据大科普书讲很多大数据的推荐,大数据的预测。专家委觉得在中国大数据科研和产业这一块真正开始落到实地,大数据里面总票选76票,大数据预测和精确个性化推荐系统和精确网络营销得票率非常高。

第八深度学习与大数据性能成为支撑性的技术,里面涉及到有几个议题,我们专家委员会委员提出来的,包括深度学习成为大数据智能分析的核心技术。基于海量技术智能成为发展的热点,利用群体智能和众包计算支撑大数据分析和应用。这个跟前面的分析、预测都成为大数据技术一些实实在在的价值,实实在在的一些技术。

第九趋势数据科学的兴起。我们去年也有这样一个评价,这样一个预测,今年比去年稍微晚一下因为我们做分析,具体选项三个方面。数据科学兴起,大数据评测基准,以及所有科学正迅速变成以数据驱动的科学,大家对数据科学兴起有更具体的认识。

最后一个大数据生态环境逐步完善,虽然我们大数据生态环境目前没有完善到我们满意程度但是它在逐步的完善。开源逐步成为主流,大数据、云计算、物联网相互交融,尤其是大数据教育,计算机组织的教育相关的活动,这个里面大数据教育更多是对人才方面,对教育培养大数据人才方面也有大家的一些共识。

我们预测从现在到明年未来比较短的内十大发展趋势,十大发展趋势跟去年对比,基本上大部分问题,大部分的情况,包括技术、发展趋势,问题似乎仍然在这个范围,但是看到更加的具体,我们把下面做一个简单的对比分析。去年数据资源化,大数据安全数据科学兴起等等,我们把刚才十个提炼问题我们变成小的选项来看,去年的问题也在十个预测里面。有一个有意思的现象大数据产生新职业,我们预测第九个发展趋势,今年投票排到第31位,可能大家觉得大数据产生的职业很自然不把它放在什么重要的问题来看,有些问题已经非常靠后了,当然还有产生一些新的,比如说大数据成为国家战略新兴产业,大数据预测精准的推荐,大企业大数据,这些发生了新变化,一些更具体化,大数据发展更加明确。这里面我们看到排名里面比如说数据科学兴起排在后面,我们去年排在前面。为什么现在排在后面?就是大家更关心大数据具体的东西,科学是逐步的实践中得出来的。我们热点问题总共选项57项,包括我们根据去年总结以及各位委员提议做一些汇聚,我们看10个发展趋势从57项里面选择做一些归类,并没有都归在里面。我们简单翻一下票选的结果。

第一项根据大数据走向价值化,大数据商品化,大数据一些预测,企业大数据等等。整个每一项一些单项我们看到有一些我们并没有列在里面,比如说生态系统平民化,跟我们提炼出来几个趋势非常相关的。我们再往下走的时候,到最后,57项大家投票的时候一个详细版本十多页,简单版本就是五六页,一般投票我们到后面就懒得看了,我们在后面还能得到很多票选,100多个委员对这个问题做过详细思考和认真提炼的。在十大发展趋势同时我们对具体的应用领域和技术一些情况各位委员也做了一些判断。这方面我们对2014年大数据最受瞩目的应用领域,互联网、金融、能源、网络、企业制造等等,今年去年大家热炒领域,去年我们专家委委员给出一些预测,医疗、电子商务等。我们看2014年得票最高的互联网、电子商务、金融、健康医疗和舆情,舆情说企业舆情,大企业分析这一块。最可能产生价值的应用领域,金融大数据和互联网大数据、电子商务,电子政务这是我们都能想象出来的,企业情报和健康医疗也成为大家非常期望的一些趋势。除了这个之外我们进一步的分析我们其他票选,不仅仅包括这几个领域,社区的广告营销得票率也很高,包括城镇化、智慧城市等我们把后面结果做了分析,最后我们得出结论2014年最令人瞩目有六大应用,网络大数据:互联网、电信、网络大数据。金融大数据、健康医疗大数据、企业大数据、政府管理大数据、安全大数据(社会安全、网络空间安全)。我们预测2014年度最令人瞩目的工作在这六个行业。我们虽然很多领域说能源气候环境自然科学大数据,我们投票里面几乎没有人选择,这两个方面。一是可能我们委员大部分来自IT界我们关心问题更多关心像互联网大数据,电子商务大数据等等这些方面的东西。另外一方面就是说可能在制造业、工业能源这块在大数据领域本身我们的活跃度跟我们网络大数据、金融大数据还是有所滞后一些的,关于应用方面。去年大数据分布式预测有三个方面。今年预测更具体细节一点。一方面大数据学习与挖掘,这个得票率非常高,包括深度学习和机器学习,这个两个相关。现在有人说大数据不要学习了,直接从数据到数据就可以了。

第二方面大数据计算架构和系统,这个大家都能想得出来,我们讲Hadoop体系,大家期望未来在技术上产生突破。

第三归为大数据分析和可视化,自然语言、可视化、复杂网络、图计算,跟大数据相关学科技术三类,大数据学习和挖掘,大数据存储结构和系统,大数据分析和可视化问题。

总结一下2014年大数据委员会预测最令人瞩目应用六个,网络大数据、金融大数据、健康医疗大数据、企业大数据、政府管理大数据、安全大数据。大数据学习挖掘,分布式计算,大数据可视化。分析挖掘,存储结构与系统,数据采集以及数据化方面。十大趋势:从概念走向价值化的大数据,大数据处理模式多样化并存。大数据安全隐私成为重要问题,大数据分析和可视化越来越实在。大数据产业成为战略性的新兴产业。数据商品化和数据共享联盟化的这种生态是未来一个重要的趋势。基于大数据的推荐预测逐步流行,深度学习与大数据智能成为支撑的技术,数据科学的兴起以及大数据生态环境的逐步发展,这是十个热点问题。谢谢大家!