(三)数据类型
企业绝大部分数据资源为非结构化数据。66.1%的受访企业表示非结构化数据的比例在70%以上。22.0%的企业非结构化数据比例为50%-70%。根据访谈,在企业新增数据中非结构化数据的增速远高于结构化数据。
但企业非结构化数据的分析和利用仍有待提高。67.8%的受访企业表示目前仍是基于结构化数据为基础的数据库进行大数据分析。仅有28.2%和11.8%的企业对图像/视频、语音/音频等非结构化数据进行了分析。随着大数据技术和处理能力的提升,未来企业对非结构化数据的利用率将有望进一步得到提升。
五、大数据平台建设模式
(一)建设模式占比
本次调研根据大数据平台建设模式分为本地部署大数据平台和采购公共云服务模式。本地部署大数据平台包括:1、购买大数据相关产品或解决方案,在本地建设大数据相关基础设施、存储和计算平台、分析工具和应用展示等;2、采购大数据服务提供商的集成产品,如大数据一体机。采购公共云服务指的是购买某一家大数据云服务提供商所提供的在线大数据服务。
企业更倾向本地部署大数据平台。64.9% 的受访企业选择本地部署大数据平台,其中倾向选择自建大数据平台的企业占比达到 48.6%。另有 33.1% 的企业倾向通过采购云服务的方式应用大数据,随着以云计算为基础的大数据应用逐渐成熟,未来该比例有望进一步提高。
(二)自建大数据平台模式
1、软件类型选择
企业对开源软件的接受度大幅提高。相比于商业闭源软件,企业更青睐开源软件,86.6%的受访企业倾向使用开源软件搭建大数据平台,与2015年相比大幅提高。其中,受访企业更青睐开源软件商业版,53.9%的企业选择了商业版开源软件,相比社区版高21.2%。
2、平台架构选择
Hadoop是最受企业欢迎的大数据平台架构。调查发现,接近四成的受访企业倾向选择Hadoop作为大数据平台的技术架构;其次,Spark近两年发展迅速,22.4%的企业倾向选择Spark作为大数据平台的技术架构。