2)以FTP等上传方式保存到文件服务器中。
以这种方式保存非结构化数据的应用较少,比较典型的有数字档案馆、知识管理和网站等应用系统。
3)通过文件系统直接存储到文件服务器中。
对于大多数没有应用系统的非结构化数据,如常用的工具软件,开发的应用系统软件、源代码、开发过程文档、技术研究资料等,以及新闻的素材、资料等,通常都将文件直接存储到文件服务器中。
面对各业务系统各自为战的存储系统,许多企业发现这种方式存在诸多的弊端,目前都正在评估和选择运用新的技术以提高这些信息资源的利用价值。较为常用的是分布式存储与并行处理架构。
数据的分布式存储和并行化操作处理是大数据管理平台的核心技术之一。MapReduce计算模型体现了分治算法的分而治之思想。Map把一个复杂的问题分解成多个子问题,每个子问题都相对简单并且可以独立处理;Reduce把各个子问题的处理结果进行合并。
MapReduce是适用于大数据存储与并行化处理的简单而有效的一种计算模型。基于Ma-pReduce模型可以构建一种非结构化数据分布式存储与并行处理框架,该框架由存储引擎和检索引擎组成。