9-2所示为数据分布式存储与并行处理框架。
分布式存储引擎采用MapReduce模型,并基于Hadoop的HBase和HDFS实现。它的主要功能是基于四面体数据模型提取非结构化数据的基本属性、语义特征和底层特征信息,并将这些信息连同原始数据存储在HDFS和HBase中。
存储引擎由Namenode和Datanode构成。Namenode通过Map操作将存储数据分成若干子块,并将这些子块分配给各个Datanode进行特征提取和数据永久保存的操作。同时,Namenode会开启一项任务来追踪处理过程,并在各子块存储完成后执行Reduce操作对结果进行合并。Namenode和Datanode的这种协同工作方式,实现了大量数据的并行与分布式存储。
并行化检索引擎主要负责数据的快速查询,是基于.MapReduce模型建立的Master-Slave并行化框架。Master负责管理所有Slave可分解和分配具体检索任务,并对检索结果进行有效整合;Slave模块负责对本地数据实行具体的检索任务并将结果返回给Master。通过Master的有效调度,多个Slave可并行化执行检索任务,从而实现检索并行化的处理架构。
由于Master可以实现任务的灵活分发和结果的有效整合,多个Slave可以并行化执行任务且可灵活扩展,因此该引擎具有很好的可扩展性和高效性。