4.5 非結(jié)構(gòu)化數(shù)據(jù)模型
大多數(shù)的信息是非結(jié)構(gòu)化的,包括紙質(zhì)的文件、報告、視頻和音頻文件、照片、傳真件、信件等。在信息化銀行建設過程中,所處理的數(shù)據(jù)除了常見的結(jié)構(gòu)化數(shù)據(jù)外,還有大量的非結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)包含復雜的內(nèi)容,并具有不同的結(jié)構(gòu)特點,傳統(tǒng)關系數(shù)據(jù)庫無論從描述能力上還是從管理數(shù)據(jù)的規(guī)模上,都無法應對非結(jié)構(gòu)化數(shù)據(jù)管理的要求。因此,需要專門針對非結(jié)構(gòu)化數(shù)據(jù)特點,研究建立一種新的管理技術。
數(shù)據(jù)模型是數(shù)據(jù)管理的核心。數(shù)據(jù)模型定義了數(shù)據(jù)描述結(jié)構(gòu)、數(shù)據(jù)操作方法以及數(shù)據(jù)完整性約束條件。基于數(shù)據(jù)模型,可以建立可擴展的數(shù)據(jù)存儲模型,使數(shù)據(jù)能夠以某種結(jié)構(gòu)和方式進行存儲與讀取;可以建立面向上層應用的靈活多樣的數(shù)據(jù)操作模型,支持用戶對數(shù)據(jù)的高效訪問。非結(jié)構(gòu)化數(shù)據(jù)管理與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)管理的目標是相同的,即支持數(shù)據(jù)的永久保存、快速有效的數(shù)據(jù)讀取操作,從而有效地支持上層應用和用戶的數(shù)據(jù)處理邏輯。因此,在非結(jié)構(gòu)化數(shù)據(jù)管理中,建立有效的數(shù)據(jù)模型,仍然是達到數(shù)據(jù)管理目標的核心和關鍵。現(xiàn)有的非結(jié)構(gòu)化數(shù)據(jù)模型主要有關系模型、擴展關系模型、面向?qū)ο竽P汀-R模型以及分層式數(shù)據(jù)模型等。這些模型存在擴展性與復雜性方面的問題,而在面向大數(shù)據(jù)時這些問題更加突出,因此無法勝任大數(shù)據(jù)的管理。
非結(jié)構(gòu)化數(shù)據(jù)例如文本、圖形、圖像、音頻和視頻等,從內(nèi)容上沒有統(tǒng)一的結(jié)構(gòu),數(shù)據(jù)是以原生態(tài)形式保存的,因此計算機無法直接理解和處理。為了對不同類型的非結(jié)構(gòu)化數(shù)據(jù)進行處理,所采用的基本思路是對這些非結(jié)構(gòu)化數(shù)據(jù)進行描述,基于描述性信息實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的管理和操作。對于非結(jié)構(gòu)化數(shù)據(jù)的描述,目前有三類:基于關鍵字的語義描述;基于底層特征的描述;基于概念的語義描述。因此,一個非結(jié)構(gòu)化數(shù)據(jù)可以由基本屬性、語義特征、底層特征以及原始數(shù)據(jù)四個部分構(gòu)成,而且四個部分的數(shù)據(jù)之間存在各種聯(lián)系。
基于上述對非結(jié)構(gòu)化數(shù)據(jù)的分析,可以使用學術界提出的四面體模型。四面體模型由一個頂點,四個刻面和刻面之間的交線組成,如圖4-12所示。