多維數據模型與OLAP的實現
近年來,隨著網絡技術和數理分析在銀行業(yè)中的廣泛應用,西方商業(yè)銀行開始廣泛采用人口地理統計理論,運用數據挖掘及商業(yè)智能等技術,處理跨時間、跨空間、跨部門、跨產品的銀行數據集成分析問題,逐步實現了金融產品和金融服務的交叉銷售,以保留住優(yōu)質客戶。目前,國內多家銀行也不同程度地開展了商業(yè)智能(BI,Business Intelligence)系統建設,從信息管理角度看,商業(yè)智能是決策支持技術在商業(yè)銀行應用的進一步發(fā)展和完善,OLAP(On-Line Analytical Processing,聯機分析處理)技術是BI的關鍵技術之一。自1970年第一個OLAP的雛形工具Express發(fā)布,到1993年關系數據庫之父、數學家與計算機科學家愛德華·庫德(E.F.Codd)系統地提出OLAP概念和OLAP的12條準則,OLAP技術和產品有了很大的發(fā)展,其內涵和外延也發(fā)生了一定的變化。但其本質特征仍然是:以多維數據模型為基礎組織和存儲數據,滿足對用戶請求的快速響應和交互式操作。
OLAP技術在國內興起和發(fā)展的過程中,人們對某些基本概念還有不同的理解。比如,OLAP與多維數據模型的關系,多維數據模型與多維數據庫(MDD,Multi Dimensional Database)的關系,MOLAP(Multidimensional OLAP,關系聯機分析處理)和HOLAP(Hybrid OLAP,混合聯機分析處理)間的差異,多維數據庫與多維聯機分析處理是不是完全一致等問題,還有待于進一步澄清。
一、多維數據模型及相關概念
數據模型一般有兩個層次:概念層(邏輯層)和物理層。邏輯數據模型是從概念角度抽象出現實世界的內在規(guī)律,如業(yè)務流程、數據架構等;物理數據模型則側重于特定環(huán)境下的具體實現,如效率、安全性等。
多維數據模型是一個邏輯概念,該模型主要解決如何對大量數據進行快速查詢和多角度展示,以便得出有利于管理決策的信息和知識。多維數據模型的應用領域主要有數據倉庫、OLAP和數據挖掘3個方面,其中,多維結構是OLAP的核心。
多維數據模型通過引入維、維分層和度量等概念,將信息在概念上視為一個立方體。圖1表示了一個數據立方體。
圖1 一個數據立方體
1. 立方體:用三維或更多的維數描述一個對象,每個維彼此垂直。數據的度量值發(fā)生在維的交叉點上,數據空間的各個部分都有相同的維屬性。
2. 維:是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性的集合構成一個維(如時間維、機構維等)。
3. 維分層:同一維度還可以存在細節(jié)程度不同的各個描述方面(如時間維可包括年、季度、月份、旬和日期等)。
4. 維屬性:維的一個取值,是數據項在某維中位置的描述(例如“某年某月某日”是在時間維上位置的描述)。
5. 度量:立方體中的單元格,用以存放數據。
OLAP的基本多維分析操作有鉆?。≧oll up,Drill down)、切片(Slice)、切塊(Dice)及旋轉(Pivot)等。
鉆取包含向下鉆取和向上鉆?。ㄉ暇恚┎僮?,鉆取的深度與維所劃分的層次相對應。上卷操作通過維規(guī)約,在數據立方體上進行聚集;下鉆操作是上卷操作的逆操作,由不太詳細的數據到更詳細的數據。
切片和切塊是在一部分維上選定值后,度量數據在剩余維上的分布。在多維數據結構中,按照二維、二維進行切塊可得到所需數據,如在“機構、產品、時間”三維立方體中進行切塊和切片,可得到各城市、各產品的銷售情況。
旋轉(轉軸)是變換維的方向,即在表格中重新安排維的放置(如行列互換),通過旋轉得到不同視角的數據。
二、多維數據模型的物理實現
OLAP多維數據模型的實現有多種途徑,其中主要有采用數組的多維數據庫、關系型數據庫以及兩者相結合的方式,人們通常稱之為MOLAP、ROLAP和HOLAP。但MOLAP的提法容易引起誤解,畢竟根據OLAP的多維概念,ROLAP也是一種多維數據的組織方式。
1. 多維聯機分析處理(多維數據庫管理系統)
多維聯機分析處理嚴格遵照庫德的定義,自行建立多維數據庫來存放聯機分析系統的數據,它以多維數據組織方式為核心,也就是說,多維聯機分析處理使用多維數組存儲數據。
當利用多維數據庫存儲OLAP數據時,不需要將多維數據模型中的維度、層劃分和立方體等概念轉換成其他的物理模型,因為多維數組(矩陣)能很好地體現多維數據模型特點。
針對圖1,可以定義一個三維數組矩陣(7,6,3),體現立方體的維、屬性和維度量。其中數組中維的個數對應立方體的維度數,數組中每一維取值對應立方體中每一維度的屬性個數,而數組的126個交點對應立方體中的單元格,用來存放數據。
利用數組實現多維數據模型的優(yōu)點,在于對數據的快速訪問,但同時也會帶來存儲空間的冗余,即稀疏矩陣問題,進而導致對存儲空間的極大需求。例如,圖2中定義的一個立方體結構,在用數組定義時,其取值可能有104463億種情況。但實際上,并不是每一天、每個經營機構在不同地區(qū)和不同特約商戶都會產生具有不同幣種、不同卡種的交易,和關系數據庫管理系統相比,只有當某一交易確實發(fā)生時,才在相應的表中留下記錄。
圖2 認力一體中的稀疏矩陣問題
為了解決稀疏矩陣問題,某些產品提出了稀疏維(sparse)和密度維(Dense)策略。由稀疏維產生索引塊,由密度維形成數據塊。只有當稀疏維的組合在交易事件初次發(fā)生時才創(chuàng)建索引塊,進而創(chuàng)建數據塊。
圖3顯示了數據塊和索引塊的關系。稀疏維和密度維的引入在一定程度上降低了立方體的存儲冗余問題,此外,通過數據壓縮技術可降低數據塊的存儲空間。
圖3 稀疏維和密度維
- 1數據在企業(yè)福州OA實施中到底有多重要
- 2把BI集成到SOA的好處和策略研究
- 3SOA業(yè)務需求的考慮應從后臺角度出發(fā)
- 4IT高速發(fā)展時代SOA怎么了
- 5企業(yè)OA辦公系統流程中涉及角色清單
- 6數據倉庫——商業(yè)智能的基石
- 7福州OA實施烏云壓頂 巧借WBS重見天日
- 8從全球目前的競爭格局來講有四種模式
- 9商務流程模型結合SOA消除業(yè)務部門間隔閡
- 10福州OA烏云壓頂,巧借WBS重見天日
- 11中小型企業(yè)應用精益生產系統的探討
- 12福州OA實施危機處理:挽狂瀾之即倒
- 13實施福州OA項目可解決企業(yè)哪五大問題
- 14SOA應用使BPM管理得到最大程度的簡化
- 15影響福州OA實施成敗的幾項關鍵因素
- 16體系與軟件之爭 中小企業(yè)信息化中誰更重要
- 17物流信息化的三重境界:從軟件到平臺
- 18通過WOA部署SOA 反常道而行之
- 19降低福州OA運維成本助企業(yè)度過危機
- 20詳解關鍵點 企業(yè)IT部門成本管理簡析
- 21實現福州OA系統與固定資產管理有效結合的建議
- 22兵馬未動糧草先行 企業(yè)信息化先IRP后福州OA
- 23如何在企業(yè)門戶建設中應用知識管理
- 24中小企業(yè)信息資源管理存在問題及解決對策
- 25對于商業(yè)智能的前生今世之思考和分析
- 26生產及物料控制部門的管理流程及注意事項
- 27利用數據倉庫技術輔助CRM決策
- 28覆蓋整體產品生命周期 探尋PDM管理迷局
- 29企業(yè)業(yè)務流程管理成熟度模型
- 30解析企業(yè)SOA架構實施的失敗之謎
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓