當前位置:工程項目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA快博
數(shù)據(jù)挖掘應用現(xiàn)狀與產(chǎn)品分析
數(shù)據(jù)挖掘應用現(xiàn)狀與產(chǎn)品分析
高 敏
(新龍科技實業(yè)有限公司商業(yè)智能部 廣州 510180)
摘要:數(shù)據(jù)挖掘技術的研究,極大地推動了相關行業(yè)的發(fā)展。目前,有關的學術討論異常熱烈。而在產(chǎn)業(yè)界,也已經(jīng)有部分比較成熟的產(chǎn)品問世。本文結合自己從事數(shù)據(jù)倉庫的實際經(jīng)驗,分析了數(shù)據(jù)挖掘的應用現(xiàn)狀,對其產(chǎn)品的主要特性進行了研究和評價,以期望為從事數(shù)據(jù)挖掘研究、開發(fā)、系統(tǒng)集成的有關人員提供有益的參考。
關鍵詞:數(shù)據(jù)挖掘 知識發(fā)現(xiàn) 商業(yè)智能 客戶關系管理
1 前言
數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD:Knowledge Discoveryin Database)一詞首次出現(xiàn)在1989年8月舉行的第U屆國際聯(lián)合人工智能學術會議上。從1989年至今,KDD的定義隨著人們研究的不斷深入也在不斷地完善,目前比較公認的定義是Fayyad等給出的:KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在的、有用的以及最終可理解模式的高級處理過程LI J。KDD的過程一般包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示。23。其中,數(shù)據(jù)挖掘(DM:Data Mining)是KDD中的一個很重要的步驟,但在通常的應用中,并不區(qū)分二者的概念。
數(shù)據(jù)挖掘的任務是從數(shù)據(jù)集中發(fā)現(xiàn)模式,模式可以有很多種,按功能可分為兩大類:預測型(Predictive)模式和描述型(Descriptive)模式。在實際應用中,往往根據(jù)模式的實際作用細分為以下幾種:分類,聚類,回歸,序列,時間序列等。數(shù)據(jù)控掘的所處理的數(shù)據(jù)類型也很豐富,包括文本數(shù)據(jù),關系數(shù)據(jù)庫,Web頁面等。數(shù)據(jù)挖掘的應用領域非常廣泛,比如金融(風險預測)、零售(顧客行為分析)、體育、電信、氣象、電子商務等等。
數(shù)據(jù)挖掘的研究幾乎和它的應用同步進行。早在20世紀80年代初期,就有一些簡單的工具問世。數(shù)據(jù)挖掘工具可以分為兩類:通用挖掘工具和特定領域的挖掘工具。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。而專用挖掘工具則是針對某個特定領域的問題提供解決方案。在設計算法的時候,往往會充分考慮到數(shù)據(jù)、需求的特殊性,并作了優(yōu)化[3]。
2 通用挖掘產(chǎn)品
2.1 IBM DB2 InteIligent Miner
Intelligent Miner采用了多種統(tǒng)計方法和挖掘算法,主要有單變量曲線,雙變量統(tǒng)計,線性回歸,因子分析,主要量分析,分類,分群,關聯(lián),相似序列,序列模式,預測等。
它能處理的數(shù)據(jù)類型有結構化數(shù)據(jù)(如:數(shù)據(jù)庫表,數(shù)據(jù)庫視圖,平面文件)和半結構化或非結構化數(shù)據(jù)(如:顧客信件,在線服務,傳真,電子郵件,網(wǎng)頁等)。
Intelligent Miner通過其獨有的世界領先技術,例如自動生成典型數(shù)據(jù)集、發(fā)現(xiàn)關聯(lián)、發(fā)現(xiàn)序列規(guī)律、概念性分類和可視化呈現(xiàn),可以自動實現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉換、數(shù)據(jù)挖掘和結果呈現(xiàn)這一整套數(shù)據(jù)挖掘操作。若有必要,對結果數(shù)據(jù)集還可以重復這一過程,直至得到滿意結果為止。根據(jù)ID(:的統(tǒng)計,Intelligent Miner目前是數(shù)據(jù)挖掘領域最先進的產(chǎn)品。它采取客戶/5匠務器(C/S)架溝,并且它的AH提供了C十十類和方法[4]。
Intelligent Miner可用于行銷、財務、產(chǎn)品管理和客戶聯(lián)系管理領域的數(shù)據(jù)分析人員和業(yè)務技術人員。C心bank是美國名列第二的銀行,是首先采用IBM業(yè)務智能系統(tǒng)的大型企業(yè)之一。
The Bank of Montreal也是成功運用IBM DB2Intelligent Miner的案例之一。 IBM DB2Intelligent Minerfor Data Version 6提供了一套分析數(shù)據(jù)庫的挖掘過程、統(tǒng)計函數(shù)和查看、解釋挖掘結果的可視化工具。它可以從企業(yè)數(shù)據(jù)集中驗證并析取高價值的商業(yè)知識,包括大量交易數(shù)據(jù)的銷售點,ATM(Automatic Teller Machine),信用卡,呼叫中心,或電子商務應用。分析家和商業(yè)技術專家能夠發(fā)現(xiàn)那些隱藏的、用其他類型的分析工具無法洞察的模式。Intelligent Miner提供了基本的技術和工具來支持挖掘過程,同時還提供了應用服務支持定制應用的發(fā)展。
2.2 DBMiner
DBMiner是一個通用的聯(lián)機分析挖掘(OLAM:()nLine Analysis Mining)系統(tǒng),用于在大型關系數(shù)據(jù)庫和數(shù)據(jù)倉庫中交互地挖掘多層次的知識。其獨特之處在于緊密集成了聯(lián)機分析處理(OLAP:OnLine Analysis Processing)和多種數(shù)據(jù)挖掘功能,包括特征化、關聯(lián)、分類、預測和聚類等r22。DBMiner目前最新版本是3.o,其優(yōu)點為①對關系數(shù)據(jù),多維數(shù)據(jù)的強大的在線分析挖掘功能。②通過OLEDB和RDBMS可以連接到多種數(shù)據(jù)源。②關聯(lián)和時序算法對挖掘大數(shù)據(jù)集上頻繁的、連續(xù)的模式,相關性、依賴分析性能卓越。④對數(shù)據(jù)源、挖掘任務、挖掘應用的多重集成。⑤革新的傾斜的多維利潤分析技術。⑧支持Microsoft SQL Server,Analysis入rver and Excel,如OLAP,數(shù)據(jù)聚集,透視表的充分集成。⑦用戶自定義參數(shù)和可視化分類,能幫助用戶更好的發(fā)現(xiàn)知識。⑧分析關系數(shù)據(jù)和多維數(shù)據(jù),分散的地圖式的觀察界面。⑨發(fā)現(xiàn)驅動的oLAP探測器,更容易的導航。
2.3 SAS系列產(chǎn)品
SAS/STAT(Statistics)提供統(tǒng)計分析功能。
SAS/ETS(Econometric乙Time Series)為SAS提供具有豐富的計量經(jīng)濟學和時間序列分析方法的產(chǎn)品,包含方便的各種模型設定手段,多樣的參數(shù)估計方法,是研究復雜系統(tǒng)和進行預測的有利工具。
SAS/INSIGHT是一個功能強大的可視化的數(shù)據(jù)探索與分析的工具。
SAS/EM(Enterprise Miner)是一個圖形化界面,菜單驅動的、拖拉式操作的、對用戶非常友好且功能強大的數(shù)據(jù)挖掘集成環(huán)境。其中集成了:數(shù)據(jù)獲取工具,數(shù)據(jù)抽樣工具,數(shù)據(jù)篩選工具,數(shù)據(jù)變量轉換工具,數(shù)據(jù)挖掘數(shù)據(jù)庫,數(shù)據(jù)挖掘過程,多種形式的回歸工具,為建立決策樹的數(shù)據(jù)剖分工具,決策樹瀏覽工具,人工神經(jīng)元網(wǎng)絡,數(shù)據(jù)挖掘的評價工具等。
American Healthways領導了健康護理的一場革命。SAS/EM為判斷高危病人提供了一個健壯的數(shù)據(jù)挖掘和建模解決方案,使得他們可以為病人提供周到的護理和服務。
AxA Financial使用SAS/EM來幫助他們建立利潤較高的顧客關系策略。
2.4 SPSS系列產(chǎn)品
C1ementine是SPSS的核心挖掘產(chǎn)品,它提供廠一個可視比的快速建立模型的環(huán)境,被譽為第一數(shù)據(jù)挖掘:工具。使用它,企業(yè)可以將數(shù)據(jù)分析和建模技術與待定的商業(yè)問題結合起來,找出其他傳統(tǒng)數(shù)據(jù)挖掘工具可能找不出的答案。組成部分包括數(shù)據(jù)獲取、探查、整理、建橫和報告一——都使用一些有效、易用的按鈕表示,用戶只需用鼠標將這些組件連接起來建立一個“數(shù)據(jù)流”,可視化的界面使得數(shù)據(jù)挖掘更加直觀和具有交互性,從而j2T以將用戶的商業(yè)知識在每一步中更好的利用。 C1ementine所使用的分析技術包括神經(jīng)元網(wǎng)絡、關聯(lián)規(guī)則和規(guī)則歸納技術。Clementine支持顧客剖析、時序分析、市場售貨籃分析和欺詐行為偵測。
SPSS的另一種重要的控掘產(chǎn)品Answer丁ree可以幫助用戶確認細分市場及其模式,建立顧客檔案資料,挖掘隱藏市場趨勢。應答樹運用的分析運貿:法則:兩類CHAID、分類和回歸樹、QUES丁。
DecisionTime 2.0及WhotIF? 2.0幫助用戶建立準確的預測,并利用此預測制定計劃。
2.5 COGNOS的Scenario,4Thought
挖掘算法:多層感知機(MLP:Multi-Layer Processing)神經(jīng)元網(wǎng)絡技術(4 Thought)和基于CHAID的決策樹算法(Scenario)。
Scenario和4Thought都護展了Cognos的決策支持能力并提供了一些數(shù)據(jù)挖掘功能,辦公布的用戶基準中,Scenario表現(xiàn)出良好的結果和對用戶友好的界面,而4Thought在性能和準確率方面具有較好的表現(xiàn)[4]。
2.6 BO的Business Miner
1996年12月,美國Business()bjects公司推出了數(shù)據(jù)挖掘解決方案一——Busincs s Mincr。Business Miner采用了基于直覺決定的樹型技術,提供了簡單易懂的數(shù)據(jù)組織形式,使用圖形化方式描述數(shù)據(jù)關系,通過百分比和流程表等簡單易用的用戶界面告訴用戶有關的數(shù)據(jù)信息。
Business Miner能對從數(shù)據(jù)倉庫中傳來的數(shù)據(jù)自動地進行挖掘分析〕:作,剖析任意層面數(shù)據(jù)的內在聯(lián)系,最終確定商業(yè)發(fā)展趨勢和規(guī)律。
3 專用挖掘產(chǎn)品
由于實際的應用環(huán)境干變萬化,目前還沒有一種通用產(chǎn)品能適應各種商業(yè)需求,而大量存在的是各種各樣的專用數(shù)據(jù)挖掘產(chǎn)品。在專用領域中,種類最多的要數(shù)各種Web挖掘產(chǎn)品。
3.1 ACCRUE INsight5
ACCRUE Insight 5是AccNe公司的主要產(chǎn)品,它是一個綜合性的Web分析工具。它能夠對網(wǎng)站的運行狀況有個深入、細致和準確的分析。它的設計是以顧客為中心的,通過分析顧客的行為模式,幫助網(wǎng)站采取措施來提高顧客的忠誠度,從而建立長期的顧客關系。ACCRUE Insight 5利用了多種Web數(shù)據(jù)收集方法,包括高級網(wǎng)絡收集器,服務器收集器和服務器日志,而不是像很多網(wǎng)站那樣僅僅分析日志文件。高級網(wǎng)絡收集器以其能收集到最大量的數(shù)據(jù)而著稱,它能夠收集到服務器日志里所得不到的信息,例如按下“停止”鍵,下載的時間等一些對于網(wǎng)站分析有用的信息。但是對于加密的部分或者與它不適用部分則用到另外兩種方法。根據(jù)原始數(shù)據(jù),Accrue Insight 5運用了一種叫做“服務器收集器”的分析方法,它支持鏡像服務器和負載平衡、路由器和一些其他網(wǎng)絡結構設備,能夠將一些加密的地址轉化為可分析的形式。
3.2 E.PIPHANY Enterprise Insight
E.PIPHANY Enterprise lnsight提供了一個獨特的、完全集成的系統(tǒng),為管理人員、分析人員還有其他商業(yè)人員傳遞商業(yè)信息。Enterprise lnsight應用套件使用了一個通用的元數(shù)據(jù)層,定義了所有的數(shù)據(jù)源,分析性能,信息傳送應用?;赪eb的結構使得系統(tǒng)易于配置,易于使用,易于維護。它即可以作為一個獨立的應用軟件使用,也可以作為E.PIPHANY’s E.5系統(tǒng)在市場、銷售、服務領域的解決方案套件。和所有的E.ANY產(chǎn)品一樣,Enterprise lnsight呈現(xiàn)了一個廣泛的、一致的消費者的視圖、一個強有力的觀察,可以使企業(yè)的組織從市場、銷售、服務等工作中得到最大的利潤。企業(yè)上下的用戶都可以得到深入的商業(yè)信息,并且可以立即付諸行動。有了Enterpriselnsight,企業(yè)可以和顧客、合作伙伴建立更穩(wěn)固的關系 。
E.PIPHANY能提供在電子商務中極具競爭價值的顧客信息。Enterprise lnsight for ECommerce提供了分析顧客數(shù)據(jù)的能力,包括來至網(wǎng)絡的數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)源。它可以讓企業(yè)針對所有的顧客數(shù)據(jù)源,跟蹤他們的網(wǎng)絡行為和引導他們的Web活動。
Enterprise lnsight for E—Commerce包括“廠一系列預包裝的、易用的報表模板,對Web活動進行復雜的分析。根據(jù)領域專家的意見,E.岡PHANY已經(jīng)驗證了相當多的一系列的關鍵的電子商務的屬性和指標,并且已經(jīng)建立了大范圍的一個報告套裝。它通過提供關鍵領域的深入分析,比如站點活動,顧客喜好,在線銷售,錯誤報告,標語廣告活動等,回答關鍵的電子商務的問題。
3.3 BIJUE MARTINI
BLUE MARTINI的數(shù)據(jù)挖掘模塊提供了強大的分析能力,幫助理解顧客,并且發(fā)現(xiàn)隱藏在巨量數(shù)據(jù)后面的寶石。挖掘能揭示微妙的行為模式,而這些模式能產(chǎn)生知識,驅動所有客戶接觸點的個性化過程。一個在分析和銷售中的封閉循環(huán)保證了知識能產(chǎn)生生產(chǎn)性的、產(chǎn)生利潤的和具有競爭優(yōu)勢的機制。
3.4 其他挖掘
例如AdVanced ScoutTM是和IBM合作完成的數(shù)據(jù)挖掘的商業(yè)應用。它的目的是幫助NBA教練運用商業(yè)智能的技術和數(shù)據(jù)挖掘來驗證隱藏在大量全異的數(shù)據(jù)里的模式,進而影響一場專業(yè)比賽的勝負。通過使用來源于現(xiàn)場數(shù)據(jù)收集系統(tǒng)的事件數(shù)據(jù)(EVENT DATA)以及類似于NBA比賽錄像的無結構數(shù)據(jù),先進的偵測系統(tǒng)幫助教練進行預賽和賽后分析,甚至實時現(xiàn)場分析,這樣就能更好了解隊員組合是否有效、投籃特性等。
4 國內的數(shù)據(jù)挖掘應用
目前國內真正應用數(shù)據(jù)挖掘的公司還不多明天科技有限公司。
4.1 菲親特一融通公司
比較成功的有菲奈特一融通公司和廣州華工 菲奈特一融通在IBM數(shù)據(jù)挖掘軟件的基礎上開發(fā)了商業(yè)智能套件B1.O航ce,在B1.O航ce的基礎上又開發(fā)了系列的B1.Bank、B1.Taxation、B1.ELec出c Power、B1.Retail、B1.Insurance、B1.Telecom和B1.Ciq。借助IBM巨人的力量,現(xiàn)在是國內最有實力的數(shù)據(jù)挖掘公司。B1.O比ce能簡單、迅速地為企業(yè)構建其專有的決策支持系統(tǒng),賦予企業(yè)管理層一個強有力的武器得以在授權范圍內全面、詳細、及時地了解公司運營狀況,作出合理的決策。B1.Bank是針對銀行業(yè)適時推出的一套完整的商業(yè)智能解決方案,為銀行提供決策支持并實現(xiàn)信息共享、加強客戶關系管理。B1.Bank包括銀行決策支持系統(tǒng)、客戶關系管理、銀行信息中心等針對不同使用對象的子系統(tǒng)。B1.Bank利用數(shù)據(jù)倉庫(DW)、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(DM)以及Web等核心技術,并采用了數(shù)據(jù)庫服務器(DB SERVER)、應用服務器(APP SERVER)、用戶端(C/B)三層架構。B1.Taxation稅務決策分析與輔助決策系統(tǒng)是菲奈特—融通公司針對稅務部門開發(fā)的分析與輔助決策系統(tǒng)。
4.2 廣州華工明天科技有限公司
廣州華工明天科技有限公司開發(fā)了多功能數(shù)據(jù)挖掘器(AFDMl.0)。該產(chǎn)品的特點如下:多平臺、企業(yè)級的數(shù)據(jù)挖掘;數(shù)據(jù)分類和處理功能;多種挖掘算法;串行、并行計算環(huán)境;可視化的結果分析工具。它提供了三方面的功能:挖掘、處理、統(tǒng)計。
4.3 應用經(jīng)驗探討
本人主要參與的是數(shù)據(jù)倉庫的開發(fā)工作,在國家開發(fā)銀行的基礎數(shù)據(jù)庫系統(tǒng)里,一期工程主要是集中抽取了需要的數(shù)據(jù),呈現(xiàn)了全局一致的視圖,采用了豐富靈活的OLAP分析方法,生成報表,給不同層次的使用人員提供了決策的依據(jù)。預計在二期工程中加入一定的數(shù)據(jù)挖掘功能,在系統(tǒng)中嵌入一些挖掘算法和模塊,比如分類和預測等。必須強調的一點是,人們通常把數(shù)據(jù)挖掘看得過于神秘,認為只要有了一個數(shù)據(jù)挖掘工具,就能自動挖掘出所需要的信息,這是認識上的一個誤區(qū)。經(jīng)驗證明,要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個方面,同時還需要對企業(yè)業(yè)務的深入了解和數(shù)據(jù)分析經(jīng)驗。一個企業(yè)要想在未來的市場中具有競爭力,必須有一些數(shù)據(jù)挖掘方面的專家,專門從事數(shù)據(jù)分析和數(shù)據(jù)挖掘工作。再同其他部門協(xié)調,把挖掘出來的信息供管理者決策參考,最后把挖掘出的知識付諸應用?;蛘?,使用專家托管式服務,選擇一個專門從事數(shù)據(jù)挖掘的公司,深入理解公司業(yè)務需求,與、lL冬人同配合完成檸損仟務。而在國內的企業(yè)中,決策人員很容易走向兩個極端,一是認為數(shù)據(jù)挖掘沒有用處,二是開始認為數(shù)據(jù)挖掘是萬能的。這兩種觀點都是有害的。
5 結論
數(shù)據(jù)挖掘從誕生到現(xiàn)在不過十多年的時間,在這短短的十幾年里,它吸引了各個行業(yè)的研究人員、工業(yè)界人士的興趣。目前,它已成為最近幾年對人類生活影響最大的幾項IT技術之一。在產(chǎn)業(yè)界,涌現(xiàn)出許多新興的數(shù)據(jù)挖掘相關產(chǎn)品供應商,數(shù)據(jù)挖掘的應用已取得初步的成功。隨著人們對信息的重視程度不斷加深,數(shù)據(jù)挖掘的前途必將是光明的。
但是,數(shù)據(jù)挖掘作為一門新興的科學和技術,它的發(fā)展還處于幼年期,要想使之得到廣泛充分地應用,必須面對的挑戰(zhàn)為①建立基礎的數(shù)據(jù)挖掘理論體系;②提高數(shù)據(jù)挖掘算法的效率和處理能力;②改善數(shù)據(jù)挖掘系統(tǒng)的人機界面;④分布式挖掘和實時挖掘;⑤挖掘各種數(shù)據(jù)類型,包括半結構和無結構數(shù)據(jù)。
參 考 文 獻
1 鄭緯民,黃 剛、數(shù)據(jù)挖掘縱覽[EB/OL],北京:清華大學出版社,1999.
2 Jiawei Han,Micheline Kamber●數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社
3 鄭緯民,黃 剛.數(shù)據(jù)挖掘工具及其選擇[EB/OL].北京:清華大學出版社,1999
4 AlexBerson,Stephen Smith,Kurt
Thearling、構建面向CRM的數(shù)據(jù)挖掘應用[M].北京:人民郵電出版社,2001.8
- 1頭腦風暴法之實踐篇(AMT研究院 張凝)
- 2螞蟻蟻窩給企業(yè)管理知識的機制的啟示
- 3首席員工制:打造自己的藍領精英(來源:《中外管理》)
- 4信息生命周期管理(ILM)崎嶇前行
- 5基于Web的PDM系統(tǒng)的文檔管理
- 6[理論] 建立以適應共享為基礎的企業(yè)管理體系
- 7關于渠道支配的幾個理論問題
- 8南昌OA軟件工具的選擇方法研究
- 9電子書:營運知識
- 10南昌OA不僅要做 更要有人負責
- 11企業(yè)知識庫的管理:關于企業(yè)的知識庫設計思想
- 12知識產(chǎn)權對知識共享利大于弊(孫洪波)
- 13協(xié)同管理——企業(yè)發(fā)展的需求
- 14韓國情報競爭(AMT研究院 彭輝 編譯)
- 15信息經(jīng)濟時代企業(yè)知識型員工管理
- 16南昌OA工具箱系列——實踐社團CoP(認識篇)(AMT研究院 張凝)
- 17內容管理:KMS的重要組成部分
- 18第二代南昌OA
- 19OA辦公自動化與異構系統(tǒng)整合總體方案集成平臺
- 20協(xié)同辦公系統(tǒng)系統(tǒng)樣式的設置和Logo的設置
- 21從“鼠客”到“鍵客”
- 22借力南昌OA,提升員工滿意度
- 23江西某縣試運行OA系統(tǒng)推進無紙化辦公
- 24面向流程的南昌OA戰(zhàn)略-實施篇(中)(AMT研究院 周瑛 編譯)
- 25供應鏈管理的軟肋
- 26組織內部知識共享方式及策略(AMT研究院 袁磊)
- 27[策略] 七家公司鼓勵知識共享的策略
- 28南昌OA辦公軟件系統(tǒng)一周工作總結
- 29面向流程的南昌OA戰(zhàn)略-理論篇(下)(AMT研究院 周瑛 編譯)
- 30追問南昌OA
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓