當前位置:工程項目OA系統(tǒng) > 泛普各地 > 黑龍江OA系統(tǒng) > 哈爾濱OA系統(tǒng) > 哈爾濱OA快博
DM技術簡介
數(shù)據(jù)挖掘(DATA MINE)常用技術
目前市面數(shù)據(jù)挖掘應用方面有著種類繁多的商品工具和軟件,大致可以歸納為下列主要類型:
[1]傳統(tǒng)主觀導向系統(tǒng):這是針對專業(yè)領域應用的系統(tǒng)。如基于技術分析方法對金融市場進行分析。采用的方法從簡單的走向分析直到基于高深數(shù)學基礎的分形理論和譜分析。這種技術需要有經(jīng)驗模型為前提.屬于這類商品有美國的Metastak,SuperCharts,CandlestickForecaster和WallStreetMoney等
[2]傳統(tǒng)統(tǒng)計分析:這類技術包括相關分析、回歸分析及因子分析等。一般先由用戶提供假設,再由系統(tǒng)利用數(shù)據(jù)進行驗證。缺點是需經(jīng)培訓后才能使用,同時在數(shù)據(jù)探索過程中,用戶需要重復進行一系列操作。屬于這類商品有美國的SAS,SPSS和Stargraphis等。由于近年來更先進的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。以上兩種技術主要基于傳統(tǒng)的數(shù)理統(tǒng)計等數(shù)學的基礎上,一般早已開始用于數(shù)據(jù)分析方面。
[3]神經(jīng)元網(wǎng)絡(NN)技術:神經(jīng)元網(wǎng)絡技術是屬于軟計算(SoftComputing)領域內(nèi)一種重要方法,它是多年來科研人員進行人腦神經(jīng)學習機能模擬的成果,已成功地應用于各工業(yè)部門。在DM(KDD)的應用方面,當需要復雜或不精確數(shù)據(jù)中導出概念和確定走向比較困難時,利用神經(jīng)網(wǎng)絡技術特別有效。經(jīng)過訓練后的NN可以想像具有某種專門知識的“專家”,因此可以像人一樣從經(jīng)驗中學習。NN有多種結(jié)構,但最常用的是多層BP(backpropagation)模型。
它已廣泛地應用于各種DM(KDD)工具和軟件中。有些是以NN為主導技術,例如俄羅斯的PolyAnalyst,美國的BrainMaker,Neurosell和OWL等。NN技術也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點是用它來分析復雜的系統(tǒng)諸如金融市場,NN就需要復雜的結(jié)構為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)(不同的紀錄數(shù))無法滿足訓練的需要。另外由受訓后的NN所代表的預測模型的非透明性也是其缺點,盡管如此,它還是廣泛而成功地為各種金融應用分析系統(tǒng)所采用。
[4]決策樹:在知識工程領域,決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解,。這種方法一般限于分類任務。在系統(tǒng)中采用這種方法的有美國的IDIS,法國的SIPINA。英國的Clementinc和澳大利亞的C5.0。
[5]進化式程序設計(Evolutionaryprogramming):這種方法的獨特思路是:系統(tǒng)自動生成有關目標變量對其他多種變量依賴關系的務種假設,并形成以內(nèi)部編程語言表示的程序。內(nèi)部程序(假設)的產(chǎn)生過程是進化式的,類似于遺傳算法過程。當系統(tǒng)找到較好地描述依賴關系的一個假設時,就對這程序進行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進預測精度的子程序,如此依次進行,最后獲得達到所需精度的最好程序時,由系統(tǒng)的專有模塊將所找到的依賴關系由內(nèi)部語言形式轉(zhuǎn)換成易于為人們理解的顯式形式,如數(shù)學公式,預測表等。由于采用通用編程語言,這種主法在原則上能保證任何一種依賴關系和算法都能用這種語言來描述。這種方法的商用產(chǎn)品還只見諸俄羅斯的PolyAnalyst。據(jù)報導,它用于金融到醫(yī)療方面軍的各種應用于,能獲得者很好的結(jié)果。
[6]基于事例的推理方法(CBR—Casebasedreasoning):這種方法的思路非常簡單,當預測未來情況或進行正確決策時,系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問題求解,并獲得好的結(jié)果,其缺點是系統(tǒng)不能生成匯總過去經(jīng)驗的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國的PatternRecognitionWorkbench和法國的KATEtools.
[7]遺傳算法(GA—GeneticAlgorithms):嚴格說來,DA不是GA應用的主要領域,它是解決各種組合或優(yōu)化問題的強有力的手段,但它在現(xiàn)代標準儀器表中也用來完成DA任務。這種方法的不足之處是:這種問題的生成方式使估計所得解答的統(tǒng)計意義的任何一種機會不再存在。另外一方面,只有專業(yè)人員才能提出染色體選擇的準則和有效地進行問題描述與生成。在系統(tǒng)中包含遺傳算法的有美國的GeneHunter.
[8]非線性回歸方法:這種方法的基礎是,在預定的函數(shù)的基礎上,尋找目標度量對其它多種變量的依賴關系。這種方法在金融市場或醫(yī)療診斷的應用場合,比較好的提供可信賴的結(jié)果。在俄羅斯的PalyAnalyst以及美國的Neuroshell系統(tǒng)中包括了這種技術。
上面所列DM技術不可能是詳盡的囊括,因為多年來數(shù)理統(tǒng)計分析以及AI與KE的研究提供了種類繁多特點各異的手段,DM開發(fā)人員完全可以根據(jù)不同任務加以選擇使用,另外近年來在軟計算(SoftComputing)和不確定信息處理(dealingwithUncertaintyofinformation)方法的研究,促使DM(KDD)技術向更深層次發(fā)展。
需要說明的,上面所說的DM中的數(shù)據(jù)是指數(shù)據(jù)庫中表格形式中的記錄和條目,這種數(shù)據(jù)稱作結(jié)構型數(shù)據(jù)(Structureddata)。在一個企業(yè)中,還有一類像文本和網(wǎng)頁形式的數(shù)據(jù),稱作非結(jié)構型數(shù)據(jù)(unstructureddata)。它來自不同的信息源,如文本圖像影視和音響等,當然文本是最主要的一種非結(jié)構數(shù)據(jù)。1995年分析家已預言,像文本這樣非結(jié)構型數(shù)據(jù)將是在線存貯方面占支配地位的數(shù)據(jù)形式。到1998年初,在Internet上的信息網(wǎng)頁數(shù),已超過5億。隨著Internet的擴展和大量在線文本的出現(xiàn),將標志這巨大的非結(jié)構型數(shù)據(jù)海洋中,蘊藏著極其豐富的有用信息即知識。
人們從書本中獲取知識方法是閱讀和理解。開發(fā)一種工具能協(xié)助用戶從非結(jié)構數(shù)據(jù)中抽取關鍵概念以及快速而有效地檢索到關心的信息,這將是一個非常引人入勝的研究領域。目前,基于圖書索引檢索以及超文本技術的各類搜索引擎,能協(xié)助用戶尋找所需信息,但要深入發(fā)掘這類數(shù)據(jù)中的有用用信息,尚需要更高層次的技術支持,人工智能領域有關知識表示及獲取的方法(如語義網(wǎng)絡概念映射等),和自然語言理解的研究成果,可望被采用。還可能要涉及到語言學心理學等領域。最近已出現(xiàn)了針對DM工具,如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。
來源:博銳管理沙龍
- 1電子簽名的幕后英雄 —PKI/CA在行業(yè)中的應用
- 2OA系統(tǒng)更好的為公司業(yè)務發(fā)展提供支撐和服務
- 3銀行中間業(yè)務平臺分析及實現(xiàn)
- 4企業(yè)信息門戶商業(yè)功能和服務的雙軌
- 5并行工程集成框架
- 6入侵檢測:2004年出現(xiàn)的4種新后門技術
- 7從泰坦尼克中汲取的IT項目教訓
- 8利用數(shù)據(jù)可視化工具降低導航風險
- 9看Intel如何進行知識管理
- 10企業(yè)需要知道哈爾濱OA的應用不是一蹴而就的
- 11哈爾濱OA軟件與其他技術的關系如何?
- 12CMS的生命周期和工具箱
- 13渠道別搬起石頭砸了自有產(chǎn)品的腳
- 14IBM:對招聘流程進行的創(chuàng)新 點燃團隊創(chuàng)新激情
- 15如休運用AHP法篩選“物流服務供應商”
- 16企業(yè)服務器互通的價值
- 17讓業(yè)務與ERP系統(tǒng)更好的集成
- 18IT揭開管理傷疤:波司登集團ERP實施經(jīng)驗
- 19中小企業(yè)UPS方案按需選
- 20MSDP擴展多播范圍
- 21小專題:研發(fā)項目管理
- 22中小企業(yè)VoIP部署指南
- 23構成哈爾濱OA軟件的技術是什么?
- 24大亞集團信息安全“三級跳”
- 25PLM如何實現(xiàn)對SCM、CRM、ERP的整合
- 26IT項目測試中作出了讓步的代價
- 27如何做需求開發(fā)?
- 28XML與面向Web的數(shù)據(jù)挖掘技術
- 29構筑中小企業(yè)內(nèi)部物資配送新模式
- 30下一代網(wǎng)絡分組話音接入的實現(xiàn)
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓