| |
|
您現(xiàn)在的位置:里諾新聞 > 什么是數(shù)據(jù)挖掘?
|
什么是數(shù)據(jù)挖掘?更新時間: 2009-09-21
數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的大量的數(shù)據(jù)中“挖掘”有趣知識的過程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。知識發(fā)現(xiàn)過程以下步驟組成:(1)數(shù)據(jù)清理,(2)數(shù)據(jù)集成,(3)數(shù)據(jù)選擇,(4)數(shù)據(jù)變換,(5)數(shù)據(jù)挖掘,(6)模式評估,(7)知識表示。數(shù)據(jù)挖掘可以與用戶或知識庫交互。
并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。
數(shù)據(jù)挖掘的起源
需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計和科學(xué)探索等。
數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗(yàn),(2) 人工智能、模式識別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。
數(shù)據(jù)挖掘能做什么
1)數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預(yù)言(Prediction)
· 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Description and Visualization)
· 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
2)數(shù)據(jù)挖掘分類
以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘
· 直接數(shù)據(jù)挖掘
目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述。
· 間接數(shù)據(jù)挖掘
目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系 。
· 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。
例子:
a. 信用卡申請者,分類為低、中、高風(fēng)險
b. 分配客戶到預(yù)先定義的客戶分片
注意: 類的個數(shù)是確定的,預(yù)先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
例子:
a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù)
b. 根據(jù)購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對家庭貸款業(yè)務(wù),運(yùn)用估值,給各個客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。
· 預(yù)言(Prediction)
通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個單獨(dú)的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗(yàn)證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少。
· 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
決定哪些事情將一起發(fā)生。
例子:
a. 超市中客戶在購買A的同時,經(jīng)常會購買B,即A => B(關(guān)聯(lián)規(guī)則)
b. 客戶在購買A后,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
例子:
a. 一些特定癥狀的聚集可能預(yù)示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數(shù)據(jù)挖掘結(jié)果的表示方式。
數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
1.什么是關(guān)聯(lián)規(guī)則
在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。
2.關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法
2.1關(guān)聯(lián)規(guī)則挖掘的過程
關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。
關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項(xiàng)目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項(xiàng)目組為止。
關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。
就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購買尿布的行為,超市將可推薦該消費(fèi)者同時購買啤酒。這個商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費(fèi)行為。
從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。
2.2關(guān)聯(lián)規(guī)則的分類
按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:
1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。
布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個數(shù)值型關(guān)聯(lián)規(guī)則。
2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。
在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM臺式機(jī)=>Sony打印機(jī),是一個細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機(jī)=>Sony打印機(jī),是一個較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。
3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。
在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購買的物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關(guān)聯(lián)規(guī)則。
2.3關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法
1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。
該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。
可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點(diǎn)。
2.基于劃分的算法
Savasere等設(shè)計了一個基于劃分的算法。這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨(dú)考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨(dú)立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集算法
針對Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提高。
3.該領(lǐng)域在國內(nèi)外的應(yīng)用
3.1關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國內(nèi)外的應(yīng)用
就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時也可以顯示出顧客會對什么產(chǎn)品感興趣。
同時,一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。
但是目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢?梢哉f,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。
3.2近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究
由于許多應(yīng)用問題往往比超市購買問題更復(fù)雜,大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。
數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)
在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。
·數(shù)據(jù)的抽取
數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。
·數(shù)據(jù)的存儲和管理
數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔(dān)當(dāng)數(shù)據(jù)倉庫的服務(wù)器。
·數(shù)據(jù)的展現(xiàn)
在數(shù)據(jù)展現(xiàn)方面主要的方式有:
查詢:實(shí)現(xiàn)預(yù)定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計算機(jī)動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計:進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識。
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展
數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面,可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對獨(dú)立的方面和工具。
數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合與互動發(fā)展的,其學(xué)術(shù)研究價值和應(yīng)用研究前景將是令人振奮的。它是數(shù)據(jù)挖掘?qū)<、?shù)據(jù)倉庫技術(shù)人員和行業(yè)專家共同努力的成果,更是廣大渴望從數(shù)據(jù)庫“奴隸”到數(shù)據(jù)庫“主人”轉(zhuǎn)變的企業(yè)最終用戶的通途。
統(tǒng)計學(xué)與數(shù)據(jù)挖掘
統(tǒng)計學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。事實(shí)上,由于它們的目標(biāo)相似,一些人(尤其是統(tǒng)計學(xué)家)認(rèn)為數(shù)據(jù)挖掘是統(tǒng)計學(xué)的分支。這是一個不切合實(shí)際的看法。因?yàn)閿?shù)據(jù)挖掘還應(yīng)用了其它領(lǐng)域的思想、工具和方法,尤其是計算機(jī)學(xué)科,例如數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí),而且它所關(guān)注的某些領(lǐng)域和統(tǒng)計學(xué)家所關(guān)注的有很大不同。
1.統(tǒng)計學(xué)的性質(zhì)
試圖為統(tǒng)計學(xué)下一個太寬泛的定義是沒有意義的。盡管可能做到,但會引來很多異議。相反,我要關(guān)注統(tǒng)計學(xué)不同于數(shù)據(jù)挖掘的特性。
差異之一同上節(jié)中最后一段提到的相關(guān),即統(tǒng)計學(xué)是一門比較保守的學(xué)科,目前有一種趨勢是越來越精確。當(dāng)然,這本身并不是壞事,只有越精確才能避免錯誤,發(fā)現(xiàn)真理。但是如果過度的話則是有害的。這個保守的觀點(diǎn)源于統(tǒng)計學(xué)是數(shù)學(xué)的分支這樣一個看法,我是不同意這個觀點(diǎn)的,盡管統(tǒng)計學(xué)確實(shí)以數(shù)學(xué)為基礎(chǔ)(正如物理和工程也以數(shù)學(xué)為基礎(chǔ),但沒有被認(rèn)為是數(shù)學(xué)的分支),但它同其它學(xué)科還有緊密的聯(lián)系。
數(shù)學(xué)背景和追求精確加強(qiáng)了這樣一個趨勢:在采用一個方法之前先要證明,而不是象計算機(jī)科學(xué)和機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。這就意味著有時候和統(tǒng)計學(xué)家關(guān)注同一問題的其它領(lǐng)域的研究者提出一個很明顯有用的方法,但它卻不能被證明(或還不能被證明)。統(tǒng)計雜志傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法。數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度。這并不意味著數(shù)據(jù)挖掘工作者不注重精確,而只是說明如果方法不能產(chǎn)生結(jié)果的話就會被放棄。
正是統(tǒng)計文獻(xiàn)顯示了(或夸大了)統(tǒng)計的數(shù)學(xué)精確性。同時還顯示了其對推理的側(cè)重。盡管統(tǒng)計學(xué)的一些分支也側(cè)重于描述,但是瀏覽一下統(tǒng)計論文的話就會發(fā)現(xiàn)這些文獻(xiàn)的核心問題就是在觀察了樣本的情況下如何去推斷總體。當(dāng)然這也常常是數(shù)據(jù)挖掘所關(guān)注的。下面我們會提到數(shù)據(jù)挖掘的一個特定屬性就是要處理的是一個大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個樣本,但是需要描述樣本取自的那個大數(shù)據(jù)集。然而,數(shù)據(jù)挖掘問題常?梢缘玫綌(shù)據(jù)總體,例如關(guān)于一個公司的所有職工數(shù)據(jù),數(shù)據(jù)庫中的所有客戶資料,去年的所有業(yè)務(wù)。在這種情形下,推斷就沒有價值了(例如,年度業(yè)務(wù)的平均值),因?yàn)橛^測到的值也就是估計參數(shù)。這就意味著,建立的統(tǒng)計模型可能會利用一系列概率表述(例如,一些參數(shù)接近于0,則會從模型中剔除掉),但當(dāng)總體數(shù)據(jù)可以獲得的話,在數(shù)據(jù)挖掘中則變得毫無意義。在這里,我們可以很方便的應(yīng)用評估函數(shù):針對數(shù)據(jù)的足夠的表述。事實(shí)是,常常所關(guān)注的是模型是否合適而不是它的可行性,在很多情形下,使得模型的發(fā)現(xiàn)很容易。例如,在尋找規(guī)則時常常會利用吻合度的單純特性(例如,應(yīng)用分支定理)。但當(dāng)我們應(yīng)用概率陳述時則不會得到這些特性。
統(tǒng)計學(xué)和數(shù)據(jù)挖掘部分交迭的第三個特性是在現(xiàn)代統(tǒng)計學(xué)中起核心作用的“模型”;蛟S“模型”這個術(shù)語更多的含義是變化。一方面,統(tǒng)計學(xué)模型是基于分析變量間的聯(lián)系,但另一方面這些模型關(guān)于數(shù)據(jù)的總體描述確實(shí)沒有道理的。關(guān)于信用卡業(yè)務(wù)的回歸模型可能會把收入作為一個獨(dú)立的變量,因?yàn)橐话阏J(rèn)為高收入會導(dǎo)致大的業(yè)務(wù)。這可能是一個理論模型(盡管基于一個不牢靠的理論)。與此相反,只需在一些可能具有解釋意義的變量基礎(chǔ)上進(jìn)行逐步的搜索,從而獲得一個有很大預(yù)測價值的模型,盡管不能作出合理的解釋。(通過數(shù)據(jù)挖掘去發(fā)現(xiàn)一個模型的時候,常常關(guān)注的就是后者)。
還有其它方法可以區(qū)分統(tǒng)計模型,但在這里我將不作探討。這里我想關(guān)注的是,現(xiàn)代統(tǒng)計學(xué)是以模型為主的。而計算,模型選擇條件是次要的,只是如何建立一個好的模型。但在數(shù)據(jù)挖掘中,卻不完全是如此。在數(shù)據(jù)挖掘中,準(zhǔn)則起了核心的作用。(當(dāng)然在統(tǒng)計學(xué)中有一些以準(zhǔn)則為中心的獨(dú)立的特例。Gifi的關(guān)于學(xué)校的非線性多變量分析就是其中之一。例如,Gifi說,在本書中我們持這樣的觀點(diǎn),給定一些最常用的MVA(多變量分析)問題,既可以從模型出發(fā)也可以技術(shù)出發(fā)。正如我們已經(jīng)在1.1節(jié)所看到的基于模型的經(jīng)典的多變量統(tǒng)計分析,……然而,在很多情形下,模型的選擇并不都是顯而易見的,選擇一個合適的模型是不可能的,最合適的計算方法也是不可行的。在這種情形下,我們從另外一個角度出發(fā),應(yīng)用設(shè)計的一系列技術(shù)來回答MVA問題,暫不考慮模型和最優(yōu)判別的選擇。
相對于統(tǒng)計學(xué)而言,準(zhǔn)則在數(shù)據(jù)挖掘中起著更為核心的作用并不奇怪,數(shù)據(jù)挖掘所繼承的學(xué)科如計算機(jī)科學(xué)及相關(guān)學(xué)科也是如此。數(shù)據(jù)集的規(guī)模常常意味著傳統(tǒng)的統(tǒng)計學(xué)準(zhǔn)則不適合數(shù)據(jù)挖掘問題,不得不重新設(shè)計。部分地,當(dāng)數(shù)據(jù)點(diǎn)被逐一應(yīng)用以更新估計量,適應(yīng)性和連續(xù)性的準(zhǔn)則常常是必須的。盡管一些統(tǒng)計學(xué)的準(zhǔn)則已經(jīng)得到發(fā)展,但更多的應(yīng)用是機(jī)器學(xué)習(xí)。(正如“學(xué)習(xí)”所示的那樣)
2.?dāng)?shù)據(jù)挖掘的性質(zhì)
由于統(tǒng)計學(xué)基礎(chǔ)的建立在計算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計學(xué)工具包含很多可以手工實(shí)現(xiàn)的方法。因此,對于很多統(tǒng)計學(xué)家來說,1000個數(shù)據(jù)就已經(jīng)是很大的了。但這個“大”對于英國大的信用卡公司每年350,000,000筆業(yè)務(wù)或AT&T每天200,000,000個長途呼叫來說相差太遠(yuǎn)了。很明顯,面對這么多的數(shù)據(jù),則需要設(shè)計不同于那些“原則上可以用手工實(shí)現(xiàn)”的方法。這意味這計算機(jī)(正是計算機(jī)使得大數(shù)據(jù)可能實(shí)現(xiàn))對于數(shù)據(jù)的分析和處理是關(guān)鍵的。分析者直接處理數(shù)據(jù)將變得不可行。相反,計算機(jī)在分析者和數(shù)據(jù)之間起到了必要的過濾的作用。這也是數(shù)據(jù)挖掘特別注重準(zhǔn)則的另一原因。盡管有必要,把分析者和數(shù)據(jù)分離開很明顯導(dǎo)致了一些關(guān)聯(lián)任務(wù)。這里就有一個真正的危險:非預(yù)期的模式可能會誤導(dǎo)分析者,這一點(diǎn)我下面會討論。
我不認(rèn)為在現(xiàn)代統(tǒng)計中計算機(jī)不是一個重要的工具。它們確實(shí)是,并不是因?yàn)閿?shù)據(jù)的規(guī)模。對數(shù)據(jù)的精確分析方法如bootstrap方法、隨機(jī)測試,迭代估計方法以及比較適合的復(fù)雜的模型正是有了計算機(jī)才是可能的。計算機(jī)已經(jīng)使得傳統(tǒng)統(tǒng)計模型的視野大大的擴(kuò)展了,還促進(jìn)了新工具的飛速發(fā)展。
下面來關(guān)注一下歪曲數(shù)據(jù)的非預(yù)期的模式出現(xiàn)的可能性。這和數(shù)據(jù)質(zhì)量相關(guān)。所有數(shù)據(jù)分析的結(jié)論依賴于數(shù)據(jù)質(zhì)量。GIGO的意思是垃圾進(jìn),垃圾出,它的引用到處可見。一個數(shù)據(jù)分析者,無論他多聰明,也不可能從垃圾中發(fā)現(xiàn)寶石。對于大的數(shù)據(jù)集,尤其是要發(fā)現(xiàn)精細(xì)的小型或偏離常規(guī)的模型的時候,這個問題尤其突出。當(dāng)一個人在尋找百萬分之一的模型的時候,第二個小數(shù)位的偏離就會起作用。一個經(jīng)驗(yàn)豐富的人對于此類最常見的問題會比較警覺,但出錯的可能性太多了。
此類問題可能在兩個層次上產(chǎn)生。第一個是微觀層次,即個人記錄。例如,特殊的屬性可能丟失或輸錯了。我知道一個案例,由于挖掘者不知道,丟失的數(shù)據(jù)被記錄為99而作為真實(shí)的數(shù)據(jù)處理。第二個是宏觀層次,整個數(shù)據(jù)集被一些選擇機(jī)制所歪曲。交通事故為此提供了一個好的示例。越嚴(yán)重的、致命的事故,其記錄越精確,但小的或沒有傷害的事故的記錄卻沒有那么精確。事實(shí)上,很高比例的數(shù)據(jù)根本沒有記錄。這就造成了一個歪曲的映象-可能會導(dǎo)致錯誤的結(jié)論。
統(tǒng)計學(xué)很少會關(guān)注實(shí)時分析,然而數(shù)據(jù)挖掘問題常常需要這些。例如,銀行事務(wù)每天都會發(fā)生,沒有人能等三個月得到一個可能的欺詐的分析。類似的問題發(fā)生在總體隨時間變化的情形。我的研究組有明確的例子顯示銀行債務(wù)的申請隨時間、競爭環(huán)境、經(jīng)濟(jì)波動而變化。
3.討論
數(shù)據(jù)挖掘有時候是一次性的實(shí)驗(yàn)。這是一個誤解。它更應(yīng)該被看作是一個不斷的過程(盡
管數(shù)據(jù)集時確定的)。從一個角度檢查數(shù)據(jù)可以解釋結(jié)果,以相關(guān)的觀點(diǎn)檢查可能會更接近等等。關(guān)鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預(yù)期的模式-同樣非預(yù)期的模式要以非預(yù)期的方法來發(fā)現(xiàn)。
與把數(shù)據(jù)挖掘作為一個過程的觀點(diǎn)相關(guān)聯(lián)的是認(rèn)識到結(jié)果的新穎性。許多數(shù)據(jù)挖掘的結(jié)果是我們所期望的-可以回顧。然而,可以解釋這個事實(shí)并不能否定挖掘出它們的價值。沒有這些實(shí)驗(yàn),可能根本不會想到這些。實(shí)際上,只有那些可以依據(jù)過去經(jīng)驗(yàn)形成的合理的解釋的結(jié)構(gòu)才會是有價值的。
顯然在數(shù)據(jù)挖掘存在著一個潛在的機(jī)會。在大數(shù)據(jù)集中發(fā)現(xiàn)模式的可能性當(dāng)然存在,大數(shù)據(jù)集的數(shù)量與日俱增。然而,也不應(yīng)就此掩蓋危險。所有真正的數(shù)據(jù)集(即使那些是以完全自動方式搜集的數(shù)據(jù))都有產(chǎn)生錯誤的可能。關(guān)于人的數(shù)據(jù)集(例如事務(wù)和行為數(shù)據(jù))尤其有這種可能。這很好的解釋了絕大部分在數(shù)據(jù)中發(fā)現(xiàn)的“非預(yù)期的結(jié)構(gòu)”本質(zhì)上是無意義的,而是因?yàn)槠x了理想的過程。(當(dāng)然,這樣的結(jié)構(gòu)可能會是有意義的:如果數(shù)據(jù)有問題,可能會干擾搜集數(shù)據(jù)的目的,最好還是了解它們)。與此相關(guān)聯(lián)的是如何確保(和至少為事實(shí)提供支持)任何所觀察到的模式是“真實(shí)的”,它們反應(yīng)了一些潛在的結(jié)構(gòu)和關(guān)聯(lián)而不僅僅是一個特殊的數(shù)據(jù)集,由于一個隨機(jī)的樣本碰巧發(fā)生。在這里,記分方法可能是相關(guān)的,但需要更多的統(tǒng)計學(xué)家和數(shù)據(jù)挖掘工作者的研究。 |
相關(guān)文章
易用倉庫管理軟件(遠(yuǎn)程網(wǎng)絡(luò)版)落戶云南康豐糖業(yè) (2005-03-17)
看看里諾合同管理軟件做了哪三處更新? (2013-05-09)
深圳艷屏科技有限公司及多家公司選購里諾倉庫管理軟件 (2012-02-11)
云南筑高混凝土有限公司推薦里諾倉庫管理軟件(SQL網(wǎng)絡(luò)版) (2018-07-31)
里諾軟件雙十一活動開始啦! (2016-11-10)
里諾倉庫管理軟件SQL版落戶黑龍江紫金龍興礦業(yè)有限公司 (2016-03-22)
沈陽啟源工業(yè)泵制造有限公司實(shí)施里諾進(jìn)銷存管理軟件(SQL網(wǎng)絡(luò)版) (2009-09-16)
什么是BOM表? (2009-09-16)
我國服裝行業(yè)的特點(diǎn) (2009-09-07)
數(shù)據(jù)挖掘相關(guān)的10個問題 (2009-09-21)
里諾進(jìn)銷存(SQL網(wǎng)絡(luò)版)助無錫市瑞杰電氣有限公司規(guī)范化管理 (2009-09-19)
里諾餐飲管理軟件(單機(jī)版) (2016-02-03)
|
番茄下載 - 可凡下載站 - 18182游戲網(wǎng) - 極速軟件園 - 愛當(dāng)網(wǎng) - 考拉軟件站 - 暴風(fēng)軟件園 |