大數據是2012的時髦詞匯,正受到越來越多人的關注和談論。大數據之所以受到人們的關注和談論,是因為隱藏在大數據后面超千億美元的市場機會。
大數據時代,數據挖掘是最關鍵的工作。以下內容供個人學習用,感興趣的朋友可以看一下。
智庫百科是這樣描述數據挖掘的“數據挖掘又稱數據庫中的知識發現,是目前人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
數據挖掘的定義
技術上的定義及含義
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。
與數據挖掘相近的同義詞有數據融合、人工智能、商務智能、模式識別、機器學習、知識發現、數據分析和決策支持等。
----何為知識從廣義上理解,數據、信息也是知識的表現形式,但是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理,查詢優化,決策支持和過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
這里所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。實際上,所有發現的知識都是相對的,是有特定前提和約束條件,面向特定領域的,同時還要能夠易于被用戶理解。最好能用自然語言表達所發現的結果。
商業角度的定義
數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據分析本身已經有很多年的歷史,只不過在過去數據收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數據量進行分析的復雜數據分析方法受到很大限制。現在,由于各行業業務自動化的實現,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是由于純機會的(Opportunistic)商業運作而產生。分析這些數據也不再是單純為了研究的需要,更主要是為商業決策提供真正有價值的信息,進而
獲得利潤。但所有企業面臨的一個共同問題是:企業數據量非常大,而其中真正有價值的信息卻很少,因此從大量的數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也因此而得名。
因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。
數據挖掘常用的方法
利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數據進行挖掘。
①分類。分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。
②回歸分析。回歸分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。
③聚類。聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。
④關聯規則。關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。在客戶關系管理中,通過對企業的客戶數據庫里的大量數據進行挖掘,可以從大量的記錄中發現有趣的關聯關系,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。
⑤特征。特征分析是從數據庫中的一組數據中提取出關于這些數據的特征式,這些特征式表達了該數據集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶的流失。
⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。
⑦Web頁挖掘。隨著Internet的迅速發展及Web 的全球普及, 使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web 的海量數據進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息,并根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。
數據挖掘的功能
數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能。
1、自動預測趨勢和行為
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。
2、關聯分析
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3、聚類
數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。
4、概念描述
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
5、偏差檢測
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。 數據挖掘與傳統分析方法的區別
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具有先未知,有效和可實用三個特征.
先前未知的信息是指該信息是預先未曾預料到的,既數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值.在商業應用中最典型的例子就是一家連鎖店通過數據挖掘發現了小孩尿布和啤酒之間有著驚人的聯系。
數據挖掘應用
1、數據挖掘解決的典型商業問題
需要強調的是,數據挖掘技術從一開始就是面向應用的。目前,在很多領域,數據挖掘(data mining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。數據挖掘所能解決的典型商業問題包括:數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等。
2、數據挖掘在市場營銷的應用
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。
商業消費信息來自市場中的各種渠道。例如,每當我們用信用卡消費時,商業企業就可以在信用卡結算過程收集商業消費信息,記錄下我們進行消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數據;當我們在申辦信用卡、辦理汽車駕駛執照、填寫商品保修單等其他需要填寫表格的場合時,我們的個人信息就存入了相應的業務數據庫;企業除了自行收集相關業務信息之外,甚至可以從其他公司或機構購買此類信息為自己所用。
這些來自各種渠道的數據信息被組合,應用超級計算機、并行處理、神經元網絡、模型化算法和其他信息處理技術手段進行處理,從中得到商家用于向特定消費群體或個體進行定向營銷的決策信息。這種數據信息是如何應用的呢?舉一個簡單的例子,當銀行通過對業務數據進行挖掘后,發現一個銀行帳戶持有者突然要求申請雙人聯合帳戶時,并且確認該消費者是第一次申請聯合帳戶,銀行會推斷該用戶可能要結婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學費等長期投資業務,銀行甚至可能將該信息賣給專營婚慶商品和服務的公司。數據挖掘構筑競爭優勢。
在市場經濟比較發達的國家和地區,許多公司都開始在原有信息系統的基礎上通過數據挖掘對業務信息進行深加工,以構筑自己的競爭優勢,擴大自己的營業額。美國運通公司(American Express)有一個用于記錄信用卡業務的數據庫,數據量達到54億字符,并仍在隨著業務進展不斷更新。運通公司通過對這些數據進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。再如,居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎,那么他可能會得到一個周末前往紐約的機票打折優惠卡。
基于數據挖掘的營銷,常常可以向消費者發出與其以前的消費行為相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的數據庫,數據庫是通過收集對公司發出的優惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的,卡夫公司通過數據挖掘了解特定客戶的興趣和口味,并以此為基礎向他們發送特定產品的優惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產品食譜。美國的讀者文摘(Reader's Digest)出版公司運行著一個積累了40年的業務數據庫,其中容納有遍布全球的一億多個訂戶的資料,數據庫每天24小時連續運行,保證數據不斷得到實時的更新,正是基于對客戶資料數據庫進行數據挖掘的優勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊和聲像制品的出版和發行業務,極大地擴展了自己的業務。
基于數據挖掘的營銷對我國當前的市場競爭中也很具有啟發意義,我們經常可以看到繁華商業街上一些廠商對來往行人不分對象地散發大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,賣特效藥品的廠商向醫院特定門診就醫的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。
數據挖掘在企業危機管理中的應用
危機管理是管理領域新出現的一個熱點研究領域,它是以市場競爭中危機的出現為研究起點,分析企業危機產生的原因和過程,研究企業預防危機、應付危機、解決危機的手段和策略,以增強企業的免疫力、應變力和競爭力,使管理者能夠及時準確地獲取所需要的信息,迅速捕捉到企業可能發生危機的一切可能事件和先兆,進而采取有效的規避措施,在危機發生之前對其進行控制,趨利避害,從而使企業能夠適應迅速變化的市場環境,保持長久的競爭優勢。但是由于危機產生的原因復雜,種類繁多,許多因素難以量化,而且危機管理中帶有大量不確定因素的半結構化問題和非結構化問題,很多因素由于沒有歷史數據和相應的統計資料,很難進行科學地計算和評估,因此需要應用其它技術和方法來加強企業的危機管理工作。
隨著計算機技術、網絡技術、通訊技術、Internet技術的迅速發展和電子商務、辦公自動化、管理信息系統、Internet 的普及等,企業業務操作流程日益自動化,企業經營過程中產生了大量的數據,這些數據和由此產生的信息是企業的寶貴財富,它如實地記錄著企業經營的本質狀況。但是面對如此大量的數據,傳統的數據分析方法,如數據檢索、統計分析等只能獲得數據的表層信息,不能獲得其內在的、深層次的信息,管理者面臨著數據豐富而知識貧乏的困境。如何從這些數據中挖掘出對企業經營決策有用的知識是非常重要的,數據挖掘便是為適應這種需要應運而生的。
數據挖掘是一種新的信息處理技術,其主要特點是對企業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助經營決策的關鍵性數據,它在企業危機管理中得到了比較普遍的應用,具體可以應用到以下幾個方面。
1.利用Web頁挖掘搜集外部環境信息
信息是危機管理的關鍵因素。在危機管理過程中,可以利用Web 頁挖掘技術對企業外部環境信息進行收集、整理和分析,盡可能地收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、消費者等與企業發展有關的信息,集中精力分析處理那些對企業發展有重大或潛在重大影響的外部環境信息,抓住轉瞬即逝的市場機遇,獲得企業危機的先兆信息,采取有效措施規避危機,促使企業健康、持續地發展。
2.利用數據挖掘分析企業經營信息
利用數據挖掘技術、數據倉庫技術和聯機分析技術,管理者能夠充分利用企業數據倉庫中的海量數據進行分析,并根據分析結果找出企業經營過程中出現的各種問題和可能引起危機的先兆,如經營不善、觀念滯后、產品失敗、戰略決策失誤、財務危機等內部因素引起企業人、財、物、產、供、銷的相對和諧平衡體遭到重大破壞,對企業的生存、發展構成嚴重威脅的信息,及時做出正確的決策,調整經營戰略,以適應不斷變化的市場需求。
3.利用數據挖掘識別、分析和預防危機
危機管理的精髓在于預防。利用數據挖掘技術對企業經營的各方面的風險、威脅和危險進行識別和分析,如產品質量和責任、環境、健康和人身安全、財務、營銷、自然災害、經營欺詐、人員及計算機故障等,對每一種風險進行分類,并決定如何管理各類風險;準確地預測企業所面臨的各種風險,并對每一種風險、威脅和危險的大小及發生概率進行評價,建立各類風險管理的優先次序,以有限的資源、時間和資金來管理最嚴重的一種或某幾類風險;制定危機管理的策略和方法,擬定危機應急計劃和危機管理隊伍,做好危機預防工作。
4.利用數據挖掘技術改善客戶關系管理
客戶滿意度歷來就是衡量一個企業服務質量好壞的重要尺度,特別是當客戶的反饋意見具有廣泛效應的時候更是如此。目前很多企業利用營銷中心、新聞組、 BBS以及呼叫中心等收集客戶的投訴和意見,并對這些投訴和意見進行分析,以發現客戶關系管理中存在的問題,如果有足夠多的客戶都在抱怨同一個問題,管理者就有理由對其展開調查,為企業及時捕捉到發生危機的一切可能事件和先兆,從而挽
救客戶關系,避免經營危機。
5.利用數據挖掘進行信用風險分析和欺詐甄別
客戶信用風險分析和欺詐行為預測對企業的財務安全是非常重要的,使用企業信息系統中數據庫的數據,利用數據挖掘中的變化和偏差分析技術進行客戶信用風險分析和欺詐行為預測,分析這些風險為什么會發生?哪些因素會導致這些風險?這些風險主要來自于何處?如何預測到可能發生的風險?采取何種措施減少風險的發生?通過評價這些風險的嚴重性、發生的可能性及控制這些風險的成本,匯總對各種風險的評價結果,進而建立一套信用風險管理的戰略和監督體系,設計并完善信用風險管理能力,準確、及時地對各種信用風險進行監視、評價、預警和管理,進而采取有效的規避和監督措施,在信用風險發生之前對其進行預警和控制,趨利避害,做好信用風險的防范工作。
6.利用數據挖掘控制危機
危機一旦爆發,來勢迅猛,損失嚴重,因此危機發生以后,要采取有力的措施控制危機,管理者可以利用先進的信息技術如基于Web 的挖掘技術、各種搜索引擎工具、E-mail自動處理工具、基于人工智能的信息內容的自動分類、聚類以及基于深層次自然語言理解的知識檢索、問答式知識檢索系統等快速地獲取危機管理所需要的各種信息,以便向客戶、社區、新聞界發布有關的危機管理信息,并在各種媒體尤其是公司的網站上公布企業的詳細風險防御和危機管理計劃,使全體員工能夠及時獲取危機管理信息及危機最新的進展情況。這樣企業的高層管理人員、公關人員、危機管理人員和全體員工就能隨時有準備地應付任何復雜情況和危急形勢的壓力,對出現的危機立即做出反應,使危機的損失降到最低。
危機就是危險和機遇,企業的每一次危機既包含了導致失敗的根源,又蘊藏著成功的種子,發現、培育,進而收獲潛在的成功機會,就是危機管理的精髓;而錯誤地估計形勢,并令事態進一步惡化,則是不良危機管理的典型特征。企業應加強危機管理工作,利用先進的數據挖掘技術加強企業的危機管理工作,以便準確及時地獲取所需要的危機信息,迅速捕捉到企業可能發生危機的一切事件和征兆,進而采取有效的規避措施,在危機發生之前對其進行控制,趨利避害,從而使企業能夠適應迅速變化的市場環境,保持長久的競爭優勢,實現可持續發展戰略。
.