Ⅰ 數據挖掘提出的背景
數據挖掘(Data Mining,DM)又稱資料庫中的知識發現(Knowledge Discover in Database,KDD),是目前人工智慧和資料庫領域研究的熱點問題,所謂數據挖掘是指從資料庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
知識發現過程由以下三個階段組成:(1)數據准備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
數據挖掘
數據挖掘
數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據准備、規律尋找和規律表示3個步驟。數據准備是從相關的數據源中選取所需的數據並整合成用於數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。
數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
起源
需要是發明之母。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,並且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用於各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。
數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。
發展階段
第一階段:電子郵件階段
這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長。
第二階段:信息發布階段
從1995年起,以Web技術為代表的信息發布系統,爆炸式地成長起來,成為目前Internet的主要應用。中小企業如何把握好從「粗放型」到「精準型」營銷時代的電子商務。
第三階段: EC(Electronic Commerce),即電子商務階段
EC在美國也才剛剛開始,之所以把EC列為一個劃時代的東西,是因為Internet的最終主要商業用途,就是電子商務。同時反過來也可以說,若干年後的商業信息,主要是通過Internet傳遞。Internet即將成為我們這個商業信息社會的神經系統。1997年底在加拿大溫哥華舉行的第五次亞太經合組織非正式首腦會議(APEC)上美國總統柯林頓提出敦促各國共同促進電子商務發展的議案,其引起了全球首腦的關注,IBM、HP和Sun等國際著名的信息技術廠商已經宣布1998年為電子商務年。
第四階段:全程電子商務階段
隨著SaaS(Software as a service)軟體服務模式的出現,軟體紛紛登陸互聯網[5],延長了電子商務鏈條,形成了當下最新的「全程電子商務」概念模式。