產(chǎn)品推薦

海瑞思Preciset機房空調(diào)

: 海瑞思Precise系列專為中小型機房設(shè)計的機房專用空調(diào)Precise...【詳細】

MPS 10-100 kVA UPS

: MPS系列UPS設(shè)備確保任何類型的負載，最大限度的保護和電能質(zhì)...【詳細】

聯(lián)系我們

: 服務(wù)熱線
010-62104284

地址：北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q：514468705/1049705527
郵箱：jhcxkj@163.com

首頁 > 新聞中心 > 一文帶你了解什么是數(shù)據(jù)挖掘

首頁 > 新聞中心 >

一文帶你了解什么是數(shù)據(jù)挖掘

雙擊自動滾屏發(fā)布者：精密空調(diào) 發(fā)布時間：2019-07-05 09:40:16 閱讀：次【字體：大中小】

大數(shù)據(jù)時代已經(jīng)來臨，利用網(wǎng)絡(luò)和生活中產(chǎn)生的大量數(shù)據(jù)發(fā)現(xiàn)問題并創(chuàng)造價值，使得數(shù)據(jù)挖掘成了一門新的學(xué)科和技術(shù)。那么什么是大數(shù)據(jù)挖掘，數(shù)據(jù)挖掘的過程是什么，以及它的具體算法又有哪些?今天這篇文章，將帶你一起了解數(shù)據(jù)挖掘的那些事兒。

01、首先，數(shù)據(jù)挖掘到底是什么?

官方的定義，數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

通俗易懂的說，數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中，發(fā)現(xiàn)那些我們想要的"東西"。

02 這個"東西"具體指什么?

一種被稱為預(yù)測任務(wù)。

也就是說給了一定的目標(biāo)屬性，讓去預(yù)測目標(biāo)的另外一特定屬性。如果該屬性是離散的，通常稱之為'分類'，而如果目標(biāo)屬性是一個連續(xù)的值，則稱之為'回歸'。

另一種被稱為描述任務(wù)。

這是指找出數(shù)據(jù)間潛在的聯(lián)系模式。比方說兩個數(shù)據(jù)存在強關(guān)聯(lián)的關(guān)系，像大數(shù)據(jù)分析發(fā)現(xiàn)的一個特點：買尿布的男性通常也會買點啤酒，那么商家根據(jù)這個可以將這兩種商品打包出售來提高業(yè)績。另外一個非常重要的就是聚類分析，這也是在日常數(shù)據(jù)挖掘中應(yīng)用非常非常頻繁的一種分析，旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群，可以在沒有標(biāo)簽的情況下將所有的數(shù)據(jù)分為合適的幾類來進行分析或者降維。

其他的描述任務(wù)還有異常檢測，其過程類似于聚類的反過程，聚類將相似的數(shù)據(jù)聚合在一起，而異常檢測將離群太遠的點給剔除出來。

03 數(shù)據(jù)挖掘的一般過程包括以下幾個方面：

數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘后處理

首先來說說數(shù)據(jù)預(yù)處理。之所以有這樣一個步驟，是因為通常的數(shù)據(jù)挖掘需要涉及相對較大的數(shù)據(jù)量，這些數(shù)據(jù)可能來源不一導(dǎo)致格式不同，可能有的數(shù)據(jù)還存在一些缺失值或者無效值，如果不經(jīng)處理直接將這些'臟'數(shù)據(jù)放到模型中去跑，非常容易導(dǎo)致模型計算的失敗或者可用性很差，所以數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中都不可或缺的一步。

至于數(shù)據(jù)挖掘和后處理相對來說就容易理解多了。完成了數(shù)據(jù)的預(yù)處理，我們通常進行特征構(gòu)造，然后放到特定的模型中去計算，利用某種標(biāo)準(zhǔn)去評判不同模型或組合模型的表現(xiàn)，最后確定一個最合適的模型用于后處理。后處理的過程相當(dāng)于已經(jīng)發(fā)現(xiàn)了那個我們想要找到的結(jié)果，然后去應(yīng)用它或者用合適的方式將其表示出來。

這里涉及到數(shù)據(jù)挖掘的一系列算法，主要分為分類算法，聚類算法和關(guān)聯(lián)規(guī)則三大類，這三類基本上涵蓋了目前商業(yè)市場對算法的所有需求。而這三類里，最為經(jīng)典的則是下面這十大算法。

1、分類決策樹算法C4.5

C4.5，是機器學(xué)習(xí)算法中的一種分類決策樹算法，它是決策樹(決策樹，就是做決策的節(jié)點間的組織方式像一棵倒栽樹)核心算法ID3的改進算法。

2、K平均算法

K平均算法(k-means algorithm)是一個聚類算法，把n個分類對象根據(jù)它們的屬性分為k類(k

3、支持向量機算法

支持向量機(Support Vector Machine)算法，簡記為SVM，是一種監(jiān)督式學(xué)習(xí)的方法，廣泛用于統(tǒng)計分類以及回歸分析中。

4、The Apriori algorithm

Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法，其核心是基于兩階段"頻繁項集"思想的遞推算法。其涉及到的關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。

5、最大期望(EM)算法

最大期望(EM，Expectation–Maximization)算法是在概率模型中尋找參數(shù)最大似然估計的算法，其中概率模型依賴于無法觀測的隱藏變量。最大期望經(jīng)常用在機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚領(lǐng)域。

6、Page Rank算法

Page Rank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量，衡量網(wǎng)站的價值。

7、Ada Boost 迭代算法

Ada boost是一種迭代算法，其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器)，然后把這些弱分類器集合起來，構(gòu)成一個更強的最終分類器(強分類器)。

8、kNN 最近鄰分類算法

K最近鄰(k-Nearest Neighbor，KNN)分類算法，是一個理論上比較成熟的方法，也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是：如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。

9、Naive Bayes 樸素貝葉斯算法

Naive Bayes 算法通過某對象的先驗概率，利用貝葉斯公式計算出其后驗概率，并選擇具有最大后驗概率的類作為該對象所屬的類。樸素貝葉斯模型所需估計的參數(shù)很少，對缺失數(shù)據(jù)不太敏感，其算法也比較簡單。

10、CART: 分類與回歸樹算法。

分類與回歸樹算法(CART，Classification and Regression Trees)是分類數(shù)據(jù)挖掘算法的一種，有兩個關(guān)鍵的思想：第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進行剪枝。

結(jié)語：

一入數(shù)據(jù)挖掘深似海，從此奮斗到天明。光是這十大算法，就夠你啃上好一段時間了......

但請不要恐慌，想想自己可以利用機器的力量、數(shù)學(xué)的力量理解世界的運行規(guī)律，去預(yù)測或者利用研究到的東西做一些有意思的事情，這也是一種不可多得的享受!

來源：精密空調(diào) http://mygoldentreasures.com

上一篇：在云中存儲數(shù)據(jù)時的安全注意事項
下一篇：多云戰(zhàn)略的經(jīng)驗教訓(xùn)
文章標(biāo)簽：
注：原創(chuàng)內(nèi)容，禁止轉(zhuǎn)載，如有轉(zhuǎn)載，請標(biāo)明出處。如有內(nèi)容侵犯您的權(quán)益，請聯(lián)系刪除！QQ:315212307

產(chǎn)品推薦

海瑞思Preciset機房空調(diào)

MPS 10-100 kVA UPS

聯(lián)系我們

一文帶你了解什么是數(shù)據(jù)挖掘

熱點文章