您現(xiàn)在的位置：首頁(yè) > IT資訊 > 大數(shù)據(jù) > 從數(shù)據(jù)收集到數(shù)據(jù)模型要怎么做？

從數(shù)據(jù)收集到數(shù)據(jù)模型要怎么做？

2020-08-12 16:36:00　|　來(lái)源：中培企業(yè)IT培訓(xùn)網(wǎng)

眾所周知，如今是互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代，誰(shuí)擁有數(shù)據(jù)，誰(shuí)就更占據(jù)市場(chǎng)主導(dǎo)地位。因此越來(lái)越的企業(yè)想方設(shè)法的進(jìn)行數(shù)據(jù)收集。然后在從這些數(shù)據(jù)中找到有價(jià)值的信息，但是這個(gè)過(guò)程并不簡(jiǎn)單的操作就可以完成的。也就是說(shuō)從數(shù)據(jù)收集到數(shù)據(jù)模型要怎么做？從數(shù)據(jù)收集到建立數(shù)據(jù)模型，一般需要經(jīng)歷五個(gè)步驟，即數(shù)據(jù)收集、數(shù)據(jù)可視化、數(shù)據(jù)預(yù)處理、準(zhǔn)備模型輸入以及訓(xùn)練模型。

　　第一步：數(shù)據(jù)收集

通俗來(lái)講，我們把數(shù)據(jù)挖掘可以看作是想要炒一盤(pán)可口的菜肴。那么，首先第一步就是去菜市場(chǎng)買(mǎi)菜。同樣的，我們要從數(shù)據(jù)中找到需要的信息，第一步就是收集數(shù)據(jù)。

　　第二步：數(shù)據(jù)可視化

就好比你去買(mǎi)菜的時(shí)候，肯定要好好挑選一下，爭(zhēng)取買(mǎi)到比較新鮮的蔬菜。同樣的，數(shù)據(jù)挖掘的第二個(gè)步驟，就是再有了數(shù)據(jù)之后，還要看看拿來(lái)的數(shù)據(jù)長(zhǎng)啥樣。因此，我們可以利用各種可視化庫(kù)來(lái)觀察一下數(shù)據(jù)的內(nèi)容，比如matplotlib或seaborn。

　　第三步：數(shù)據(jù)預(yù)處理

買(mǎi)完菜回到家我們要做的就是洗菜，把附著的泥土和殘枝爛葉去掉，不然會(huì)影響我們的口感。通過(guò)上一步的可視化，我們可以發(fā)現(xiàn)數(shù)據(jù)里面有沒(méi)有“殘枝爛葉”，也就是我們說(shuō)的異常值。異常值包括格式有問(wèn)題的數(shù)據(jù)，例如年齡信息填的不是數(shù)字，或者信息根本就不符合邏輯，比如年齡填的200歲。

大家填過(guò)各種調(diào)查問(wèn)卷吧？很多人在填寫(xiě)的時(shí)候，遇到那些不是必須填的地方一般都會(huì)空著不填。這就導(dǎo)致數(shù)據(jù)集里除了異常值，還有一個(gè)經(jīng)常會(huì)遇到的就是缺失值。我們也會(huì)通過(guò)一些手段來(lái)彌補(bǔ)一下這些空缺。就好比我們把蔬菜清洗干凈之后，還要選擇一下是不是所有的菜我們都需要呢?想吃蔬菜的可以多放蔬菜，想吃肉的就多放些肉。所以我們還需要在數(shù)據(jù)里選擇出來(lái)跟我們的任務(wù)相關(guān)的特征，這個(gè)過(guò)程叫做特征選擇。

　　第四步：準(zhǔn)備模型輸入

我們此時(shí)案板上放著我們洗干凈和挑選出來(lái)的蔬菜，下一步就是切菜了。畢竟炒土豆絲也沒(méi)有把一整個(gè)土豆直接放鍋里的。所以我們要對(duì)這些蔬菜，也就是數(shù)據(jù)，進(jìn)行一個(gè)轉(zhuǎn)化。這個(gè)過(guò)程我們運(yùn)用到獨(dú)熱編碼和分桶，分別是對(duì)離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)的處理方式。

　　第五步：訓(xùn)練模型

最后一步就是炒菜啦。我們的模型就是不同種類(lèi)的鍋，在數(shù)據(jù)挖掘中常見(jiàn)的模型翻來(lái)覆去就那么幾個(gè)，比如決策樹(shù)，邏輯回歸，梯度提升樹(shù)，k-means等。一般來(lái)講，比較有代表性的兩個(gè)模型是邏輯回歸和決策樹(shù)，可以預(yù)測(cè)“是否會(huì)幸存”。其他的模型只是內(nèi)部原理不同，但使用方法都是一樣的。大家在進(jìn)行數(shù)據(jù)挖掘的時(shí)候，也可以選擇若干模型，最后看看結(jié)果分別都怎么樣，對(duì)比一下誰(shuí)比較強(qiáng)。

以上就是關(guān)于從數(shù)據(jù)收集到數(shù)據(jù)模型要怎么做的全部?jī)?nèi)容，想了解更多關(guān)于大數(shù)據(jù)的信息，請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。