久久综合九色综合97婷婷-美女视频黄频a免费-精品日本一区二区三区在线观看-日韩中文无码有码免费视频-亚洲中文字幕无码专区-扒开双腿疯狂进出爽爽爽动态照片-国产乱理伦片在线观看夜-高清极品美女毛茸茸-欧美寡妇性猛交XXX-国产亚洲精品99在线播放-日韩美女毛片又爽又大毛片,99久久久无码国产精品9,国产成a人片在线观看视频下载,欧美疯狂xxxx吞精视频

有趣生活

當前位置:首頁>職場>數據分析的五個陷阱(數據產品經理必修課)

數據分析的五個陷阱(數據產品經理必修課)

發布時間:2024-01-24閱讀(11)

導讀離散化是什么意思?我們首先要理解“化”這個字的內在含義。舉個詞語“擬人化”,這是什么意思?其意思就是把什么變成人的樣子,所以我們可以總結出這樣的一個模式,即....

數據分析的五個陷阱(數據產品經理必修課)(1)

離散化是什么意思?我們首先要理解“化”這個字的內在含義。舉個詞語“擬人化”,這是什么意思?其意思就是把什么變成人的樣子,所以我們可以總結出這樣的一個模式,即“XX化”就是“把某物變成XX的樣子”。套用剛才的舉例,離散化就是把數據這個事物變成離散的樣子。

那么究竟怎么理解離散呢?不妨讓我們看一個例子,請大家思考,年齡到底算不算離散?我們人年齡的取值可以是從0歲一直到100多歲,而且幾乎取的是整數,從某種意義上來看中間并非是連續的,因為很多小數部分都是沒有辦法取到的,因而你可以說它是離散的。但是如果我們根據人的年齡把人分為幼兒、青年、中年、老年這樣四個階段,那么年齡的具體數值看起來就是應該更加連續,或者至少我們可以說它沒有那四個階段離散。因而這個時候我們把年齡又看成是連續的。由此可知,連續和離散完全取決于我們站在什么樣的粒度上,除了一切沒有基本爭議點的數據離散或者連續屬性外,我們可以采取這種一事一議的方式來判斷究竟一系列數據到底是離散的還是連續的。

離散化總共有四種形式,下面分別介紹。

  • 簡單離散:剛才舉例中將年齡離散成幼兒、青年、中年與老年的例子就是簡單離散。

  • 分桶后平滑:所謂分桶就是先根據數據的情況設置一些閾值,譬如說收入有1k, 2k, 3k, ..., 10k,我們就可以劃分為桶1(1k~3k),桶2(3k~5k),桶3(5k~7k),桶4(7k~9k),桶5(9k )。這樣原來的十個收入數據就會落到5個桶中,在每個桶中可以分別使用平均數、中位數以及邊界值來替代桶中所有的數值,這三種方式分別稱為平均平滑、中值平滑以及邊界值平滑。當然一般來說,我們使用平均平滑較多。

  • 聚類離散:所謂聚類離散就是把相同、相似以及相近的數據進行聚合,過程中采用的是聚類的算法,對每一簇進行命名后就是離散的結果了。

  • 回歸平滑:所謂回歸平滑是對兩個變量有相關性的,可以擬合后,用擬合線上的數值代替原來數值,這本質上是進行數據噪聲的處理。當然很多人也會問,這和數據離散有什么關系呢?確實,直觀上這和數據離散沒有關系,但是進行回歸平滑后的數據已經天然的具備了線性條件,因而可以使用非常明確的邊界值對其進行劃分成兩個或者多個。因而讓我們姑且也將其放入離散化的行列吧。

,

歡迎分享轉載→http://www.avcorse.com/read-222106.html

Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖