發(fā)布時間:2026-01-22閱讀( 8)

最早接觸pearson相關系數(shù)時,是在大學《概率論與數(shù)理統(tǒng)計》課本中,后來從事數(shù)據(jù)分析挖掘相關的工作,經(jīng)常會用到評價兩組數(shù)據(jù)之間的相關性,于是找到了皮爾森(pearson)相關系數(shù)。其實,還有一種相關系數(shù)斯皮爾曼(spearman)相關系數(shù),肯德爾(kendall)相關系數(shù)。
在這三大相關系數(shù)中,spearman和kendall屬于等級相關系數(shù)亦稱為"秩相關系數(shù)",是反映等級相關程度的統(tǒng)計分析指標。今天先不介紹。
今天先聊一下比較常用的pearson相關系數(shù)。
用數(shù)學公式表示,皮爾森相關系數(shù)等于兩個變量的協(xié)方差除于兩個變量的標準差,先看一下公式:

pearson是一個介于-1和1之間的值,用來描述兩組線性的數(shù)據(jù)一同變化移動的趨勢。
當兩個變量的線性關系增強時,相關系數(shù)趨于1或-1;
當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數(shù)大于0;
如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數(shù)小于0;
如果相關系數(shù)等于0,表明它們之間不存在線性相關關系。
pearson相關系數(shù)在python中的實現(xiàn):

1,numpy庫中實現(xiàn):

相關系數(shù)的對角矩陣
2,在scipy中實現(xiàn),主要是在stats包中實現(xiàn)

得到的結果是一個元組,第一個元素是相關系數(shù),第二個是P值,p-value越小,表示相關程度越顯著。
3,在pandas中運用,日常處理數(shù)據(jù)都是用pandas,這個當然少不了嘍

得到的也是一個相關系數(shù)數(shù)據(jù)
皮爾遜相關系數(shù)的適用范圍:
當兩個變量的標準差都不為零時,相關系數(shù)才有定義,皮爾遜相關系數(shù)適用于:
1. 兩個變量之間是線性關系,都是連續(xù)數(shù)據(jù)。
2. 兩個變量的總體是正態(tài)分布,或接近正態(tài)的單峰分布。
3. 兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖