統(tǒng)計數(shù)據(jù)有什么偏斜?

一些數(shù)據(jù)分布,如鐘形曲線或正態(tài)分布,洗護(hù)小知識是對稱的。這意味著分布的右側(cè)和左側(cè)是彼此完美的鏡像。并非每個數(shù)據(jù)分布都是對稱的。非對稱的數(shù)據(jù)集被認(rèn)為是不對稱的。分布不對稱的度量稱為偏度。

平均值,中位數(shù)和模式都是一組數(shù)據(jù)中心的度量。數(shù)據(jù)的偏度可以通過這些數(shù)量如何相互關(guān)聯(lián)來確定。

斜向右

向右傾斜的數(shù)據(jù)有一條長尾,向右延伸。談?wù)撈蛴覀?cè)的數(shù)據(jù)集的另一種方式是說它是正偏斜的。在這種情況下,平均值和中位數(shù)都大于模式。一般來說,大部分時間數(shù)據(jù)偏向右側(cè),平均值將大于中位數(shù)??傊?,對于向右傾斜的數(shù)據(jù)集:

  • 總是:平均值大于模式
  • 總是:中位數(shù)大于模式
  • 大多數(shù)時間:平均值大于中位數(shù)

向左傾斜

當(dāng)我們處理向左傾斜的數(shù)據(jù)時,情況會逆轉(zhuǎn)。偏向左側(cè)的數(shù)據(jù)具有延伸至左側(cè)的長尾。談?wù)撈蜃髠?cè)的數(shù)據(jù)集的另一種方式是說它是負(fù)偏斜的。在這種情況下,平均值和中位數(shù)都小于模式。一般來說,大部分時間數(shù)據(jù)偏向左側(cè),平均值將小于中位數(shù)??傊?,對于偏向左側(cè)的數(shù)據(jù)集:

  • 總是:平均值小于模式
  • 總是:中位數(shù)小于模式
  • 大多數(shù)時間:平均值小于中位數(shù)

偏度測量

查看兩組數(shù)據(jù)并確定一組數(shù)據(jù)是一件事對稱,而另一個是不對稱的。這是另一組查看兩組不對稱數(shù)據(jù),并說一組比另一組更偏斜。通過簡單地查看分布圖來確定哪個更偏斜可能是非常主觀的。這就是為什么有辦法數(shù)值計算偏度的度量。

一種稱為Pearson第一偏度系數(shù)的偏度度量是從模式中減去平均值,然后將此差異除以數(shù)據(jù)的標(biāo)準(zhǔn)偏差。劃分差異的原因是我們有一個無量綱的數(shù)量。這解釋了為什么偏向右側(cè)的數(shù)據(jù)具有正偏斜。如果數(shù)據(jù)集向右傾斜,則平均值大于模式,因此從平均值中減去模式給出正數(shù)。類似的論點解釋了為什么偏向左側(cè)的數(shù)據(jù)具有負(fù)偏斜。

皮爾遜的第二偏度系數(shù)也用于測量數(shù)據(jù)集的不對稱性。對于這個數(shù)量,我們從中位數(shù)中減去模式,將這個數(shù)字乘以3,然后除以標(biāo)準(zhǔn)差。

偏斜數(shù)據(jù)的應(yīng)用

在各種情況下,偏斜的數(shù)據(jù)都會自然產(chǎn)生。收入偏向右側(cè),因為即使只有少數(shù)幾個收入數(shù)百萬美元的人也會極大地影響平均值,并且沒有負(fù)收入。同樣,涉及產(chǎn)品壽命的數(shù)據(jù)(如品牌燈泡)向右傾斜。在這里,壽命可以最小的是零,而持久的燈泡會給數(shù)據(jù)帶來正偏差。

教育_1