兩種人口比例差異的置信區(qū)間

置信區(qū)間是推論統(tǒng)計(jì)的一部分。本主題背后的基本思想是使用統(tǒng)計(jì)樣本估計(jì)未知總體參數(shù)的值。我們不僅可以估計(jì)參數(shù)的值,但我們也可以調(diào)整我們的方法來估計(jì)兩個(gè)相關(guān)參數(shù)之間的差異。例如,我們可能希望找到支持特定立法的美國男性**人口與女性**人口相比所占百分比的差異。

我們將通過為兩個(gè)人口比例的差異構(gòu)建置信區(qū)間來看到如何進(jìn)行這種類型的計(jì)算。在此過程中,我們將研究此計(jì)算背后的一些理論。我們將看到在如何構(gòu)建置信區(qū)間方面的一些相似之處對(duì)于單一人口比例以及信心兩種人口均值差的區(qū)間。

通用性

在查看我們將使用的特定公式之前,讓我們考慮這種類型的置信區(qū)間所適合的總體框架。我們將看到的置信區(qū)間類型的形式由下式給出:

估計(jì)+/-誤差范圍

許多置信區(qū)間都是這種類型的。我們需要計(jì)算兩個(gè)數(shù)字。這些值中的第一個(gè)是參數(shù)的估計(jì)值。第二個(gè)值是誤差幅度。這個(gè)誤差幅度說明了我們確實(shí)有一個(gè)估計(jì)值。置信區(qū)間為我們提供了一系列未知參數(shù)的可能值。

Conditions

在進(jìn)行任何計(jì)算之前,我們應(yīng)該確保滿足所有條件。要找到兩個(gè)人口比例差異的置信區(qū)間,我們需要確保以下內(nèi)容成立:

    我們有兩個(gè)來自大量人口的簡單隨機(jī)樣本這里"大"意味著人口至少比樣本大小大20倍。樣本容量用35 n 36和37 n 38表示。我們的個(gè)人是彼此獨(dú)立選擇的。我們每個(gè)樣本至少有十個(gè)成功和十個(gè)失敗。43

如果列表中的**一項(xiàng)不滿足,那么可能有一種方法可以解決這個(gè)問題。我們可以修改正四置信區(qū)間構(gòu)造并獲得穩(wěn)健的結(jié)果。隨著我們前進(jìn),我們假設(shè)所有上述條件都已滿足。

樣本和人口比例

現(xiàn)在我們準(zhǔn)備好構(gòu)建我們的置信區(qū)間。我們從估計(jì)人口比例之間的差異開始。這兩個(gè)人口比例都是通過樣本比例來估計(jì)的。這些樣本比例是通過將每個(gè)樣本中的成功次數(shù)除以相應(yīng)樣本大小而找到的統(tǒng)計(jì)數(shù)據(jù)。

第一個(gè)種群比例用60 p 61表示。如果我們從這個(gè)種群中獲得的成功數(shù)是62 k 63,那么我們的樣本比例就是64 k 65 66/n 67

我們用p?表示這個(gè)統(tǒng)計(jì)量。我們把這個(gè)符號(hào)讀為"p-hat"因?yàn)樗雌饋硐耥敳坑忻弊拥姆?hào)p。

以類似的方式,我們可以計(jì)算第二個(gè)種群的樣本比例,這個(gè)種群的參數(shù)是76 p 77,如果我們從這個(gè)種群的樣本中獲得成功的數(shù)量是78 k 79,我們的樣本比例是p 80 k 81 82/n 83

這兩個(gè)統(tǒng)計(jì)數(shù)據(jù)成為我們置信區(qū)間的第一部分。p的估計(jì)值為p?。p的估計(jì)值為p?,因此差異p-p的估計(jì)值為p?-p?

樣本比例差異的抽樣分布

氖xt我們需要獲得誤差裕度的公式。為此,我們將首先考慮p?的采樣分布。這是一個(gè)二項(xiàng)分布,成功概率pn試驗(yàn)。這種分布的平均值是比例p。這種隨機(jī)變量的標(biāo)準(zhǔn)差方差p(1-p)/n

p?的抽樣分布與p?的抽樣分布相似。簡單地將所有指數(shù)從1變?yōu)?,我們有一個(gè)二項(xiàng)式分布,均值方差p(1-p)/n

為了確定p?-p?的抽樣分布,我們現(xiàn)在需要數(shù)學(xué)統(tǒng)計(jì)的一些結(jié)果。該分布的平均值為p-p。由于方差加在一起,我們看到采樣分布的方差是p(1-p)/n+p(1-p)/n分布的標(biāo)準(zhǔn)偏差是這個(gè)公式的平方根。

我們需要做一些調(diào)整。首先,p?-p?的標(biāo)準(zhǔn)差公式使用pp的未知參數(shù)。當(dāng)然,如果我們真的知道這些值,那么這根本不是一個(gè)有趣的統(tǒng)計(jì)問題。我們不需要估計(jì)pp之間的差異,而是可以簡單地計(jì)算出確切的差異。

這個(gè)問題可以通過計(jì)算標(biāo)準(zhǔn)誤差而不是標(biāo)準(zhǔn)偏差來解決。我們需要做的就是用樣本比例代替總體比例。標(biāo)準(zhǔn)誤差是根據(jù)統(tǒng)計(jì)而不是參數(shù)計(jì)算出來的。標(biāo)準(zhǔn)誤差是有用的,因?yàn)樗行У毓烙?jì)了標(biāo)準(zhǔn)偏差。這對(duì)我們來說意味著我們不再需要知道參數(shù)pp。。由于這些樣本比例是已知的,因此標(biāo)準(zhǔn)誤差由以下表達(dá)式的平方根給出:

p?(1-p?)/n+p?(1-p?)/n

我們需要解決的第二個(gè)問題是我們的抽樣分布的特定形式。事實(shí)證明,我們可以使用正態(tài)分布來近似p?-p?的抽樣分布。其原因有些技術(shù)性,但概述如下一段。

元旦小知識(shí)

p?和p?都具有二項(xiàng)式的抽樣分布。這些二項(xiàng)式分布中的每一個(gè)都可以通過正態(tài)分布很好地近似。因此p?-p?是一個(gè)隨機(jī)變量。它被形成為兩個(gè)隨機(jī)變量的線性組合。這些都是通過正態(tài)分布來近似的。因此抽樣p?-p?的分布也是正態(tài)分布的。

置信區(qū)間公式

估計(jì)值是(p?-p?),誤差范圍是z*[p?(1-p?)/n+p?(1-p?)/n]0.5。我們輸入z*的值取決于置信水平C.204>z*的常用值是1 1-p?(1-p?)/n]0.5。我們輸入z*201>的值取決于置信水平C.零點(diǎn)**五對(duì)于90%置信度和1.96對(duì)于95%置信度。z*的這些值表示標(biāo)準(zhǔn)正態(tài)分布的部分,其中恰好C分布的百分比在-z之間*z**

以下公式為我們提供了兩個(gè)人口比例差異的置信區(qū)間:

(p?-p?)+/-z*[p?(1-p?)/n+p?(1-p?)/n]0.5

311