統(tǒng)計的基本概念與計算
學習目標
1掌握總體、個體、樣本及統(tǒng)計量的概念
2熟悉數(shù)據(jù)的整理方法
3掌握樣本均值、中位數(shù)的概念與計算
4掌握樣本極差、方差、標準差的概念與計算
一、總體和樣本
定義 1 從全部對象中按一定方式抽取一部分對象的過程叫抽樣。
要進行抽樣的原因:
1.違背研究的本來目的。
2.客觀上對全部對象進行觀測或檢驗是根本不可能的。
3.對全部對象進行檢測需要的成本很高,或者所需時間很長,或者兩者兼而有之。
4.雖然根據(jù)抽樣調查的數(shù)據(jù)來推斷整體的情況必定帶來誤差,但在很多情況下,誤差可以容忍。
定義 2 在統(tǒng)計學中,所考察對象的全體稱為總體,而把組成總體的每個基本元素稱為個體。
為了研究的方便,把所關心個體的某個數(shù)量指標稱為個體,而相應的個體的集合稱為總體,一般用隨機變量X表示總體。
直觀意義:
例如,一批燈泡是總體,其中的每個燈泡是個體;一個城市的人口是總體,這個城市的每個人是個體。
抽樣的意義
人們從總體中抽取樣本是為了認識總體。即從樣本推斷總體,如推斷總體是什么分布?總體均值為多少?總體的標準差是多少?為了使此種統(tǒng)計推斷有所依據(jù),推斷結果有效,由樣本獲得對總體的正確認識,需要對抽樣方法有一定的要求。
如為了了解女性所占的比例,不能專門到坦克部隊去取樣,也不能專門到紡織廠去取樣,而應當進行隨機抽樣。直觀地講就是抽樣時,每個個體被抽到的可能性相同。
設抽取個體的次數(shù)為 ,用 表示第i次試驗相應的隨機變量,則共有n個隨機變量,他們組成一個n維的隨機向量 ,一般把這個隨機向量 稱作總體X的樣本容量為n的樣本,而把對應的抽樣結果稱作樣本值,記為 。
定義 3記總體為X,總體的分布函數(shù)為 ,一個樣本容量為 的樣本 如果滿足以下兩個條件,則稱為簡單隨機樣本:
。1) 隨機性。 與 具有相同的分布函數(shù)
(2) 獨立性。 相互獨立。
以后,我們把簡單隨機樣本簡稱為樣本。
類似地,獲得簡單隨機樣本的抽樣方法稱為簡單隨機抽樣。
在實際抽樣時,也應按此要求從總體中進行抽樣。這樣獲得的樣本能夠很好地反映實際總體的狀態(tài)。兩個不同的總體,若是按隨機性和獨立性要求進行抽樣,則機會大的地方(概率密度值大〉被抽到樣本的個體就多;而機會少的地方(概率密度值小),被抽到樣本的個體就少。分布愈分散,樣本也就分散;分布愈集中,樣本也相對集中。
抽樣切忌受到干擾,特別是人為干擾。某些人為的傾向性會使所得樣本不是簡單隨機樣本,從而使最后的統(tǒng)計推斷失效。
統(tǒng)計學主要的任務
簡單地說,總體就是一個分布,不同總體有不同分布。統(tǒng)計學主要的任務就是:
研究總體是什么分布?
這個總體(分布)的均值、方差(或標準差)各是多少?
來源:考試大 例1 對某產品僅考察其合格與否,并記合格品為0,不合格品為1
分析:
總體={該產品的全體}={由0或1組成的一堆數(shù)}
若記1在總體中所占比例為P,則該總體可用如下二項分布b(1,P)(n=l的二項分布)表示:
X 0 1
P 1-P P
例2有兩個工廠生產同一產品,甲廠的不合格品率P=0.01,乙廠的不合格品率P=0.08,甲乙兩廠所生產的產品(即兩個總體)分別用如下兩個分布描述:
X甲 0 1
P 0.99 0.01
X乙 0 1
P 0.92 0.08
例3考察某橡膠件的抗張強度。它可用0到∞上的一個實數(shù)表示,這時總體可用區(qū)間[0,∞]上的一個概率分布表示。國內外橡膠業(yè)對其抗張強度有較多研究,認為橡膠件的抗張強度服從正態(tài)分布 ,該總體常稱為正態(tài)總體。
例4例如某型號電視機的壽命全體所構成的總體就是一個偏態(tài)分布。
又如兩個不同的正態(tài)總體混合也可以產生一個偏態(tài)總體。如將兩位不同的操作工(或在不同機器上,或用不同原料,或不同轉速等)生產的同一種零件混在一起,其質量特性常呈偏態(tài)分布,應該重視考察偏態(tài)分布產生的原因。
分析:用非對稱分布(即偏態(tài)分布)描述的總體也是常見的。