侵權(quán)投訴
訂閱
糾錯
加入自媒體

技術(shù)文章:計量資料的統(tǒng)計描述

2020-12-30 09:02
科研菌
關(guān)注


圖3:101名正常人血清肌紅蛋白的頻數(shù)分布直方圖

根據(jù)表1的資料,以各組段紅細胞含量為橫坐標,人數(shù)(頻數(shù))為縱坐標可繪制頻數(shù)分布直方圖,如圖1。圖2、圖3也是根據(jù)相應的頻數(shù)分布表繪制而成,我們可以更為形象和直觀的發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律。

3、頻數(shù)表和頻數(shù)分布圖的用途——發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律

3.1 描述頻數(shù)分布的類型    頻數(shù)分布的類型可分為對稱分布和偏態(tài)分布兩種。若各組段的頻數(shù)以頻數(shù)最多組段為中心左右兩側(cè)大體對稱,則認為該資料是對稱分布(表1及圖1);反之,則認為是偏態(tài)分布(圖2、圖3)。圖2頻數(shù)最多組段(21~)右側(cè)的組段數(shù)多于左側(cè)的組段數(shù),頻數(shù)向右側(cè)拖尾,稱右偏態(tài)分布(skewed to the right distribution)也稱正偏態(tài)分布(positive skewness distribution)。圖3頻數(shù)最多組段(30~ )左側(cè)的組段數(shù)多于右側(cè)的組段數(shù),頻數(shù)向左側(cè)拖尾,稱左偏態(tài)分布(skewed to the left distribution),也稱負偏態(tài)分布(negative skewness distribution)。

3.2 描述頻數(shù)分布的特征     如在圖2中,我們可以發(fā)現(xiàn)主要的2點特征:①數(shù)據(jù)變異的范圍在0~45mmol/L之間;②有一定的規(guī)律,數(shù)據(jù)主要集中在20~30組段之間。數(shù)值較大的值多于數(shù)值較小的值,左右分布并不對稱。

3.3 頻數(shù)分布表可用發(fā)小一些異常值,如特別小的值或特別大的值。

3.4 頻數(shù)分布表可用于發(fā)現(xiàn)數(shù)據(jù)分布規(guī)律,便于做進一步統(tǒng)計分析和處理

二、 計量資料的集中趨勢

(1)均數(shù)(算術(shù)均數(shù)、幾何均數(shù))算數(shù)均數(shù)(mean)    均值是一個平均數(shù),所以均值的計算方法是將一個分布中的所有取值加總起來除以取值的個數(shù)。如果一個分布中有10個取值,那么將所有取值加起來之后再除以10即可。可以利用原始數(shù)據(jù)進行計算,也可以利用頻數(shù)分布表進行計算,但是其中的原理都是一樣的,即計量資料中某一變量取值的總和除以個數(shù)。適用于資料符合正態(tài)分布的計量資料,公式可以表示如下:

幾何均數(shù)(geometric mean)    用于一組經(jīng)過對數(shù)轉(zhuǎn)換后成對稱分布的變量值在數(shù)量上的平均水平,在醫(yī)學上常見的是免疫學的指標,其計算公式為:

例1,某地5例微絲蚴血癥患者治療7年后用間接受光抗體試驗測得其抗體滴度倒數(shù)分別為10、20、40、40、16,求幾何均數(shù)。

故5份血清抗體效價的平均滴度為1:34.8。

對于頻數(shù)表資料,幾何均數(shù)的計算公式為:

(2) 中位數(shù)與百分位數(shù)中位數(shù)     中位數(shù)(median)是將n個變量值從小到大排列,位置居于中間的那個數(shù)。當n為奇數(shù)時取位次居中的變量值,當n為偶數(shù)時取位次居中的兩個變量值的均數(shù)。它適用于各種分布類型的資料,尤其是偏態(tài)分布資料和一端或兩端無確切數(shù)值的資料。其計算公式為:

例3:試計算表2某醫(yī)院1123名產(chǎn)后出血孕婦人工流產(chǎn)次數(shù)的中位數(shù)。對于離散型變量資料,因為n= 1123,故中位數(shù)是從小到大排序后居于(n+ 1)/2=(1123+ 1)/2= 562位的觀察值。據(jù)表2,排在第 1~402 位的觀察值均為“0”,其累計頻率為35.80%;排在403 ~732位的觀察值"1”,其累計頻率為65.18%,余類推。第562位數(shù)屬于第二個變量值,即人流次數(shù)為“1”,故某醫(yī)院1123名產(chǎn)后出血孕婦人工流產(chǎn)次數(shù)的中位數(shù)為M=X(562) =1 。

百分位數(shù)     百分位數(shù)(percentile),是一種位置指標, 用Px來表示,讀作第x百分位數(shù)。一個百分位數(shù) Px將全部變量值分為兩部分,在Px處若無相同變量值,則在不包含Px的全部變量值中有x%的變量值小于它,(100-x%)變量值大于它。故百分位數(shù)是一個界值,其最重要用途是用來確定醫(yī)學參考值范圍(reference range),后面我們會談到。中位數(shù)實際上是第50百分位數(shù),是百分位數(shù)中的一個特殊值。

例4:對某醫(yī)院細菌性痢疾治愈者的住院天數(shù)統(tǒng)計,119名患者的住院天數(shù)從小到大的排列如下,試求第5百分位數(shù)和第99百分位數(shù);颊撸1 2 3 4 5 6 7 8…116 117 118 119住院天數(shù):1 1 2 2 2 3 4 4 5…39 40 40 42(119+1)x5%=6,故P(5)=X(6)=3(天)(119+1)x 99%=118.8, 故P(99)在118位和119位之間,通過對應的公式計算出為41.6(天),詳細的計算公式我就不列出來了,因為現(xiàn)在都不會手動計算啦,我們掌握它的應用和意義更為重要。故我們解讀一下這里涉及的P(5)和P(99)的意義:P(5)的意義是該醫(yī)院有5%的細菌性痢疾治愈者的住院天數(shù)少于3天,或者說有95%的細菌性痢疾治愈者的住院天數(shù)多于3天。P(99)的意義是絕大多數(shù)(99%)細菌性痢疾治愈者的住院天數(shù)少于41.6天。

利用頻數(shù)分布表計算百分位數(shù):例5: 某地118名鏈球菌咽喉炎患者的潛伏期頻數(shù)表見表3第(1)、(2)欄,求中位數(shù)及第25位、第75位百分位數(shù)。

中位數(shù)對應的累計頻率是50%,對表中第(4)欄從上到下讀累計頻率,小于48天的累計頻率為44.9%,小于60天的累計頻率為65.3,故中位數(shù)所在組段為“48~”,n= 118(樣本總量),L50 = 48(P50所在組段的下界),i50= 12(組間距),f50=24(P50所在組段的樣本量), L =53(P50前一組段的累積頻數(shù)),帶入計算公式得:M=P50=48+12/24(118x50%-53)=51(天)

同樣的計算原理,我們可以計算出P25和P75:P25=36+12/32(118x25%-21)=39.2(天)P75= 60+12/18(118x75%-77)=67.7(天)

對于離散變量的頻數(shù)表資料,第X百分位數(shù)為Px所在變量值處的變量值,如對表2資料有P95=3;若每個組有幾個變量值,則必須根據(jù)原始數(shù)據(jù)用直接法求Px。

眾數(shù)     眾數(shù)(mode)是使用最少的集中趨勢指標,因為它提供的信息量最少。眾數(shù)只是指出分布中最常出現(xiàn)的取值,或者具有最高頻數(shù)的取值。

三、 計量資料的離散趨勢

離散(dispersion)趨勢指的是計量資料所有變量值偏離中心位置的程度,要全面刻畫一組數(shù)據(jù)(變量值)的數(shù)量特征,除計算平均指標外,還必須計算反映離散程度的指標。描述離散程度的常用指標有極差、四分位數(shù)間距、方差、標準差和變異系數(shù)。

極差(Range)

如前所述,極差即一組變量值的最大值與最小值之差。極差計算簡便,概念清晰,因而應用比較廣泛,如說明傳染病、食物中毒的最長、最短潛伏期等.

例6:試計算下面三組同齡男孩的身高(cm)均數(shù)和極差。甲組:90 95 100 105 110   乙組:96 98 100 102 104   丙組:96 99 100 101 104  計算得出:

比較以上三組數(shù)據(jù)發(fā)現(xiàn),雖然三組均數(shù)相等,但極差卻不盡相間,甲組5個兒童身高差異20 cm,乙組和丙組只有8 cm。我們可以很容易的得出結(jié)論,若僅比較三組的均數(shù),而不比較個體差異的大小,不能全面反映三組兒童身高。

用極差來描述數(shù)據(jù)的變異程度并不全面。僅能反映最大值與最小值的差值,而不論其他數(shù)值的情況。

四分位數(shù)間距

四分位數(shù)(quartile)是把全部變量值分為四部分的分位數(shù),即第1四分位數(shù)(QL=P25)、第2四分位數(shù)(M=P50)、第3四分位數(shù)(QU=P75)。四分位數(shù)間距(quartile range)是由第3四分位數(shù)和第1四分位數(shù)相減而得,記為QR。它一般和中位數(shù)起描述偏態(tài)分布資料的分布特征。

方差與標準差

方差(variance)也稱均方差(mean square deviation),反映組數(shù)據(jù)的平均離散水平。離均差平方和除以N得到了方差,總體方差用σ2。常與均數(shù)一起描述正態(tài)分布資料的分布特征。其計算公式如下:

例7:續(xù)例6,試計算下面三組同齡男孩的身高(cm)標準差。甲組:90 95 100 105 110   乙組:96 98 100 102 104  丙組:96 99 100 101 104  帶入公式得:S甲=7.9cm,S乙=3.2cm,S丙=2.9cm由于丙組的標準差較小,說明組間變異程度較小,故可以認為其均數(shù)的代表性較其他組要好。

變異系數(shù)

變異系數(shù)(Coefficient of variation)記為CV,多用于觀察指標單位不同時,如身高與體重的變異程度的比較;或均數(shù)相差較大時,如兒童身高與成人身高變異程度的比較。其計算公式為:

例8:某地7歲男孩身高的均數(shù)為123.10 cm,標準差為4.71 cm;體重均數(shù)為22.92 kg,標準差為2.26kg。此處不能因為4.71>2.26,就說身高的變異比體重要大,而要考慮到兩者的單位不同,無法直接比較,故采用變異系數(shù)來解決這類問題,它實質(zhì)上是一個相對變異指標,無單位。上述7歲男孩身高、體重的變異系數(shù)分別為:

通過比較,說明該地7歲男孩體重的變異大于身高的變異,或者說身高比體重的變異小。

總結(jié):在這一小節(jié)中,我們詳細的談及了描述計量資料集中趨勢和離散趨勢的指標。也談到了它們的應用場所,總結(jié)起來就是“正態(tài)分布資料:均值±標準差;偏態(tài)分布資料:中位數(shù),四分位數(shù)間距”,在以后的學習中,我們看到文獻中的圖表,看到其描述的方式,就應該迅速在腦海里反映出其對應的資料的分布情況;反之亦然,見到不同分布的資料,我們應該知道用那些指標對其進行描述。

如上圖文獻[Prevalence and related factors of chronic kidney disease (CKD) among long-lived individuals (LLI) over 95 years of age]中的表1,我們可以看到連續(xù)型變量使用(均數(shù)±標準差)的形式進行統(tǒng)計描述;而分類變量使用的是構(gòu)成比的形式進行描述。因為在實際工作和生活中,偏態(tài)分布的例子極少,而作者研究中僅用連續(xù)變量和分類變量區(qū)分變量類型,故未展示(中位數(shù),四分位間距)這一表現(xiàn)形式。

參考資料:

1.人民衛(wèi)生出版社《醫(yī)學統(tǒng)計學》第4版  孫振球 徐勇勇 著2.中國人民大學出版社《白話統(tǒng)計學》第3版   蒂莫西.C.厄丹(Timothy C.Urdan)著,彭志文譯3.Zujun et al.,2015,Prevalence and related factors of chronic kidney disease (CKD) among long-lived individuals (LLI) over 95 years of age,Archives of Gerontology and Getratrics,Volume 60,Issue2,March–April 2015, Pages 354-358  

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號