Lâm sàng thống kê - Phân phối chuẩn

Trước một “rừng” con số như thế, chúng ta phải làm gì? Câu hỏi đó còn tùy

thuốc vào mục đích của nghiên cứu. Nhưng ở đây, chúng ta muốn mô tả chiều cao và

huyết áp của 100 đối tượng. Trong văn chương, “mô tả” có nghĩa là dùng từ ngữ để nói

đến những khía cạnh của một sự kiện mà trong tiếng Anh nó tóm gọn trong những chữ

cái W: what (sự kiện gì), when (xảy ra ở đâu), where (xảy ra lúc nào), và khó hơn chút là

why (tại sao sự kiện xảy ra). Trong khoa học, chúng ta cũng mô tả sự kiện với những

khía cạnh đó, nhưng chúng ta sử dụng cả từ ngữ và con số. Vì mô tả bằng con số, chúng

ta cần hỏi thêm những câu hỏi như “bao nhiêu” (how many hay how much) như: chiều

cao thấp nhất và cao nhất là bao nhiêu, chiều cao trung bình bao nhiêu, độ dao động cao

thấp bao nhiêu, v.v

pdf16 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: yen2110 | Lượt xem: 572 | Lượt tải: 0download
Tóm tắt nội dung Lâm sàng thống kê - Phân phối chuẩn, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
ẽ trở thành: 
( ) ( )
20.5
2
zb b
a a
eP a z b f z dz dz
pi
−
< < = =∫ ∫ [5] 
Biểu đồ 4 dưới đây minh họa cho phân phối chiều cao tính bằng cm và bằng chỉ số z: 
140 150 160 170 180 190
0.
00
0.
01
0.
02
0.
03
0.
04
0.
05
0.
06
Probability distribution of height in Vietnamese men
Height
Pr
o
ba
bi
lit
y
Biểu đồ 4a. Mật độ xác suất chiều cao ở đàn ông Việt Nam, mô tả bằng 
cm. 
Chương trình huấn luyện y khoa – YKHOA.NET Training – Nguyễn Văn Tuấn 11 
-4 -2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
Probability distribution of z height in Vietnamese men
Z score
Pr
o
ba
bi
lit
y
P(-1.645 < z < 1.645) = 0.9
P(-1.96 < z < 1.96) = 0.95
P(-2.576 < z < 2.576) = 0.99
Biểu đồ 4b. Mật độ xác suất của phân phối chuẩn f(z), với trung bình 0 và 
độ lệch chuẩn 1. 
 Cố nhiên, diện tích dưới đường biểu diễn của hàm số f(z) trong Biểu đồ 4b phải là 
khoảng 1. Nói cách khác, ( ) ( )4
4
4 4 1P z f z dz
−
− < < = ∫ ; . Ngoài ra, phân phối chuẩn 
như mô tả qua Biểu đồ 4b còn hàm chứa một số thông tin có ích và thú vị: 
• Xác suất mà z ≤ 1.96 là 0.025 (tức 2.5%). Nói cách khác, diện tích dưới đường 
biểu diễn tính từ z = -1.96 hay thấp hơn là 0.025. 
• Bởi vì phân phối chuẩn cân đối (symmetric), chúng ta cũng có thể nói (hay suy 
luận) rằng xác suất mà z ≥ 1.96 cũng bằng 0.025. 
• Như vậy, xác suất mà z nằm trong khoảng -1.96 và 1.96 là 1–0.025–0.025 = 0.95 
(hay 95%). Nói cách khác, khoảng tin cậy 95% của z là -1.96 đến 1.96. 
• Tương tự, chúng ta cũng có thể phát biểu (và bạn đọc có thể tự mình kiểm chứng) 
rằng xác suất mà z nằm trong khoảng -1.645 đến 1.645 là 90%. Xác suất mà z 
nằm trong khoảng -2.576 đến 2.576 là 99%. Xác suất mà z nằm trong khoảng -
3.09 đến 3.09 là 99.9%. 
Chương trình huấn luyện y khoa – YKHOA.NET Training – Nguyễn Văn Tuấn 12 
Đến đây, chúng ta đã thấy hằng số 1.96, 1.64 hay 3.0 xuất phát từ đâu! Các hằng 
số này chẳng có gì bí mật cả: chúng là chỉ số z của phân phối chuẩn. Bảng sau đây sẽ 
cung cấp một số xác suất cho các chỉ số z thông dụng trong thống kê học và ứng dụng 
trong y khoa: 
Bảng 2. Xác suất các giá trị z 
z -3.090 -2.326 -1.96 -1.645 -1.282 0 1.282 1.96 2.326 3.090 
P(Z≤z) 0.001 0.01 0.025 0.05 0.10 0.50 0.90 0.975 0.99 0.999 
III. Khoảng tin cậy 95% 
Bây giờ chúng ta sẽ điểm qua vài ứng dụng luật phân phối chuẩn trong y khoa. 
Vì có quá nhiều ứng dụng, nên tôi chỉ tập trung vào những vấn đề liên quan đến những 
bài giảng của tôi, và một vấn đề mà chúng ta hay thấy là ước tính khoảng tin cậy 95% 
(thuật ngữ tiếng Anh là 95% confidence interval hay có khi còn viết là 95% confidence 
limit, thậm chí 95% credible interval). 
 Trong nhiều nghiên cứu y học mang tính mô tả, chúng ta thường muốn phát triển 
một các tham chiếu (reference range hay có khi gọi không chính xác là normal range). 
Chẳng hạn như để phát triển các giá trị tham chiếu cho một biến số sinh hóa như calcium 
trong máu, chúng ta có thể ngẫu nhiên chọn một số đối tượng và đo nồng độ calcium 
trong máu, và sau đó tính khoảng tin cậy 95%. Khoảng tin cậy 95% này chính là các giá 
trị tham chiếu. Nếu nồng độ calcium trong máu của một cá nhân nằm ngoài khoảng tin 
cậy 95% thì chúng ta có thể (xin nhấn mạnh: “có thể”) phát biểu rằng nồng độ của cá 
nhân này “bất bình thường”. 
 Để ước tính khoảng tin cậy 95% (KTC95%), chúng ta chú ý mối liên hệ giữa x và 
z trong công thức [3]; vì xz µ
σ
−
= , do đó: 
x zµ σ= + 
 Như đề cập trong phần trên, 95% giá trị của z nằm trong khoảng -1.96 đến +1.96, 
cho nên chúng ta cũng có thể nói rằng 95% giá trị của x nằm trong khoảng 1.96µ σ− và 
1.96µ σ+ . Hay nói ngắn gọn hơn, 95% các giá trị x nằm trong khoảng: 
1.96x µ σ= ± [6] 
Chương trình huấn luyện y khoa – YKHOA.NET Training – Nguyễn Văn Tuấn 13 
 Quay lại với ví dụ về chiều cao, chúng ta biết rằng số trung bình là 163.3 cm và 
độ lệch chuẩn là 6.6 cm. Do đó, chúng ta có thể suy luận rằng 95% đàn ông Việt Nam có 
chiều cao trong khoảng 163.3 ± 1.96×6.6 = 150.4 cm đến 176.2 cm. 
 Tất nhiên, chúng ta cũng có thể ước tính xác suất 99% chiều cao đàn ông Việt 
Nam nằm trong khoảng 163.3 ± 3×6.6 = 143.5 cm đến 183.1 cm. Do đó, nếu một đàn 
ông có chiều cao thấp hơn 143.5 cm, chúng ta có thể nói là “thấp”, với xác suất dưới 
0.5%! 
 Tùy theo vấn đề cụ thể, nhưng phần lớn các giá trị tham chiếu trong y khoa đều 
lấy khoảng tin cậy 95% làm chuẩn. Khi xác suất một chỉ số thống kê nằm ngoài khoảng 
tin cậy 95% được xem là “có ý nghĩa thống kê” (statistical significant). 
IV. Kết luận 
 Qua bài này, hi vọng tôi đã giải thích phân phối chuẩn là gì, và hằng số 1.96 trong 
cách tính khoảng tin cậy 95% xuất phát từ đâu. Phân phối chuẩn đóng một vai trò thiết 
yếu trong khoa học thống kê. Hầu hết tất cả các suy luận thống kê đều dựa vào luật phân 
phối chuẩn để phát triển các kiểm định thống kê (statistical tests). Ngay cả các luật phân 
phối nhị phân hay phân phối Poisson (mà tôi sẽ bàn đến trong một bài khác) cũng có thể 
mô hình bằng luật phân phối chuẩn. 
 Như là một qui luật tự nhiên, rất nhiều biến số lâm sàng và khoa học thực nghiệm 
nói chung đều tuân theo luật phân phối chuẩn. Cũng có thể có một số biến số sinh hóa 
không tuân theo luật phân phối chuẩn, nhưng có thể hoán chuyển để chúng tuân theo luật 
phân phối chuẩn. Do đó, các phương pháp phân tích tham số (parametric methods) vẫn 
có thể áp dụng cho các biến loại này. 
Chương trình huấn luyện y khoa – YKHOA.NET Training – Nguyễn Văn Tuấn 14 
Các mã R sử dụng trong bài viết: 
# Nhập dữ liệu về chiều cao và gọi biến là ht 
# nguồn: mô phỏng 
ht <- c( 
176.1, 176.0, 160.6, 158.4, 165.3, 158.0, 155.3, 164.2, 157.2, 159.0, 
167.7, 155.6, 165.1, 170.0, 167.4, 166.4, 162.3, 167.1, 154.0, 159.3, 
164.5, 171.5, 151.9, 166.0, 166.9, 162.0, 152.5, 147.6, 163.6, 163.5, 
172.2, 165.8, 172.4, 162.0, 149.6, 159.9, 157.0, 154.6, 162.3, 171.2, 
171.1, 162.0, 158.6, 164.4, 176.6, 159.5, 149.9, 164.0, 162.2, 162.0, 
167.3, 156.1, 162.5, 158.4, 156.8, 167.8, 168.7, 164.6, 170.6, 165.2, 
168.9, 166.2, 155.3, 157.9, 167.4, 171.8, 170.2, 178.7, 171.7, 171.5, 
164.0, 171.7, 162.7, 155.8, 161.4, 163.4, 148.3, 160.9, 156.1, 165.6, 
157.9, 166.8, 157.2, 158.8, 162.7, 157.1, 165.9, 162.7, 176.7, 172.1, 
157.0, 160.8, 165.2, 161.8, 163.8, 164.2, 174.7, 158.2, 162.3, 168.9) 
# Sắp xếp số liệu chiều cao từ thấp đến cao 
sort(ht) 
# Vẽ biểu đồ mật 1a 
hist(ht, breaks=10, 
 xlab="Height", main="Frequency distribution of height") 
# Vẽ biểu đồ mật 1b 
n <- length(ht) 
plot(sort(ht), (1:n)/n, 
 type="s", ylim=c(0,1), xlab="Height") 
plot(density(ht), main="Plot of density distribution of height", 
xlab="Height") 
# Tìm số trung bình và độ lệch chuẩn của chiều cao 
mean(ht) 
sd(ht) 
# Ước tính xác suất chiều cao = 160 cm với trung bình=163.3 và sd=6.6 
dnorm(160, mean=163.3, sd=6.6) 
# Ước tính xác suất cho bảng 1 
height <- seq(140, 181, 1) 
dnorm(height, mean=163.3, sd=6.6)*100 
# Vẽ biểu đồ 2 
Chương trình huấn luyện y khoa – YKHOA.NET Training – Nguyễn Văn Tuấn 15 
height <- seq(140, 190, 1) 
plot(height, dnorm(height, 163.3, 6.6), 
 type="l", 
 ylab=”Probability”, 
 xlab=”Height”, 
 main="Probability distribution of height in Vietnamese men") 
# Ước tính xác suất chiều cao < 150 cm, ( ) ( )149
0
150P X f x dx< = ∫ 
pnorm(149, mean=163.3, sd=6.6) 
# Vẽ biểu đồ 3 
height <- seq(140, 190, 1) 
dht <- dnorm(height, 163.3, 6.6) 
ht <- data.frame(z=height, ht=dht) 
zc <- 150 
plot(ht, 
 type="n", 
 ylab="Probability", 
 xlab="Height", 
 main="Probability distribution of height in Vietnamese men") 
t <- subset(ht, z<= zc) 
polygon(c(rev(t$z), t$z), 
 c(rep(0, nrow(t)), t$ht), col="lightblue", border=NA) 
lines(ht, lwd=2) 
arrows(148,0.01,148,0.002, angle=30, length=0.1) 
text(145,0.012, "P(X < 150) = 1.8%", cex=0.8) 
# Hoán chuyển sang z score và vẽ biểu đồ 4b 
zheight <- seq(-4, 4, 0.01) 
dzht <- dnorm(zheight, 0, 1) 
zht <- data.frame(z=zheight, ht=dzht) 
plot(zht, 
 type="n", 
 ylab="Probability", 
 xlab="Z score", 
 main="Probability distribution of z height in Vietnamese men") 
z1 <- 1.65 
z2 <- -1.65 
z3 <- 1.96 
z4 <- -1.96 
z5 <- 2.58 
z6 <- -2.58 
t1 = z1) 
polygon(c(rev(t1$z), t1$z), 
 c(rep(0, nrow(t1)), t1$ht), col="lightblue") 
Chương trình huấn luyện y khoa – YKHOA.NET Training – Nguyễn Văn Tuấn 16 
t2 <- subset(zht, z<= z2) 
polygon(c(rev(t2$z), t2$z), 
 c(rep(0, nrow(t2)), t2$ht), col="lightblue") 
t3 = z3) 
polygon(c(rev(t3$z), t3$z), 
 c(rep(0, nrow(t3)), t3$ht), col="lightpink") 
t4 <- subset(zht, z<= z4) 
polygon(c(rev(t4$z), t4$z), 
 c(rep(0, nrow(t4)), t4$ht), col="lightpink") 
t5 = z5) 
polygon(c(rev(t5$z), t5$z), 
 c(rep(0, nrow(t5)), t5$ht), col="lavender") 
t6 <- subset(zht, z<= z6) 
polygon(c(rev(t6$z), t6$z), 
 c(rep(0, nrow(t6)), t6$ht), col="lavender") 
lines(zht, lwd=2) 
arrows(-1.65,0.1,1.65,0.1, angle=30, length=0.1, code=3, lty=2) 
text(0,0.11, "P(-1.645 < z < 1.645) = 0.9", cex=0.8) 
arrows(-1.96,0.05,1.96,0.05, angle=30, length=0.1, code=3, lty=2) 
text(0,0.06, "P(-1.96 < z < 1.96) = 0.95", cex=0.8) 
arrows(-2.58,0.01,2.58,0.01, angle=30, length=0.1, code=3, lty=2) 
text(0,0.02, "P(-2.576 < z < 2.576) = 0.99", cex=0.8) 
# Cho bài tập : nhập số liệu huyết áp của 100 đối tượng 
# nguồn: nghiên cứu bệnh đái tháo đường TPHCM 2007. 
bp <- c( 
 90, 130, 120, 130, 100, 150, 100, 120, 100, 110, 
110, 170, 110, 110, 120, 110, 110, 120, 110, 85, 
110, 120, 120, 120, 110, 150, 120, 120, 120, 110, 
130, 150, 150, 110, 140, 140, 120, 110, 120, 110, 
150, 110, 120, 120, 130, 110, 110, 120, 120, 140, 
100, 130, 130, 130, 140, 100, 110, 110, 110, 120, 
130, 110, 130, 120, 150, 100, 120, 100, 120, 140, 
120, 100, 100, 110, 140, 125, 100, 140, 110, 120, 
120, 120, 150, 120, 110, 120, 150, 100, 110, 120, 
160, 110, 110, 120, 120, 150, 120, 130, 160, 90) 

File đính kèm:

  • pdflam_sang_thong_ke_phan_phoi_chuan.pdf