Bài giảng Xác suất thống kê - Chương 7: Kiểm định giả thuyết thống kê - Hoàng Văn Hà
Bài toán kiểm định giả thuyết thống kê. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Định nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Giả thuyết không và đối thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Cách đặt giả thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Miền bác bỏ - Tiêu chuẩn kiểm định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Sai lầm loại I và loại II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Sai lầm loại I và loại II - Nhận xét . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
p - giá trị (p - value) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Kiểm định giả thuyết cho trường hợp một mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Kiểm định giả thuyết cho kỳ vọngTH biết σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Kiểm định giả thuyết cho kỳ vọngTH không biết σ2, mẫu nhỏ . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Kiểm định giả thuyết cho kỳ vọngTH không biết σ2, mẫu lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Kiểm định giả thuyết cho kỳ vọngTH không biết σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Kiểm định giả thuyết cho kỳ vọngTH không biết σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Kiểm định giả thuyết cho kỳ vọngTH không biết σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Kiểm định giả thuyết cho tỷ lệ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Kiểm định giả thuyết cho tỷ lệ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
So sánh hai kỳ vọng, trường hợp biết phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
So sánh hai kỳ vọng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn . . . . . . . . . . . . . . . . . . . . . . . . . 52
So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu nhỏ . . . . . . . . . . . . . . . . . . . . . . . . 55
So sánh hai phương sai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 = σ22 = σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 6= σ22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
So sánh hai kỳ vọng, trường hợp không biết phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
So sánh hai tỷ lệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
So sánh hai tỷ lệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
So sánh hai mẫu không độc lập (paired t - test). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Kiểm định giả thuyết về phân phối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Kiểm định giả thuyết về phân phối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Kiểm định giả thuyết về tính độc lập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Kiểm định giả thuyết về tính độc lập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
n Goi µD = E(Di), bởi vì D1, . . . ,Dn là những biến ngẫu nhiên độc lập và có cùng phân phối, nếu d1, . . . , dn là những giá trị của D1, . . . ,Dn, ta định nghĩa d¯ = 1 n n∑ i=1 di (23) s2d = 1 n− 1 n∑ i=1 (di − d¯)2 = 1 n− 1 n∑ i=1 d2i − n n− 1(d¯) 2 (24) n Ta cần kiểm định các giả thuyết và đối thuyết sau (a) { H0 : µD = D0 H1 : µD 6= D0 (b) { H0 : µD = D0 H1 : µD < D0 (c) { H0 : µD = D0 H1 : µD > D0 71 So sánh hai mẫu không độc lập (paired t - test) Các bước kiểm định 1. Phát biểu giả thuyết H0 và đối thuyết H1 2. Xác định mức ý nghĩa α 3. Tính thống kê kiểm định T0 = D¯ −D0 SD/ √ n (25) thống kê T0 có phân phối Student với n− 1 bậc tự do. 4. Xác định miền bác bỏ 72 28 So sánh hai mẫu không độc lập (paired t - test) Miền bác bỏ và p - giá trị trong trường hợp này có dạng Đối thuyết Miền bác bỏ p - giá trị H1 : µD 6= D0 |t0| > tn−11−α/2 p = 2P(Tn−1 ≥ |t0|) H1 : µD < D0 t0 < −tn−11−α p = P(Tn−1 ≤ t0) H1 : µD > D0 t0 > t n−1 1−α p = P(Tn−1 ≥ t0) 5. Kết luận: Nếu bác bỏ H0, ta kết luận H1 đúng với (1− α) ∗ 100% độ tin cậy. Ngược lại kết luận chưa đủ cơ sở để bác bỏ H0. • Trường hợp cỡ mẫu n > 30, bài toán kiểm định hai mẫu phụ thuộc thực hiện tương tự như trường hợp một mẫu dựa trên mẫu ngẫu nhiên (D1, . . . ,Dn). 73 So sánh hai mẫu không độc lập Ví dụ 13. Một bác dinh dưỡng nghiên cứu một chế độ ăn kiêng và tập thể dục mới để làm giảm lượng đường trong máu của các bệnh nhân bị bệnh tiểu đường. 10 bệnh nhân bị bệnh tiểu đường được chọn để thử nghiệm chương trình này, bảng kết quả bên dưới cho biết lượng đường trong máu trước và sau khi các bệnh nhân tham gia chương trình Trước 268 225 252 192 307 228 246 298 231 185 Sau 106 186 223 110 203 101 211 176 194 203 Số liệu được cung cấp có đủ bằng chứng để kết luận rằng chế độ ăn kiêng và tập thể dục có tác dụng làm giảm lượng đường trong máu không? α = 0.05. 74 Kiểm định Chi bình phương (Goodness-of-Fit-test) 75 Kiểm định giả thuyết về phân phối • Bài toán: Khảo sát biến ngẫu nhiên X liên liên quan đến một tổng thể có phân phối chưa biết. Cần kiểm định xem phân phối của tổng thể có phải là F (x; θ) hay không? Chẳng hạn, ta cần kiểm định phân phối của tổng thể đang xét là phân phối chuẩn. 76 29 Kiểm định giả thuyết về phân phối Các bước kiểm định 1. Chọn mẫu ngẫu nhiên cỡ n: (X1, . . . ,Xn). Chia miền giá trị của các biến ngẫu nhiên Xi thành K khoảng không trùng nhau l1, l2, . . . , lK (Trường hợp X là biến ngẫu nhiên rời rạc, ta chia thành K điểm: x1, x2, . . . , xK). 2. Gọi Oj là số các giá trị mẫu nằm trong khoảng lj (j = 1, 2, . . . ,K) (Trường hợp X là biến ngẫu nhiên rời rạc là tần số lặp lại của giá trị xj). Oj gọi là các tần số thực nghiệm. 3. Phát biểu giả thuyết H0: X tuân theo luật phân phối F (x; θ). Khi đó, tính pj = P(X ∈ lj) (hoặc P(X = xj) nếu X rời rạc). Đặt Ej = npj, Ej gọi là các tần số lý thuyết. Điều kiện: Ej ≥ 5, j = 1, 2, . . . ,K. 77 Kiểm định giả thuyết về phân phối 4. Thống kê kiểm định Q2 cho bởi công thức Q2 = K∑ j=1 (Oj − Ej)2 Ej (26) Q2 xấp xỉ phân phối χ2 với K − 1 bậc tự do. 5. Bác bỏ H0 nếu Q2 ≥ χ2α,K−r−1 (27) với r là số tham số ước lượng. Tìm χ2α,K−r−1: tra bảng Chi - bình phương. 78 Kiểm định giả thuyết về phân phối Ví dụ 14. Bảng thống kê số vụ tai nạn xe máy/ngày ở quận 5 trong 80 ngày Số vụ tai nạn Số ngày 0 34 1 25 2 11 3 7 4 3 Với mức ý nghĩa 5%, hãy kiểm tra xem số vụ tai nạn xe máy hàng ngày có tuân theo luật phân phối Poisson hay không? 79 30 Kiểm định giả thuyết về phân phối 1. Gọi X = số vụ tai nạn xe máy/ngày ở Q.5; phát biểu giả thuyết H0 : X tuân theo luật phân phối Poisson với tham số λ 2. Tính các tần số thực lý thuyết Ej, j = 1, . . . , 5. Ej = npj = nP(X = xj). Nếu X ∼ P (λ), các xác suất pj được tính như sau pj = P(X = xj) = e−λλxj xj! Do λ chưa biết nên ta sử dụng ước lượng của λ là λˆ = 1 n 5∑ i=1 Oixi = 1 80 Kiểm định giả thuyết về phân phối 3. Xác suất và kết quả tính tần số lý thuyết cho ở bảng bên dưới pi = P(X = xi) Ei = npi p1 = e−110 0! = 0.368 29.44 p2 = e−111 1! = 0.368 29.44 p3 = e−112 2! = 0.184 14.72 p4 = e−113 3! = 0.061 4.88 p5 = 1− ∑4 i=1 pi = 0.019 1.52 4. Tính thống kê Q2, Q2 = 5∑ j=1 (Oj − Ej)2 Ej = (34 − 29.44)2 29.44 + . . .+ (3− 1.52)2 1.52 = 4.67 81 Kiểm định giả thuyết về phân phối 5. Bác bỏ H0 khi: Q2 ≥ χ2α,K−r−1 = χ20.05,5−1−1 Tra bảng, ta có χ20.05,3 = 7.815. 6. Do Q2 = 4.67 < 7.815 nên kết luận chưa đủ cơ sở để bác bỏ H0. Vậy, số vụ tai nạn giao thông/ ngày ở Q.5 tuân theo luật phân phối Poisson. 82 31 Kiểm định giả thuyết về phân phối Ví dụ 15. Điểm thi của 200 sinh viên trong một lớp học cho bởi bảng bên dưới. Có ý kiến cho rằng điểm thi của sinh viên là đại lượng ngẫu nhiên có phân phối chuẩn với điểm trung bình bằng 75 và độ lệch chuẩn bằng 8. Với α = 0.05, hãy kiểm tra ý kiến này. Điểm thi (0, 60] (60, 70] (70, 80] (80, 90] (90, 100] Số sinh viên 12 36 90 44 18 83 Kiểm định giả thuyết về phân phối Ví dụ 16. Nhóm máu của 500 người chọn ngẫu nhiên từ một khu vực cho bởi bảng sau A B AB O 75 150 15 260 Theo từ điển y khoa thì tỷ lệ nhóm máu trong dân số là 0.18, 0.28, 0.05, 0.49. Hỏi nhóm máu trong dân số có phù hợp với từ điển y khoa hay không? Mức ý nghĩa 1%. 84 Kiểm định giả thuyết về phân phối Ví dụ 17. Chọn 100 người bệnh tâm thần được phân loại vào mùa mà họ sinh ra, số liệu cho ở bảng sau: Xuân Hạ Thu Đông 20 35 20 25 Hỏi bệnh có phụ thuộc vào mùa được sinh ra hay không? Mức ý nghĩa 1%. 85 32 Kiểm định giả thuyết về tính độc lập • Bài toán: n Giả sử mỗi phần tử trong một tổng thể có thể được phân loại theo hai đặc tính khác nhau, gọi là đặc tính X và đặc tính Y . X có r giá trị và Y có s giá trị. Gọi Pij = P(X = xi, Y = yj) với i = 1, . . . , r và j = 1, . . . , s. Pij là xác suất chọn được một phần tử trong tổng thể có đặc tính X bằng i và đặc tính Y bằng j. n Gọi pi = P(X = xi) = s∑ j=1 Pij , i = 1, . . . , r và qj = P(Y = yj) = r∑ i=1 Pij , j = 1, . . . , s 86 Kiểm định giả thuyết về tính độc lập pi là xác suất chọn được một phần tử của tổng thể có đặc tính X bằng xi, qj là xác suất chọn được môt phần tử của tổng thể có đặc tính Y bằng yj. n Ta cần kiểm định xem X có độc lập với Y hay không? Phát biểu giả thuyết H0 : Pij = piqj ∀i = 1, . . . , r; j = 1, . . . , s và đối thuyết H1 : ∃ (i, j) sao cho Pij 6= piqj 87 33 Kiểm định giả thuyết về tính độc lập n Khảo sát N phần tử, ta được bảng kết quả, trong bài toán này gọi là bảng ngẫu nhiên (contingency table): H H H H HH X Y y1 y2 · · · ys Tổng hàng x1 n11 n12 · · · n1s n1 x2 n21 n22 · · · n2s n2 ... ... ... ... ... ... xr nr1 nr2 · · · nrs nr Tổng cột m1 m2 · · · ms N Bảng 7 trong đó, các nij gọi là tần số thực nghiệm. 88 Kiểm định giả thuyết về tính độc lập n Ước lượng của pi và qj lần lượt bằng pˆi = ni N , i = 1, . . . , r qˆj = mj N , j = 1, . . . , s n Gọi Nij là số phần tử có đặc tính (xi, yj) trong N phần tử khảo sát, thì Nij ∼ B(N,Pij). Khi đó, E(Nij) = NPij = Npiqj khi H0 đúng Đặt eij = Npˆiqˆj = nimj N eij gọi là tần số lý thuyết. 89 34 Kiểm định giả thuyết về tính độc lập Định lý 5 (Pearson). Với Nij và Eij = NPij , biến ngẫu nhiên r∑ i=1 s∑ j=1 (Nij − Eij)2 Eij sẽ hội tụ theo phân phối về biến ngẫu nhiên Chi bình phương χ2(r−1)(s−1) bậc tự do. 90 Kiểm định giả thuyết về tính độc lập Các bước kiểm định 1. Phát biểu giả thuyết H0: X và Y độc lập 2. Xác định tần số thực nghiệm nij và tần số lý thuyết eij = nimj N với ni và mj là tổng hàng i và tổng cột j tương ứng, Điều kiện: eij ≥ 5. 91 Kiểm định giả thuyết về tính độc lập 3. Tính thống kê kiểm định Q2 = r∑ i=1 s∑ j=1 (nij − eij)2 eij = r∑ i=1 s∑ j=1 n2ij eij −N (28) Nếu H0 đúng, thống kê Q2 có phân phối Chi bình phương với (r − 1)(s − 1) bậc tự do 4. Bác bỏ H0 khi Q2 > χ2(r−1)(s−1)(α) (29) 4b. Sử dụng p-giá trị: p = P ( χ2(r−1)(s−1) ≥ Q2 ) (30) Bác bỏ H0 khi: p ≤ α. 92 35 Kiểm định giả thuyết về tính độc lập Ví dụ 18. Một báo cáo khoa học trong y khoa tuyên bố rằng việc sở hữu một thú cưng trong nhà (chó hoặc mèo) sẽ làm tăng khả năng sống sót của những người chủ mà thường bị lên cơn đau tim. Một mẫu ngẫu nhiên gồm 95 người đã lên cơn đau tim được chọn để khảo sát. Dữ liệu của mỗi người khảo sát được chia làm 2 loại: - Những người sống sót/tử vong 1 năm sau khi lên cơn đau tim. - Người sống sót/tử vong có nuôi thú cưng trong nhà hay không. Kết quả cho bởi bảng sau Có nuôi thú cưng Không nuôi thú cưng Sống sót 28 44 Tử vong 8 15 93 Kiểm định giả thuyết về tính độc lập 1. Phát biểu giả thuyết, H0: Bệnh lên cơn đau tim độc lập với việc nuôi thú cưng, 2. Tính tần số thực nghiệm: với n1 = 72, n2 = 23, m1 = 36, m2 = 59 e11 = n1m1 N = 72× 36 95 = 27.284; e12 = n1m2 N = 72× 59 95 = 44.716 e21 = n2m1 N = 23× 36 95 = 8.716; e22 = n2m2 N = 23× 59 95 = 14.284 3. Tính giá trị thống kê Q2 Q2 = 2∑ i=1 2∑ j=1 n2ij eij − n = ( 282 27.284 + 442 44.716 + 82 8.716 + 152 15.284 ) − 95 = 0.125 94 Kiểm định giả thuyết về tính độc lập 4. Bác bỏ H0 khi: Q2 > χ2(r−1)(s−1)(α) = χ 2 1(0.05). Tra bảng Chi - bình phương, ta được χ21(0.05) = 3.841. Q2 = 0.125, suy ra Q2 < 3.841. Ta kết luận chưa đủ cơ sở để bác bỏ H0 tức là bệnh lên cơn đau tim độc lập với việc nuôi thú cưng. 95 36 Kiểm định giả thuyết về tính độc lập Ví dụ 19. Vé máy bay của hãng hàng không Việt Nam Airline được chia làm 3 loại: Hạng thường (C), hạng trung (B) và hạng doanh nhân (A). Hành khách đi máy bay của VN Airlines nằm trong 1 trong 2 dạng sau: bay nội địa hoặc quốc tế. Khảo sát 920 hành khách đã bay của hãng, cho kết quả sau: Loại chuyến bay Loại vé Nội địa Quốc tế Hạng thường 29 22 Hạng trung 95 121 Hạng doanh nhân 518 135 Có ý kiến cho rằng hành khách mua loại vé nào (A, B, C) sẽ phụ thuộc vào việc người đó bay nội địa hay quốc tế. Với mức ý nghĩa 5%, hãy kiểm tra ý kiến trên. 96 37
File đính kèm:
- bai_giang_xac_suat_thong_ke_chuong_7_kiem_dinh_gia_thuyet_th.pdf
- Chap 7 - Kiem dinh gia thuyet thong ke (slide).pdf