Lí thuyết xác suất
Ng−ời ta cũng sử dụng phân bố χ2 để kiểm định các bài toán về tính phù hợp của hàm phân bố. Xét bài
toán kiểm định giả thiết:
(H): Một đại l−ợng ngẫu nhiên X nào đó có phân bố dạng F(x, Θ) với đối thiết ng−ợc lại.
Giả sử tham số Θ = (Θ1, Θ2, ., Θk) là véc tơ, gồm k tham số tạo thành (chẳng hạn nh− dạng phân bố
chuẩn F(x, Θ) = F(x, m, σ2) ∈ N(m, σ2) gồm 2 tham số thành phần).
Để giải bài toán đó, ng−ời ta chọn một mẫu ngẫu nhiên
(X1, X2, ., Xn)
t−ơng ứng với đại l−ợng ngẫu nhiên X và chia các phần tử mẫu vào r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một nhóm duy nhất
n = n1 + n2 + . + nr =r i=1ni.
Giả sử pi là xác suất để đại l−ợng ngẫu nhiên X nhận các giá trị thuộc nhóm thứ i, i = 1, 2, ., r với điều kiện
giả thiết (H) đúng. Khi đó
1 = p1 + p2 + . + pr
Hiển nhiên ni là đại l−ợng ngẫu nhiên có phân bố nhị thức với kì vọng E(ni) = npi. Xét thống kê
c0. Cách tính t−ơng tự nh− trên cov(b) = A−1cov(c0)A−1 = A−1cov( 1 n ξTη)A−1 = A−1 σ2 n2 ξT ξA−1 = σ2 n A −1. (17) Do cov(c0) = cov( 1 n ξTη) = 1 n2 ξTσ2Iξ = σ2 n2 ξT ξ = σ2 n A. Chú ý rằng do xét trong không gian xác suất điều kiện nên σ trong công thức trên là sai số của phần d−, nó đ−ợc tính theo công thức trong mô hình (15). Thay σ bằng −ớc l−ợng không chệch của nó se trong công thức này ta tính đ−ợc các sai số của các hệ số hồi quy bm. 48 Thực hành trên EXCEL Bảng sau cho ta số liệu quan sát đ−ợc về sản l−ợng của một giống cây trồng tại nhiều địa ph−ơng có thổ nh−ỡng, khí hậu khác nhau. STT Y x1 x2 1 590 58 405 2 660 52 450 3 780 133 350 4 770 179 285 5 710 98 330 6 640 72 400 7 670 72 550 8 520 43 480 9 660 62 450 10 690 67 610 11 500 64 380 12 460 33 460 13 610 57 425 STT Y x1 x2 14 710 62 560 15 620 54 420 16 660 48 620 17 620 86 390 18 590 74 350 19 740 95 570 20 730 44 710 21 720 53 700 22 720 77 580 23 640 46 700 24 805 123 560 25 510 26 370 26 673 62 430 SST chỉ 26 địa ph−ơng khác nhau trồng giống cây đó. Các kí hiệu khác Y là sản l−ợng của loại cây trồng x1 là l−ợng m−a trong cả đợt gieo trồng x2 là toàn bộ chi phí đầu t− khi gieo trồng loại cây đó. Giả thiết rằng mô hình hồi quy giữa Y đối với X1, X2: Y = α+ β1x1 + β2x2 + εi, Sử dụng lệnh COV AR(Y,X) để lập ma trận covarian7507.100592 1852.139053 2870.8727811852.139053 1060.408284 −1448.16568 2870.872781 −1448.16568 14221.48669 Theo (11) các hệ số b1, b2 của mặt phẳng hồi quy (sử dụng lệnh tính ma trận nghịch đảo và nhân ma trận MINV ERSE,MMULT ) ta đ−ợc b1 = 2.348974379, b2 = 0.441063371 Suy ra mặt phẳng hồi quy y = 2.348974x1 + 0.441063x2 + 274.89068. SST = nD(Y ) = 26 ∗ COV (Y, Y ) = 195184.6, SSR = nD(Yˆ ) = 26 ∗ COV (Yˆ , Yˆ ) = 146038.47 Sai số chuẩn của −ớc l−ợng SSE = SST − SSR = 49146.15115, se = √ SSE n− k − 1 = √ 49146.15115 23 = 46.22541704 Hệ số t−ơng quan bội bằng R = √ SSR SST = √ 0.74820684 = 0.865. Để tính sai số của các −ớc l−ợng hệ số hồi quy, ta sử dụng công thức (17) cov(b) = σ2 n A −1 = σ2 26 ( 1060.408284 −1448.16568 −1448.16568 14221.48669 )−1 = = σ2 26 ( 0.001095359 0.00011154 0.00011154 8.16742E − 05 ) 49 Thay σ bằng sai số chuẩn 46.2254, suy ra ph−ơng sai của các hệ số√ D(b) = 46.2254√ 26 √ 0.001095359 = 0.300035 √ D(a) = 46.2254√ 26 √ 8.16742E − 05 = 0.08193 Để tính hệ số t−ơng quan riêng giữa Y và X1 ta sử dụng công thức (14) ̺01.(2) = −Cij√ CiiCjj = −30497670.32√ 12983398 ∗ 98520221 = 0.852727 Chú ý rằng ta cũng có thể tính hệ số t−ơng quan riêng bằng định nghĩa ̺01.(2) = ̺(Y − Yˆ , X1 − Xˆ1) Một cách khác để tính các hệ số hồi quy, hệ số t−ơng quan bội cũng nh− các sai số khác là sử dụng lệnh {= LINEST (Y,X, 1, 1)} trong EXCEL (nhấn đồng thời các phím CTRL+SHIFT+ENTER) 0.441063 2.348974 274.89068 0.08193 0.300035 52.1415458 0.7482 46.2254 34.1724 23 146038.4642 49146.151 Hàng thứ nhất là các hệ số hồi quy a = 274.89068, b1 = 2.348974, b2 = 0.441063 y = 274.89068 + 2.348974x1 + 0.441063x2 Sai số trung bình của các hệ số hồi quy a và b trong hàng thứ hai.√ D(b1) = 0.300035 √ D(b2) = 10.08193, √ D(a) = 52.1415458 Hàng thứ ba là hệ số xác định R2 = 0.7482 hay hệ số t−ơng quan R = 0.86499 và sai số chuẩn (standard error) se = 46.2254. Hàng thứ t− cho giá trị quan sát Fqs = 34.1724 của phân bố F với (k, 23) bậc tự do. (Trong ví dụ này k = 2). Hàng thứ năm là các tổng bình ph−ơng HQ theo Y , kí hiệu là SSR = 146038.4642 và phần d− SSE = 49146.151. Bài tập Bảng sau cho ta số liệu quan sát đ−ợc về kết quả học tập của học sinh. Giả thiết mô hình hồi quy giữa chúng Y = α+ β1x1 + β2x2 + β3x3 + ε, trong đó Y là điểm trung bình chung của học sinh cuối năm thứ nhất. x1 là điểm thi tốt nghiệp phổ thông trung học của học sinh. x2 là điểm thi tuyển vào đại học của học sinh. x3 là điểm thi môn toán kì I của học sinh. STT x1 x2 x3 Y 1 45 25 6 5.88 2 43 24.5 7 6.63 3 50 26 7 7.57 4 46 22 8 7.79 5 46 21 5 5.5 6 51 26 8 8.39 7 48 27 9 8.44 8 43 25 8 7.75 9 52 23 6 6.48 10 50 23.5 8 7.81 11 48 25 7 7.12 12 51 22.5 9 8.87 13 55 24 6 6.9 50 1. Viết ph−ơng trình mặt phẳng hồi quy Y theo x1, x2, x3 và dự báo điểm trung bình chung cuối năm thứ nhất cho một học sinh nếu điểm thi tốt nghiệp phổ thông trung học x1 = 53, điểm thi tuyển vào đại học x2 = 28, và điểm thi môn toán kì I của học sinh đó x3 = 8. 2. H1y tính hệ số t−ơng quan bội và hệ số t−ơng quan riêng giữa điểm trung bình chung cuối năm thứ nhất và điểm thi tuyển vào đại học. 3. H1y tính khoảng tin cậy cho β1 với độ tin cậy 96%. Kiểm định giả thiết β2 = 0 với mức ý nghĩa 5%. 15.2.2 Khoảng tin cậy và kiểm định giả thiết cho các tham số của hồi quy Các vấn đề về khoảng tin cậy và kiểm định giả thiết cho các tham số của hồi quy dựa trên nhận xét sau Với các giả thiết thêm rằng các đại l−ợng ngẫu nhiên có phân bố chuẩn. Kí hiệu sbk , sbk−1 , ..., sb2 , sb1sa là các sai số chuẩn của các hệ số hồi quy bk, bk−1, ..., b2, b1, a, khi đó ta = a− α sa , tbi = bi − βi sbi , i = 1, 2, ..., k là các đại l−ợng ngẫu nhiên có phân bố Student với n− k − 1 bậc tự do. Chẳng hạn trong bài tập trên, hệ số hồi quy của x1 (điểm thi tốt nghiệp phổ thông) đ−ợc −ớc l−ợng bằng b1 = 0.770966 với độ lệch tiêu chuẩn sb1 = 0.054249. Đại l−ợng ngẫu nhiên t−ơng ứng tbi = bi−βi sbi có phân bố Student với n− k − 1 = 9 bậc tự do. Vậy khoảng tin cậy cho β1 với độ tin cậy 1 − α cho tr−ớc đ−ợc tính theo công thức b1 − sb1tα β1 b1 + sb1tα Trong bài tập trên, khoảng tin cậy cho β1 với độ tin cậy 96% bằng (0.64, 0.901) Kiểm định giả thiết cho mỗi tham số của hồi quy Cũng dựa trên cơ sở tbi có phân bố Student với n− k − 1 bậc tự do, ta có thể kiểm định các giả thiết H0 : βi = βi,0 hoặc H0 : βi βi,0 với đối thiết, chẳng hạn bài toán 2 H1 : βi > βi,0, theo quy tắc bác bỏ H0 nếu tqs = bi − βi,0 sbi > tα. (Các kiểm định một phía khác hoặc kiểm định 2 phía cũng theo quy tắc t−ơng tự đ1 biết). Bài toán (3): kiểm định giả thiết H0 : βi = βi,0 hoặc H0 : βi ≥ βi,0 với đối thiết H1 : βi < βi,0, theo quy tắc bác bỏ H0 nếu tqs = bi − βi,0 sbi < −tα. Bài toán (1): Kiểm định giả thiết H0 : βi = βi,0 với đối thiết H1 : βi = βi,0, theo quy tắc bác bỏ H0 nếu |tqs| = ∣∣∣∣bi − βi,0sbi ∣∣∣∣ > tα. Đặc biệt nếu giá trị thực của β1 = 0, Yi = α+ β2x2i + ...+ βkxki + εi không bị ảnh h−ởng bởi biến độc lập X1 khi các biến X2, ..., Xk nhận các giá trị cố định cho tr−ớc. Nói cách khác X1 không góp phần vào giải thích mối quan hệ tuyến tính giữa biến phụ thuộc với các biến độc lập. Trong bài tập trên, xét bài toán kiểm định H0 : β2 = 0 với đối thiết H1 : β2 = 0 tqs = b2 − 0 sb2 = 0.011599 0.038539 = 0.30098 < t0.05 = 2.262, 51 ta ch−a có cơ sở bác bỏ H0 : β2 = 0 ở mức 0.5%. Tính hệ số t−ơng quan riêng giữa điểm trung bình chung cuối năm thứ nhất (Y ) và điểm thi tuyển vào đại học (x2). Ta đ−ợc hệ số t−ơng quan riêng đó khá bé r = 0.0998. Trong tr−ờng hợp này ta chấp nhận giả thiết H0 : β2 = 0, và tìm hồi quy Y theo 2 biến còn lại: điểm thi tốt nghiệp phổ thông trung học và điểm thi môn toán kì I của học sinh. Kiểm định giả thiết đồng thời cho các tham số của hồi quy H0 : β1 = β2 = ã ã ã = βk = 0 với đối thiết H1 : Tồn tại ít nhất một i : βi = 0. Nếu giả thiết H0 đúng, Yi = α+ εi, nên E(Yi/X) = α là hằng số. Các biến độc lập Xi không có ảnh h−ởng (tuyến tính) tới Y . Kiểm định giả thiết H0 thực chất nhằm bác bỏ tính phụ thuộc tuyến tính giữa các biến. Ta biết rằng SST = SSR + SSE, trong đó SSR nhằm giải thích sự biến động của hồi quy (sự phụ thuộc tuyến tính của biến phụ thuộc vào các biến độc lập), còn SSE là phần biến động ngoài hồi quy. Do vậy nếu giữa các biến ngẫu nhiên không tồn tại quan hệ tuyến tính khi đó SSR t−ơng đối nhỏ so với SSE, nói cách khác tỉ số giữa SSR và SSE càng lớn, khả năng bác bỏ giả thiết không (quan hệ tuyến tính) càng cao. Vì thế để tạo ra một thống kê nh− vậy ng−ời ta sử dụng kết quả sau: Nếu giả thiết H0 : β1 = β2 = ã ã ã = βk = 0 đúng và εi có phân bố chuẩn, khi đó F = SSR/k SSE/(n− k − 1) có phân bố F với (k, n− k − 1) bậc tự do. Vậy ta có quy tắc ở mức α Bác bỏ H0 nếu Fqs = SSR/k SSE/(n− k − 1) > Fk,n−k−1,α, trong đó P (Fk,n−k−1 > Fk,n−k−1,α) = α. Nhận xét rằng do R2 = SSRSST = 1− SSESST , suy ra F = SSR/k SSE/(n− k − 1) = n− k − 1 k ã R 2 1−R2 . Kiểm định giả thiết đồng thời cho một tập con các tham số của hồi quy Giả thiết rằng ta cần kiểm định k1 tham số đầu tiên của hồi quy bằng 0. H0 : β1 = β2 = ã ã ã = βk1 = 0 (Với đối thiết H1 : Tồn tại ít nhất một i, 1 i k1 : βi = 0.) Nếu giả thiết H0 đúng, các biến X1, X2, ..., Xk1 không có ảnh h−ởng gì tới Y , do vậy ta tiến hành −ớc l−ợng hồi quy của Y chỉ thông qua các biến Xk1+1, Xk1+2, ..., Xk Yi = α ∗ + β∗k1+1xk1+1,i + ã ã ã+ β∗kxki + ε∗i Khi đó ta hy vọng SSE của mẫu hồi quy cũ khác nhiều so với SSE∗ của mẫu hồi quy mới. Thống kê F = (SSR∗ − SSE)/k1 SSE/(n− k − 1) có phân bố F với (k1, n− k − 1) bậc tự do. Vậy ta có quy tắc ở mức α Bác bỏ H0 nếu Fqs = (SSE∗ − SSE)/k1 SSE/(n− k − 1) > Fk1,n−k−1,α. 52 Dự báo Với mẫu hồi quy nh− đ1 nói ở trên, kí hiệu a, b1, b2, ..., bk là các −ớc l−ợng theo ph−ơng pháp bình ph−ơng bé nhất các hệ số hồi quy, khi đó với mẫu thứ n+ 1 của các biến độc lập: (x1,n+1, x2,n+1, ..., xk,n+1) dự báo của biến phụ thuộc (Yn+1 = α+ β1x1,n+1 + ã ã ã+ βkxk,n+1 + εn+1) Yˆn+1 = a+ b1x1,n+1 + b2x2,n+1 + ã ã ã+ bkxk,n+1 là −ớc l−ợng tuyến tính không chệch tốt nhất của Yn+1. Trở lại với bài tập về điểm trung bình chung cuối năm thứ nhất của học sinh, nếu điểm thi tốt nghiệp phổ thông trung học x1 = 53, điểm thi tuyển vào đại học x2 = 28, và điểm thi môn toán kì I của học sinh đó x3 = 8, khi đó iểm trung bình chung cuối năm thứ nhất của học sinh đ−ợc dự báo là Yˆn+1 = a+ b1x1,n+1 + b2x2,n+1 + b3x3,n+1 = 8.32 Ngoài ra nếu giả thiết εi có phân bố chuẩn khi đó chúng ta có thể tính các khoảng tin cậy cho các dự báo Yˆn+1. 53
File đính kèm:
- li_thuyet_xac_suat.pdf