Lí thuyết xác suất

Ng−ời ta cũng sử dụng phân bố χ2 để kiểm định các bài toán về tính phù hợp của hàm phân bố. Xét bài

toán kiểm định giả thiết:

(H): Một đại l−ợng ngẫu nhiên X nào đó có phân bố dạng F(x, Θ) với đối thiết ng−ợc lại.

Giả sử tham số Θ = (Θ1, Θ2, ., Θk) là véc tơ, gồm k tham số tạo thành (chẳng hạn nh− dạng phân bố

chuẩn F(x, Θ) = F(x, m, σ2) ∈ N(m, σ2) gồm 2 tham số thành phần).

Để giải bài toán đó, ng−ời ta chọn một mẫu ngẫu nhiên

(X1, X2, ., Xn)

t−ơng ứng với đại l−ợng ngẫu nhiên X và chia các phần tử mẫu vào r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một nhóm duy nhất

n = n1 + n2 + . + nr =r i=1ni.

Giả sử pi là xác suất để đại l−ợng ngẫu nhiên X nhận các giá trị thuộc nhóm thứ i, i = 1, 2, ., r với điều kiện

giả thiết (H) đúng. Khi đó

1 = p1 + p2 + . + pr

Hiển nhiên ni là đại l−ợng ngẫu nhiên có phân bố nhị thức với kì vọng E(ni) = npi. Xét thống kê

53 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: tuando | Lượt xem: 987 | Lượt tải: 0

Tóm tắt nội dung Lí thuyết xác suất, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

c0. Cách tính t−ơng tự nh− trên
cov(b) = A−1cov(c0)A−1 = A−1cov(
1
n
ξTη)A−1 = A−1
σ2
n2
ξT ξA−1 =
σ2
n
A
−1. (17)
Do
cov(c0) = cov(
1
n
ξTη) =
1
n2
ξTσ2Iξ =
σ2
n2
ξT ξ =
σ2
n
A.
Chú ý rằng do xét trong không gian xác suất điều kiện nên σ trong công thức trên là sai số của phần d−, nó
đ−ợc tính theo công thức trong mô hình (15). Thay σ bằng −ớc l−ợng không chệch của nó se trong công thức
này ta tính đ−ợc các sai số của các hệ số hồi quy bm.
48
Thực hành trên EXCEL
Bảng sau cho ta số liệu quan sát đ−ợc về sản l−ợng của một giống cây trồng tại nhiều địa ph−ơng có thổ
nh−ỡng, khí hậu khác nhau.
STT Y x1 x2
1 590 58 405
2 660 52 450
3 780 133 350
4 770 179 285
5 710 98 330
6 640 72 400
7 670 72 550
8 520 43 480
9 660 62 450
10 690 67 610
11 500 64 380
12 460 33 460
13 610 57 425
STT Y x1 x2
14 710 62 560
15 620 54 420
16 660 48 620
17 620 86 390
18 590 74 350
19 740 95 570
20 730 44 710
21 720 53 700
22 720 77 580
23 640 46 700
24 805 123 560
25 510 26 370
26 673 62 430
SST chỉ 26 địa ph−ơng khác nhau trồng giống cây đó. Các kí hiệu khác
Y là sản l−ợng của loại cây trồng
x1 là l−ợng m−a trong cả đợt gieo trồng
x2 là toàn bộ chi phí đầu t− khi gieo trồng loại cây đó.
Giả thiết rằng mô hình hồi quy giữa Y đối với X1, X2:
Y = α+ β1x1 + β2x2 + εi,
Sử dụng lệnh COV AR(Y,X) để lập ma trận covarian7507.100592 1852.139053 2870.8727811852.139053 1060.408284 −1448.16568
2870.872781 −1448.16568 14221.48669

Theo (11) các hệ số b1, b2 của mặt phẳng hồi quy (sử dụng lệnh tính ma trận nghịch đảo và nhân ma trận
MINV ERSE,MMULT ) ta đ−ợc
b1 = 2.348974379, b2 = 0.441063371
Suy ra mặt phẳng hồi quy y = 2.348974x1 + 0.441063x2 + 274.89068.
SST = nD(Y ) = 26 ∗ COV (Y, Y ) = 195184.6, SSR = nD(Yˆ ) = 26 ∗ COV (Yˆ , Yˆ ) = 146038.47
Sai số chuẩn của −ớc l−ợng
SSE = SST − SSR = 49146.15115, se =
√
SSE
n− k − 1 =
√
49146.15115
23
= 46.22541704
Hệ số t−ơng quan bội bằng
R =
√
SSR
SST
=
√
0.74820684 = 0.865.
Để tính sai số của các −ớc l−ợng hệ số hồi quy, ta sử dụng công thức (17)
cov(b) =
σ2
n
A
−1 =
σ2
26
(
1060.408284 −1448.16568
−1448.16568 14221.48669
)−1
=
=
σ2
26
(
0.001095359 0.00011154
0.00011154 8.16742E − 05
)
49
Thay σ bằng sai số chuẩn 46.2254, suy ra ph−ơng sai của các hệ số√
D(b) =
46.2254√
26
√
0.001095359 = 0.300035
√
D(a) =
46.2254√
26
√
8.16742E − 05 = 0.08193
Để tính hệ số t−ơng quan riêng giữa Y và X1 ta sử dụng công thức (14)
̺01.(2) =
−Cij√
CiiCjj
=
−30497670.32√
12983398 ∗ 98520221 = 0.852727
Chú ý rằng ta cũng có thể tính hệ số t−ơng quan riêng bằng định nghĩa ̺01.(2) = ̺(Y − Yˆ , X1 − Xˆ1)
Một cách khác để tính các hệ số hồi quy, hệ số t−ơng quan bội cũng nh− các sai số khác là sử dụng lệnh
{= LINEST (Y,X, 1, 1)} trong EXCEL (nhấn đồng thời các phím CTRL+SHIFT+ENTER)
0.441063 2.348974 274.89068
0.08193 0.300035 52.1415458
0.7482 46.2254
34.1724 23
146038.4642 49146.151
Hàng thứ nhất là các hệ số hồi quy a = 274.89068, b1 = 2.348974, b2 = 0.441063
y = 274.89068 + 2.348974x1 + 0.441063x2
Sai số trung bình của các hệ số hồi quy a và b trong hàng thứ hai.√
D(b1) = 0.300035
√
D(b2) = 10.08193,
√
D(a) = 52.1415458
Hàng thứ ba là hệ số xác định R2 = 0.7482 hay hệ số t−ơng quan R = 0.86499 và sai số chuẩn (standard
error) se = 46.2254.
Hàng thứ t− cho giá trị quan sát Fqs = 34.1724 của phân bố F với (k, 23) bậc tự do. (Trong ví dụ này
k = 2).
Hàng thứ năm là các tổng bình ph−ơng HQ theo Y , kí hiệu là SSR = 146038.4642 và phần d− SSE =
49146.151.
Bài tập Bảng sau cho ta số liệu quan sát đ−ợc về kết quả học tập của học sinh. Giả thiết mô hình hồi quy
giữa chúng
Y = α+ β1x1 + β2x2 + β3x3 + ε,
trong đó
Y là điểm trung bình chung của học sinh cuối năm thứ nhất.
x1 là điểm thi tốt nghiệp phổ thông trung học của học sinh.
x2 là điểm thi tuyển vào đại học của học sinh.
x3 là điểm thi môn toán kì I của học sinh.
STT x1 x2 x3 Y
1 45 25 6 5.88
2 43 24.5 7 6.63
3 50 26 7 7.57
4 46 22 8 7.79
5 46 21 5 5.5
6 51 26 8 8.39
7 48 27 9 8.44
8 43 25 8 7.75
9 52 23 6 6.48
10 50 23.5 8 7.81
11 48 25 7 7.12
12 51 22.5 9 8.87
13 55 24 6 6.9
50
1. Viết ph−ơng trình mặt phẳng hồi quy Y theo x1, x2, x3 và dự báo điểm trung bình chung cuối năm thứ
nhất cho một học sinh nếu điểm thi tốt nghiệp phổ thông trung học x1 = 53, điểm thi tuyển vào đại học
x2 = 28, và điểm thi môn toán kì I của học sinh đó x3 = 8.
2. H1y tính hệ số t−ơng quan bội và hệ số t−ơng quan riêng giữa điểm trung bình chung cuối năm thứ nhất
và điểm thi tuyển vào đại học.
3. H1y tính khoảng tin cậy cho β1 với độ tin cậy 96%. Kiểm định giả thiết β2 = 0 với mức ý nghĩa 5%.
15.2.2 Khoảng tin cậy và kiểm định giả thiết cho các tham số của hồi quy
Các vấn đề về khoảng tin cậy và kiểm định giả thiết cho các tham số của hồi quy dựa trên nhận xét sau
Với các giả thiết thêm rằng các đại l−ợng ngẫu nhiên có phân bố chuẩn. Kí hiệu sbk , sbk−1 , ..., sb2 , sb1sa là
các sai số chuẩn của các hệ số hồi quy bk, bk−1, ..., b2, b1, a, khi đó
ta =
a− α
sa
, tbi =
bi − βi
sbi
, i = 1, 2, ..., k
là các đại l−ợng ngẫu nhiên có phân bố Student với n− k − 1 bậc tự do.
Chẳng hạn trong bài tập trên, hệ số hồi quy của x1 (điểm thi tốt nghiệp phổ thông) đ−ợc −ớc l−ợng bằng
b1 = 0.770966 với độ lệch tiêu chuẩn sb1 = 0.054249. Đại l−ợng ngẫu nhiên t−ơng ứng tbi =
bi−βi
sbi
có phân
bố Student với n− k − 1 = 9 bậc tự do. Vậy khoảng tin cậy cho β1 với độ tin cậy 1 − α cho tr−ớc đ−ợc tính
theo công thức
b1 − sb1tα  β1  b1 + sb1tα
Trong bài tập trên, khoảng tin cậy cho β1 với độ tin cậy 96% bằng (0.64, 0.901)
Kiểm định giả thiết cho mỗi tham số của hồi quy
Cũng dựa trên cơ sở tbi có phân bố Student với n− k − 1 bậc tự do, ta có thể kiểm định các giả thiết
H0 : βi = βi,0 hoặc H0 : βi  βi,0
với đối thiết, chẳng hạn bài toán 2
H1 : βi > βi,0,
theo quy tắc bác bỏ H0 nếu tqs =
bi − βi,0
sbi
> tα.
(Các kiểm định một phía khác hoặc kiểm định 2 phía cũng theo quy tắc t−ơng tự đ1 biết).
Bài toán (3): kiểm định giả thiết
H0 : βi = βi,0 hoặc H0 : βi ≥ βi,0
với đối thiết
H1 : βi < βi,0,
theo quy tắc bác bỏ H0 nếu tqs =
bi − βi,0
sbi
< −tα.
Bài toán (1): Kiểm định giả thiết H0 : βi = βi,0 với đối thiết
H1 : βi = βi,0,
theo quy tắc bác bỏ H0 nếu |tqs| =
∣∣∣∣bi − βi,0sbi
∣∣∣∣ > tα.
Đặc biệt nếu giá trị thực của β1 = 0, Yi = α+ β2x2i + ...+ βkxki + εi không bị ảnh h−ởng bởi biến độc
lập X1 khi các biến X2, ..., Xk nhận các giá trị cố định cho tr−ớc. Nói cách khác X1 không góp phần vào giải
thích mối quan hệ tuyến tính giữa biến phụ thuộc với các biến độc lập.
Trong bài tập trên, xét bài toán kiểm định H0 : β2 = 0 với đối thiết H1 : β2 = 0
tqs =
b2 − 0
sb2
=
0.011599
0.038539
= 0.30098 < t0.05 = 2.262,
51
ta ch−a có cơ sở bác bỏ H0 : β2 = 0 ở mức 0.5%.
Tính hệ số t−ơng quan riêng giữa điểm trung bình chung cuối năm thứ nhất (Y ) và điểm thi tuyển vào đại
học (x2). Ta đ−ợc hệ số t−ơng quan riêng đó khá bé r = 0.0998. Trong tr−ờng hợp này ta chấp nhận giả thiết
H0 : β2 = 0, và tìm hồi quy Y theo 2 biến còn lại: điểm thi tốt nghiệp phổ thông trung học và điểm thi môn
toán kì I của học sinh.
Kiểm định giả thiết đồng thời cho các tham số của hồi quy
H0 : β1 = β2 = ã ã ã = βk = 0
với đối thiết
H1 : Tồn tại ít nhất một i : βi = 0.
Nếu giả thiết H0 đúng, Yi = α+ εi, nên E(Yi/X) = α là hằng số. Các biến độc lập Xi không có ảnh h−ởng
(tuyến tính) tới Y . Kiểm định giả thiết H0 thực chất nhằm bác bỏ tính phụ thuộc tuyến tính giữa các biến. Ta
biết rằng SST = SSR + SSE, trong đó SSR nhằm giải thích sự biến động của hồi quy (sự phụ thuộc tuyến
tính của biến phụ thuộc vào các biến độc lập), còn SSE là phần biến động ngoài hồi quy. Do vậy nếu giữa các
biến ngẫu nhiên không tồn tại quan hệ tuyến tính khi đó SSR t−ơng đối nhỏ so với SSE, nói cách khác tỉ số
giữa SSR và SSE càng lớn, khả năng bác bỏ giả thiết không (quan hệ tuyến tính) càng cao. Vì thế để tạo ra
một thống kê nh− vậy ng−ời ta sử dụng kết quả sau:
Nếu giả thiết H0 : β1 = β2 = ã ã ã = βk = 0 đúng và εi có phân bố chuẩn, khi đó
F =
SSR/k
SSE/(n− k − 1)
có phân bố F với (k, n− k − 1) bậc tự do. Vậy ta có quy tắc ở mức α
Bác bỏ H0 nếu Fqs =
SSR/k
SSE/(n− k − 1) > Fk,n−k−1,α,
trong đó
P (Fk,n−k−1 > Fk,n−k−1,α) = α.
Nhận xét rằng do R2 = SSRSST = 1− SSESST , suy ra
F =
SSR/k
SSE/(n− k − 1) =
n− k − 1
k
ã R
2
1−R2 .
Kiểm định giả thiết đồng thời cho một tập con các tham số của hồi quy
Giả thiết rằng ta cần kiểm định k1 tham số đầu tiên của hồi quy bằng 0.
H0 : β1 = β2 = ã ã ã = βk1 = 0
(Với đối thiết H1 : Tồn tại ít nhất một i, 1  i  k1 : βi = 0.)
Nếu giả thiết H0 đúng, các biến X1, X2, ..., Xk1 không có ảnh h−ởng gì tới Y , do vậy ta tiến hành −ớc l−ợng
hồi quy của Y chỉ thông qua các biến Xk1+1, Xk1+2, ..., Xk
Yi = α
∗ + β∗k1+1xk1+1,i + ã ã ã+ β∗kxki + ε∗i
Khi đó ta hy vọng SSE của mẫu hồi quy cũ khác nhiều so với SSE∗ của mẫu hồi quy mới.
Thống kê
F =
(SSR∗ − SSE)/k1
SSE/(n− k − 1)
có phân bố F với (k1, n− k − 1) bậc tự do. Vậy ta có quy tắc ở mức α
Bác bỏ H0 nếu Fqs =
(SSE∗ − SSE)/k1
SSE/(n− k − 1) > Fk1,n−k−1,α.
52
Dự báo
Với mẫu hồi quy nh− đ1 nói ở trên, kí hiệu a, b1, b2, ..., bk là các −ớc l−ợng theo ph−ơng pháp bình ph−ơng
bé nhất các hệ số hồi quy, khi đó với mẫu thứ n+ 1 của các biến độc lập:
(x1,n+1, x2,n+1, ..., xk,n+1)
dự báo của biến phụ thuộc (Yn+1 = α+ β1x1,n+1 + ã ã ã+ βkxk,n+1 + εn+1)
Yˆn+1 = a+ b1x1,n+1 + b2x2,n+1 + ã ã ã+ bkxk,n+1
là −ớc l−ợng tuyến tính không chệch tốt nhất của Yn+1.
Trở lại với bài tập về điểm trung bình chung cuối năm thứ nhất của học sinh, nếu điểm thi tốt nghiệp phổ
thông trung học x1 = 53, điểm thi tuyển vào đại học x2 = 28, và điểm thi môn toán kì I của học sinh đó
x3 = 8, khi đó iểm trung bình chung cuối năm thứ nhất của học sinh đ−ợc dự báo là
Yˆn+1 = a+ b1x1,n+1 + b2x2,n+1 + b3x3,n+1 = 8.32
Ngoài ra nếu giả thiết εi có phân bố chuẩn khi đó chúng ta có thể tính các khoảng tin cậy cho các
dự báo Yˆn+1.
53

File đính kèm:

li_thuyet_xac_suat.pdf