Bài tập Xác suất thống kê - Quách Phát Tài
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với
một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau
(thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí
nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá tình
trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn
cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh
không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. 2
là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử bạn
có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết
quả và mỗi kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, k).
Nếu gọi Pi,0 là các giá trị lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là
Ei = NPi,0. Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần số lí
thuyết Ei phải ≥ 5.
ng hàng Nữ 42 167 209 Nam 54 400 454 Tổng cột 96 567 663 LÝ THUYẾT Nữ 30.26244344 178.7375566 Nam 65.73755656 388.2624434 GIÁ TRỊ "P" 0.005300617 P(X>2) = 0.005300617 < α = 0.01 bác bỏ giả thuyết H0. 3. Kết quả: - Tỉ lệ khách hàng nam và nữ ưa chuộng áo khoác màu đỏ là như nhau. - Tỉ lệ khách hàng nam và nữ ưa chuộng áo khoác màu xanh là khác nhau. - Tỉ lệ khách hàng nam và nữ ưa chuộng áo khoác màu vàng là khác nhau. - Tỉ lệ khách hàng nam và nữ ưa chuộng áo khoác màu tím than là khác nhau. Xác Suất Thống Kê Trang 5 Bài 2 1. Cơ sở lý thuyết : Giả sử có k ĐLNN có phân bố chuẩn X1, X2, Xk trong đó Xi : N(µi , σi 2 ). Các giá trị trung bình µi và phương sai σi 2 đều chưa biết. Tuy nhiên chúng ta giả sử rằng các phương sai bằng nhau : σ1 2 = σ2 2 = =σk 2. Chúng ta muốn kiểm định liệu các giá trị trung bình µi này có như nhau hay không: µ1 = µ2 = =µk. Trong thống kê vấn đề trên được xem xét dưới góc độ sau đây. Giả sử ta quan tâm đến một nhân tố X nào đó. Nhân tố X có thể được xem xét ở k mức khác nhau. Ký hiệu Xi là hiệu quả của việc tác động của nhân tố X ở mức i đối với cá thể. Như vậy µi là hiệu quả trung bình của nhân tố X ở mức i. Chúng ta muốn biết khi cho nhân tố i thay đổi các mức khác nhau thì điều đó có ảnh hưởng hay không tới hiệu quả trung bình. Ta có bảng số liệu sau : Các mức nhân tố 1 2 k n = ∑ ݊ଵ ୀଵ ݔଵଵ ݔଵଶ ݔଵ ݔଶଵ ݔଶଶ ݔଶ ĐỀ BÀI Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các loại nhạc khác nhau (nhạc rốc, nhạc nhẹ, nhạc cổ điển, không có nhạc) được thông kê tỏng bảng sau đây. Với mức ý nghĩa 5%, nhận định xem lượng sữa trung bình của mỗi nhóm như nhau hay khác nhau? Liệu âm nhạc có ảnh hưởng đến lượng sữa của các con bò hay không? Nhạc nhẹ 15 18 22 17 Nhạc rốc 13 20 16 15 Nhạc cổ điển 15 19 24 28 Không có nhạc 14 23 17 14 Xác Suất Thống Kê Trang 6 ݔభଵ ݔభଶ ݔభ Tổng số T1 T2 Tk T = ∑ ܶ ୀଵ Trung bình ݔଵ ݔଶ ݔ ݔ = ் Ta đưa ra một số ký hiệu sau Trung bình cúa mẫu thứ i ( tức là mẫu ở cột thứ i trong bảng trên ): ݔ = ܶ ݊ = ∑ ݔ ୀଵ ݊ Trung bình chung : ݔ = ܶ ݊ = ∑∑ݔ ݊ = ∑ ∑ ݔ ೕ ୀଵ ୀଵ ݊ ở đó n = n1 + n2 + nk T = T1 + T2 + Tk Tổng bình phương chung ký hiệu là SST được tính theo công thức sau : ܵܵܶ =(ݔଵ − ݔ) ଶ భ ୀଵ +(ݔଶ − ݔ) ଶ మ ୀଵ +⋯+(ݔ − ݔ) ଶ ೖ ୀଵ =(ݔ − ݔ) ଶ ೕ ୀଵ ೖ ୀଵ Có thể chứng minh rằng : ܵܵܶ =ݔଵ ଶ భ ୀଵ +ݔଶ ଶ మ ୀଵ +⋯+ݔ ଶ ೖ ୀଵ − ܶଶ ݊ =ݔ ଶ , − ܶଶ ݊ Tổng bình phương do nhân tố ký hiệu là SSF được tính theo công thức sau : ܵܵܨ =݊(ݔ − ݔ) ଶ ୀଵ = ଵܶ ଶ ݊ଵ + ଶܶ ଶ ݊ଶ +⋯+ ܶ ଶ ݊ − ܶଶ ݊ Tổng bình phương do sai số ký hiệu là SSE được tính theo công thức : ܵܵܧ =(ݔଵ − ݔଵ) ଶ భ ୀଵ +(ݔଶ − ݔଶ) ଶ భ ୀଵ + ⋯+(ݔ − ݔ) ଶ భ ୀଵ =ݔଵ ଶ భ ୀଵ − ଵܶ ଶ ݊ଵ +ݔଶ ଶ మ ୀଵ − ଶܶ ଶ ݊ଶ +ݔ ଶ ೖ ୀଵ − ܶ ଶ ݊ Xác Suất Thống Kê Trang 7 Từ công thức trên ta thấy ta thấy : SST = SSF + SSE Trung bình bình phương của nhân tố ký hiệu là MSF được tính bởi công thức : ܯܵܨ = ܵܵܨ ݇ − 1 k-1 được gọi là bậc tự do của nhân tố. Trung bình bình phương sai số ký hiệu là MSE được tính bởi công thức : ܯܵܧ = ܵܵܧ ݊ − ݇ n-k được gọi là bậc tự do của sai số. Tỷ số F được tính bởi công thức ܨ = ܯܵܨ ܯܵܧ Các kết quả trên được trình bày trong bảng sau đây được gọi là bảng ANOVA : Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F Nhân tố SSF k – 1 MSF MSF/MSE Sai số SSE n - k MSE Tổng số SST n - 1 Trắc nghiệm: Giả thuyết : H0: µ1 = µ2 == µk “ Các giá trị trung bình bằng nhau” H1: µi ≠ µj “ Ít nhất có hai giá trị trung bình khác nhau” Biện luận : Nếu F Chấp nhận giả thuyết H0 2. Áp dụng MS-EXCEL: a. Nhập dữ liệu vào bảng tính: Xác Suất Thống Kê Trang 8 Áp dụng “Anova: Single factor”(MS-EXCEL 2003) b. Nhấp lần lượt Data tab và Data Analysis tab. c. Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấp nút OK. d. Trong hộp thoại Anova: Single Factor lần lượt xác định: Phạm vi đầu vào (Input Range) Cách sắp xếp theo hàng hay cột (Group by) Nhãn dữ liệu (Label in First Row/Column). e. Nhấn OK, ta có bảng kết quả sau Xác Suất Thống Kê Trang 9 3. Kết quả: F = 1.35468 < F0.005 = 3.490295 Chấp nhận giả thuyết H0. Lượng sữa trung bình của mỗi nhóm như trên là như nhau. Vậy âm nhạc không có ảnh hưởng đến lượng sữa của các con bò. Xác Suất Thống Kê Trang 10 Bài 3 ĐỀ BÀI Từ 13 cặp quan sát (xi,yi) sau đây từ cặp 2 biến (X,Y), hãy kiểm định giả thiết H0 : X,Y không tương quan với nhau. 1. Cơ sở lý thuyết: Cho 2 đại lượng ngẫu nhiên X, Y. Để đo mức độ phụ thuộc tuyến tính giữa X và Y, ta xét: Hệ số tương quan tuyến tính : ߪ, ߤ: là giá trị trung bình và độ lệch tiêu chuẩn của X. ߪ, ߤ: là giá trị trung bình và độ lệch tiêu chuẩn của Y. ߩ߳[−1,1] ߩ = 0: Không có tương quan tuyến tính giữa X và Y. X,Y có phân phối chuẩn -> X,Y độc lập. |ߩ|càng gần 1: X,Y phụ thuộc tuyến tính càng mạnh. |ߩ| = 1: Y là 1 hàm tuyến tính của X. X 123.0 356.9 111.1 118.0 265 390 67 Y 4.15 4.10 3.74 3.89 3.75 3.10 3.13 X 24 156.9 106 86 85.5 241.2 Y 2.97 2.96 2.92 2.33 2.26 2.03 ( )( )X Y X Y E X Y Xác Suất Thống Kê Trang 11 Hệ số tương quan được ước tính bởi biểu thức: Có thể viết r dưới dạng : ݎ = ݊(∑ݔݕ) − (∑ݔ)(∑ ݕ) ඥ݊∑ ݔଶ − (∑ ݔ)ଶඥ݊ ∑ݕଶ − (∑ݕ)ଶ Bảng mức độ tương quan dựa trên hệ số tương quan r: 2. Áp dụng MS-EXCEL: a. Nhập dữ liệu vào bảng tính: b. Nhấp lần lượt đơn lệnh Data và lệnh Data Analysis. c. Chọn chương trình Correlation trong hộp thoại Data Analysis rồi nhấn OK. d. Trong hộp thoại Correlation, lần lượt ấn định các chi tiết: Giá trị |r| Mức độ <0.7 Nghèo nàn 0.7-0.8 Khá 0.8-0.9 Tốt >0.9 Xuất sắc 1 2 2 1 1 ( )( ) ( ) ( ) n ii i n n i i i i x x y y r x x y y Xác Suất Thống Kê Trang 12 Phạm vi đầu vào (Input Range). Cách xắp sếp theo hàng hay cột (Group by). Nhãn dữ liệu (Labels First Row/Column). Phạm vi đầu ra (Output Range). e. Nhấn OK, ta có bảng kết quả sau 3. Kết luận: ࢘ ≈ . ≠ - Vậy X,Y có tương quan với nhau. - r < 0.7 nên mối tương quan này là thấp. => Giả thiết H0 : X,Y không tương quan với nhau là sai. Xác Suất Thống Kê Trang 13 Bài 4 ĐỀ BÀI Đo đuờng kính X và chiều cao Y của 20 cây ta thu đuợc số liệu sau: X 2.3 2.5 2.6 3.1 3.4 3.7 7.3 Y 7 8 4 4 6 6 14 X 3.9 4 4.1 4.1 4.2 4.4 Y 12 8 5 7 8 7 X 4.7 5.1 5.5 5.3 6.2 6.9 6.9 Y 9 10 13 7 11 11 16 a) Tìm đuờng hồi quy của Y đối với X. b) Tính sai số tiêu chuẩn của đuờng hồi quy. c) Tính tỷ số F để kiểm định giả thiết có hồi quy tuyến tính giữa Y với X. 1. Cơ sở lý thuyết: Cho một mẫu đồng thời của vector ngẫu nhiên (X,Y) có dạng bảng số liệu sau X,Y y1 y2 yh ni x1 n11 n12 n1h n1 x2 n21 n22 n2h n2 xk nk1 nk2 nkh nk mj m1 m2 mh ∑ = n Xác Suất Thống Kê Trang 14 a/ Các đặc trưng mẫu: k i ii nxn x 1 1 , k i ii nxn x 1 22 1 , 222 xxs X k j ii myn y 1 1 , h j ij nyn y 1 22 1 , 222 yysY j k i h j iij yxnn xy 1 1 1 Với i = k,1 , đặt h j jijix ynn xXYY i 1 1 )|( Là trung bình mẫu của Y khi X= ix . Biểu diễn các điểm ( ix , ixY ) lên mặt phẳng tọa độ và nối các điểm ( ix , ixY ) và ( 1ix , 1ixY ) bằng một đọan thẳng (i= 1,1 k ), ta được một đường gấp khúc , gọi là đường hồi quy mẫu Y theo X. b/ Hồi quy tuyến tính đơn giản: 0 1 2 3 4 5 6 7 8 9 3 4 5 6 7 8 y x Xác Suất Thống Kê Trang 15 Đuờng hồi quy: Đuờng hồi quy tuyến tính mẫu Y theo X là đuờng thẳng có phuơng trình y = ax + b “gần” với đuờng hồi quy mẫu Y theo X nhất, đuờng thẳng y = ax + b có tổng bình phuơng các khỏang cách (xi,yi) tới đuờng thẳng là nhỏ nhất. Có nghĩa là (a,b) là điểm cực tiểu của hàm: k i ixi baxYnbaQ i 1 2 )(),( (a,b) là nghiệm của hệ xayb xx yxxy a b Q a Q 22 0 0 Sai số tiêu chuẩn của đuờng hồi quy: n i iiXY yyn s 1 22 . )'(2 1 n i iiiXY baxyn s 1 22 . )(2 1 Dạng khác của công thức trên 2 2 2 . n ybxyay s XY 2 .. XYXY sS Đuợc gọi là sai số tiêu chuẩn của đuờng hồi quy, là số đo sự phân tán của đám mây điểm (xi,yi) xung quanh đuờng thẳng hồi quy. Kiểm định giả thiết Ho: “có hồi quy tuyến tính giữa Y với X”: Tỷ số MSE MSR F - Nếu cF : chấp nhận Ho Xác Suất Thống Kê Trang 16 - Nguợc lại: bác bỏ Ho Với giá trị c tra từ bảng phân phối Fisher với bậc tự do (1,n-2) hay c=FINV(α,1,n-2) (EXCEL) 2)( ybaxSSRMSR i là tổng bình phuơng do hồi quy n yx xya n x xaSSR ))(()( 2 22 2)( baxySSE ii là tổng bình phuơng do sai số ybxyaySSE 2 2 2 . n SSE sMSE XY trung bình bình phuơng do sai số 2. Áp dụng Excel: a. Nhập dữ liệu vào bảng tính (chỉ đuợc nhập theo cột) b. Tab Data, chọn Data Analyis c. Chọn chuơng trình Regression d. Trong hộp thoại Regression: - Phạm vi biến số Y (Input Y Range) - Phạm vi biến số X (Input X Range) - Nhãn (Label) Xác Suất Thống Kê Trang 17 - Độ tin cậy (Confident Level) - Nơi xuất kết quả (Output Range) e. Nhấn OK, ta được bảng kết quả: Xác Suất Thống Kê Trang 18 3. Kết quả: a) Đuờng hồi quy của Y đối với X: a = 1.68 b = 1.05 Phuơng trình đuờng hồi quy: y = 1.68x + 1.05 b) Sai số tiêu chuẩn của đuờng hồi quy SY.X = 2.22 c) Tỷ số F: F = 24.30 c = f(α,k,n-k-1) = f(0.05,1,18) = 4.41 Do F > c. Vậy: Phương trình hồi quy không thích hợp, không có hồi quy tuyến tính giữa Y và X.
File đính kèm:
- bai_tap_xac_suat_thong_ke_quach_phat_tai.pdf