Bài tập lớn Xác suất thống kê - Nguyễn Hữu Tiến
Chọn ô D7 và nhập biểu thức = SUM(B4:E4)
Chọn ô E7 và nhập biểu thức = SUM(B5:E5)
• Các giá trị T.j.
Chọn ô B8 và nhập biểu thức = SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8
• Các giá trị T.k
Chọn ô B9 và nhập biểu thức = SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức = SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức = SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
luận:Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp. Phương trình hồi quy ŶX1,X2= f(X1,X2) Nhập các giá trị vào bảng sau: Các giá trị đầu ra cho bởi bảng sau: ŶX1,X2 = -12,70 + 0,04X1 + 0,13X2 (R2 = 0,97; S=0,33) t0 = 11,528 > t0.05 = 2,365 (hay P2V = 2,260.10-5<α=0,05) nên bác bỏ giả thiết H0. t1 = 7,583 > t0.05 = 2,365 (hay PV = 0,00027 <α=0,05) nên bác bỏ giả thiết H0. t2 = 14,328 > t0,05= 2,365 (hay PV = 7,23.10-6<α=0,05) nên bác bỏ giả thiết H0. F = 131,392 > F0,05= 5,140 (hay FS = 1,112.10-5<α=0,05) nên bác bỏ giả thiết H0. Vậy cả hai hệ số -12,70(B0);0,04(B1) và 0.13(B2) của phương trình hồi quy ŶX1,X2 = -12,70 + 0,04X1 + 0,13X2 đều có ý nghĩa thống kê.Nói cách khác, phương trình hồi quy này thích hợp. Kết luận:Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ. Sự tuyến tính của phương trình ŶX1,X2 = -12,70 + 0,04X1 + 0,13X2 có thể được trình bày trên biểu đồ phân tán(scatterplots) Nếu muốn dự đoán -12,70 + 0,04X1 + 0,13X2, chỉ cần chọn một ô,ví dụ B21, sau đó nhập hàm và được kết quả như sau: 4,310873016 Ghi chú: B17 là tọa độ của B0, B18 là tọa độ của B1, B19 là tọa độ của B2,50 là giá trị của X1(thời gian) và 115 là giá trị của X2 (nhiệt độ) Dự đoán hiệu suất của phản ứng bằng phương trình hồi quy ŶX1,X2 = -12,70 + 0,04X1 + 0,13X2 Bài 2 : Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đangs ống. Kết quả được cho như sau: Thành phố Mức độ thỏa mãn Rất thỏa mãn Tương đối Không A 220 121 63 B 130 207 75 C 84 54 24 D 156 95 43 E 122 164 73 Vớimức ý nghĩa α= 2%, kiểm định xem mức đột thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phốtrên hay không? Bài làm : Dạng bài: Kiểm định giả thiết Cơ sở lí thuyết: Giảthiết H0: P1=P1,0 , P2=P2,0 , ,Pk,0↔ “Các cặp Pi và Pi,0 giống nhau” H1: “Ít nhất có một cặp Pivà Pi,0 khácnhau”. Giá trị thống kê Oi: các tần số thực nghiệm (observed frequency) Ei: các tần số lí thuyết (expected frequency)Ei=NPi,0 Biệnluận: NếuBác bỏ giả thiết H0 (DF = k – 1) Trong chương trình MS-EXCEL có hàm CHITEST có thể tính: Giátrịtheo biểu thức Oij tần số thực nghiệm thuộchàng i và cột j; Eij tần số lí thuyết của ô thuộc hàng i vàcột j; r là số hàng; c là số cột. Xác suất P(X >) với bậctự do DF=(r-1)(c-1); trong đó, r là số hàng và c là số cột trong bảng ngẫu nhiên (contingency table) Nếu P(X>) >α Chấp nhận giả thiết H0, và ngược lại. Nhập dữ liệu vào bảng tính: Tính các tổng số: Tổng hàng: Chọn ô E3 và nhập biểu thức = SUM(B3:D3). Dùng con trỏ để kéo nút tự điền từ ô E3 đến ô E7. Tổng cột: chọn ô B8 vànhậpbiểuthức =SUM. Dùng con trỏ kéo nút tự điềntừ ô B8 đến ô D8 Tổng cộng: Chọn ô E8 và nhập biểu thức= SUM(E3:E7). Tính các tần số lí thuyết Tần số lí thuyết = ( tổng hàng * tổngcột ) / tổngcộng Chọn B10, nhập hàm =$E3*B$8/$E$8, kéo nút tự điền từ B10 đến D10, sau đó kéo xuống D14. Áp dụng hàm “CHITEST” trong excel: Tính xác suất P( X> ) bằng cách chọn ô B15 và nhập biểu thức như sau: =CHITEST(B3:D7,B10:D14) Kếtquả: P(X>) = 3.5299E-13 < α=0.02 → bác bỏ giả thiết H0 Vậy mức độ thỏa mãn cuộc sống có phân bố khác nhau trong 5 thành phố trên. Bài 3: Đềbài: Bảng sau đây cho ta số liệu về màu tóc của 422 người: Màutóc Nam Nữ Đen 56 32 Hung 37 66 Nâu 84 90 Vàng 19 38 Vôùi möùc yù nghóa 1%, nhaän ñònh xem soá lieäu coù moái quan heä giöõa maøu toùc vaø giôùi tính hakhoâng. Bài Làm Phương pháp: so sánh phân số. Áp dụng :MS EXCEL: Tương tự bài 2 ta tính tổng hàng, tổng cột sau đó tính các tần số lí thuyết. Áp dụng hàm “CHITEST” trong excel: Tính xác suất P(X>) bằng cách chọn ô B12 và nhập: =CHITEST(B2:C5,B8:D11) Kếtquả: P(X>)= 0.000246775 < α= 0.01 nên bác bỏ giả thiết H0 Vậy không có quan hệ giữa màu tóc và giới tính. Bài 4: Với múc ý nghĩa a = 1%. Hãy phân tích vai trò nghành nghề (chính, phụ) trong hoạt động kinh tiế của các hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập bình quân trung bình của một hộ tương ứng với các ngành nghề nói trên như sau: Nghề chính Nghề phụ (1) (2) (3) (4) Trồng lúa (1) Trồng cây ăn quả (2) Chăn nuôi (3) Dịch vụ(4) 3.5 5.6 4.1 7.2 7.4 4.1 2.5 3.2 8.0 6.1 1.8 2.2 3.5 9.6 2.1 1.5 Bài Làm CƠ SỞ LÍ THUYẾT:Dạng bài phân tích phương sai hai yếu tố (không lặp) Bảng ANOVA Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị tống kê Yếu tố A (hàng) (r – 1) Yếu tố B (cột) (c – 1) Sai số (r – 1)(c – 2) SSE = SST - (SSF + SSB) Tổng cộng (rc – 1) Trắc nghiệm: Giả thuyết: ó“các giá trị trung bình bằng nhau” ó“có ít nhất hai giá trị trung bình khác nhau” Giá trị thống kê: và Biện luận: Nếu [b – 1,(k – 1)(b – 1)] ð chấp nhận (yếu tố A) Nếu [k – 1,(k – 1)(b – 1)] ð chấp nhận (yếu tố B) TÍNH TOÁN Nhập dữ liệu vào bảng tính: Ta sử dụng hộp thoại : “Anova: Two – Factor without Replication” Nhấn lần lượt các đơn lệnh Tools và lệnh Data Analysis Chọn chương trình Anova:Two – trong hộp thoại Data Analysis rồi nhấp nút OK. c) Trong hộp thoại Anova:Two – Factor without Replication, ta ấn định các giá trị: Phạm vi đầu vào (input range): chọn bảng tính ta vừa tạo. Nhãn dữ liệu (labels in first row/column) Ngưỡng tin cậy: Alpha = 1% = 0.01 Phạm vi đầu ra (Output Range) Sau khi nhấn OK ta được kết quả hiện trong wooksheet mới: FR =1.9966 < Fcrit = 6.9919ð chấp nhận giả thiết H0 (nghề chính). FC = 0.1106 < Fcrit = 6.9919ð chấp nhận giả thiết H0 (nghề phụ). ðKết luận: Như vậy thu nhập của gia đình giống nhau xét cho nghề chính hay nghề phụ. Bài 5: Đề bài: Bảng sau ghi lại kỉ lục thế giới về chạy 1 dặm trong thế kỷ 20: Năm(X) 1911 1913 1915 1923 1931 Thời gian(Y) 4:15.4 4:14.6 4:12.6 4:10.4 4:09.2 Năm(X) 1933 1934 1937 1942 1942 Thời gian(Y) 4:07.6 4:06.8 4:06.4 4:06.2 4:06.2 Năm(X) 1942 1943 1944 1945 1954 Thời gian(Y) 4:04.6 4:02.6 4:01.6 4.01.4 3:59.4 Năm(X) 1954 1957 1958 1962 1964 Thời gian(Y) 3:58 3:57.2 3:54.5 3:54.4 3:54.1 Năm(X) 1965 1966 1967 1975 1975 Thời gian(Y) 3:53.6 3:51.3 3:51.1 3:51 3:49.4 Năm(X) 1979 1980 1981 1981 1981 Thời gian(Y) 3:49 3:48.9 3:48.8 3:48.7 3:47.6 Năm(X) 1985 Thời gian(Y) 3:46.5 Tính hệ số tương quan giữa X và Y (đơn vị của Y là giây) Tìm đường thẳng hồi quy giữa Y và X Tìm sai số tiêu chuẩn của đường thẳng hồi quy. Kiểm định giả thiết có đường hồi quy. Dựa trên phương trình này ước lượng kỷ lục thế giới năm 2050. Ước lượng năm mà kỷ lục thế giới là 3 phút 30 giây. Dựa trên đường hồi quy ước lượng kỷ lục thế giới năm 2500. Kết quả này có hợp lý hay không? (Chú thích: 3:48.7 = 3 phút 48,7 giây). Bài Làm : Dạng bài: Phân tích tương quan và hồi quy Hồi quy tuyến tính đơn giản Cơ sở lý thuyết: Phương trình tổng quát Y- Biến số phụ thuộc (dependent/ reponse variable) X- Biến số độc lập (independent/ predictor variable) B0 và B – Các hệ số hồi quy (regression coefficients) Bảng ANOVA Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê Hồi quy Sai số N – 2 Tổng cộng N – 1 Giá trị thống kê Giá trị R-bình phương (R- square) (100R2: % của biến đổi trên Y được giải thích bởi X) Độ lệch chuẩn (Standard Error) (Sự phân tán của dữ liệu càng ít thì giá trị của S càng gần zero) Trắc nghiệm thống kê Đối với một phương trình hồi quy, , ý nghĩa thống kê của các hệ số Bi (B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất thích hợp của phương trình được đánh giá bằng trắc nghiệm F (phân phối Fischer). Trắc nghiệm t Giả thiết: H0 : βi =0 “Hệ số hồi quy không có ý nghĩa” Hi : βi ≠0 “Hệ số hồi quy có ý nghĩa” Giá trị thống kê: ; Phân phối Student Biện luận Nếu t ˂ tα (N-2) chấp nhận giả thiết H0. Trắc nghiệm F Giả thiết: H0 : βi =0 “Phương trình hồi quy không thích hợp” Hi : βi ≠0 “Phương trình hồi quy thích hợp” Giá trị thống kê: Phân bố Fischer v1 = 1, v2 = N – 2 Kết luận: Nếu F ˂ Fα (1, N – 2) chấp nhận giả thiết H0. Thực hiện trên MS-EXCEL: Nhập dữ liệu vào bảng tính: Dữ liệu được nhập theo cột. Cột A nhập năm của kỉ lục Cột C và D nhập lần lượt thông số phút và giây của kỷ lục Chọn ô B2 nhập biểu thức =C2*60+D2. Kéo nút tự điền từ ô B2 đến ô B32. Sử dụng “ Regression” Chọn thẻ Data, chọn Data Analysis. Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp Regresion, lần lượt ấn định các chi tiết: Phạm vi của biến số Y (Input Y Range) Phạm vi của biến số X (Input X Range) Nhãn dữ liệu (Labels) Mức tin cậy (Confidence Level) Tọa độ đầu ra (Output Range) Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots) Hệ số tương quan giữa X và Y: R= 0,989392164 Phương trình hồi quy (R2 = 0,98 ; S = 1,31) Sai số tiêu chuẩn của đường thẳng hồi quy S= 1,31 Kiểm định giả thiết có hồi quy: t0 = 47,858 ˃ t0,05 = 2,365 Suy ra: Chấp nhận giả thiết H1 t1= 36,677 ˃ t0,05 = 2,365 Suy ra: Chấp nhận giả thiết H1 F=1345,202 ˃ F30,05 =5,59 Suy ra: Chấp nhận giả thiết H1 Vậy cả hai hệ số B0 và B của phương trình hồi quy đều có ý nghĩa thống kê vì vậy phương trình hồi quy này là thích hợp. Kết luận: Yếu tố Y lên quan tuyến tính với X Chọn ô B58, nhập vào biểu thức =B17+B18*2050 Ta được kết quả 200,0 giây Vậy dự đoán 2050 kỉ lục thế giới là 200,0 giây Chọn ô B59, nhập vào biểu thức =((3*60+30)-B17)/B18 Ta được kết quả 2025 Dự đoán kỷ lục 3 phút 30 giây được lập vào năm 2025 Chọn ô B60 nhập vào biểu thức =B17+B18*2500 Ta được kết quả là 19,4 giây Dự đoán năm 2500 kỷ lục thế giới là 19,4 giây Kết quả này là không phù hợp với sức chịu đựng của con người hiện tại nhưng trong tương lai con người có thể có những phát minh tiên tiến giúp các vận động viên.
File đính kèm:
- bai_tap_lon_xac_suat_thong_ke_nguyen_huu_tien.doc