Bài tập lớn Xác suất thống kê - Nguyễn Đình Huy
Tính giá trị G và
Chọn ô G7 và nhập vào biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo ký hiểu tự điền từ ô G7 đến ô G9
Tính giá trị
Chọn ô G10 và nhập vào biểu thức =POWER(B10,2)
Tính giá trị
Chọn ô G11 và nhập vào biểu thức=SUMSQ(B2:E5)
Tính các giá trị SSR, SSC, SSF, SST và SSE
Các giá trị SSR, SSC và SSF
Chọn ô I7 và nhập vào biểu thức=G7/4-39601/POWER(4,2)
Dùng con trỏ kéo ký hiểu tự điền từ ô I7 đến ô I9
Giá trị SST
Chọn ô I11 và nhập vào biểu thức =G11-G10/POWER(4,2)
Giá trị SSE
Chọn ô I10 và nhập vào biểu thức =I11-SUM(I7:I9)
ạm vi của biến số X (Input X Range) Nhãn dữ liệu (Labels) Mức tin cậy (Condidence Level) Tọa độ đầu ra (Output Range) Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots) 4Phương trình hồi quy SUMMARY OUTPUT Regression Statistics Multiple R 0.462512069 R Square 0.213917414 Adjusted R Square 0.101619901 Standard Error 1.811191587 Observations 9 ANOVA df SS MS F Significance F Regression 1 6.24891746 6.248917 1.904917 0.209994918 Residual 7 22.96290476 3.280415 Total 8 29.21182222 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0% Intercept 2.726666667 1.280705853 2.129034 0.070771 -0.30172145 5.75505479 -0.30172145 5.75505479 X1 0.044539683 0.032270754 1.380187 0.209995 -0.03176853 0.12084789 -0.03176853 0.12084789 t0 = 2,19 < t0,05 = 2.365 (hay ) chấp nhận giả thiết H0. t1 = 1.38 < t0.05 = 2.365 (hay ) chấp nhận giả thiết H0. (hay ) chấp nhận giả thiết H0. ;Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy đều không có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này không thích hợp. 44Kết luận: Yếu tố thời gian không có liên quan đến tuyến tính với hiệu suất của phàn ứng tổng hợp. 4Phương trình hồi quy SUMMARY OUTPUT Regression Statistics Multiple R 0.873933544 R Square 0.76375984 Adjusted R Square 0.730011246 Standard Error 0.99290379 Observations 9 ANOVA df SS MS F Significance F Regression 1 22.31081667 22.31082 22.63086 0.002066188 Residual 7 6.901005556 0.985858 Total 8 29.21182222 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0% Intercept -11.14111111 3.25965608 -3.41788 0.011168 -18.8489729 -3.43324929 -18.8489729 -3.43324929 X2 0.128555556 0.027023418 4.757191 0.002066 0.064655325 0.19245579 0.064655325 0.19245579 t0 = 3.418 < t0,05 = 2.365 (hay ) bác bỏ giả thiết H0. t1 = 4.757 < t0.05 = 2.365 (hay ) bác bỏ giả thiết H0. (hay ) bác bỏ giả thiết H0. ;Vậy cả hai hệ số -11.14(B0) và 0.13 (B2) của phương trình hồi quy đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này thích hợp. 44Kết luận: Yếu tố nhiệt độ có liên quan đến tuyến tính với hiệu suất của phàn ứng tổng hợp. 4Phương trình hồi quy SUMMARY OUTPUT Regression Statistics Multiple R 0.988775634 R Square 0.977677254 Adjusted R Square 0.970236338 Standard Error 0.329668544 Observations 9 ANOVA df SS MS F Significance F Regression 2 28.55973413 14.27987 131.3921 1.11235E-05 Residual 6 0.652088095 0.108681 Total 8 29.21182222 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0% Intercept -12.7 1.101638961 -11.5283 2.56E-05 -15.3956134 -10.0043866 -15.3956134 -10.0043866 X1 0.044539683 0.005873842 7.582718 0.000274 0.03016691 0.05891246 0.03016691 0.05891246 X2 0.128555556 0.008972441 14.32782 7.23E-06 0.106600783 0.15051033 0.106600783 0.15051033 t0 = 11.528 < t0,05 = 2.365 (hay ) bác bỏ giả thiết H0. t1 = 7.583 < t0.05 = 2.365 (hay ) bác bỏ giả thiết H0. t2 = 14.328 < t0.05 = 2.365 (hay ) bác bỏ giả thiết H0. (hay ) bác bỏ giả thiết H0. ;Vậy cả ba hệ số -12.70(B0), 0.04(B1) và 0.13 (B2) của phương trình hồi quy đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này thích hợp. 44Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính đến cả hai yếu tố thời gian và nhiệt độ. Sự tuyến tính của phương trình có thể được trình bày trên biểu đồ phân tán (scatterplots) Muốn dự đoán hiệu suất của phương trình phản ứng bằng phương trình hồi quy làm như sau : ; VD chọn ô B21 tính ô dự đoán và các số liệu cần thiết như hình ta nhập công thức B17+B18*50+B19*115 vào ô B21. Câu 2: Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống. kết quả như sau: Thành phố Mức độ thoả mãn Rất thoả mãn Tương đối Không A 220 121 63 B 130 207 75 C 84 54 25 D 156 95 43 E 122 164 73 Với mức ý nghĩa a = 5%, hãy kiểm định xem mức độ thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phố trên hay không? Giải: Đây là dạng bài so sáng tỷ số đơn giản. 1.Cơ sở lý thuyết: - Giả thiết: Ho : P1=P1,0;P2= P2,0;.;Pk,0 ó các cặp Pi và Pi,0 giống nhau. H1 : có ít nhất một cặp Pi và Pi,0 khác nhau. Giá trị thống kê Oi : các tần số thực nghiệm. Ei : các tần số lý thuyết. Biện luận: 1 > 2(a) à bác bỏ giả thiết Ho (DF=K-1) Trong Excel có hàm Chitest có thể tính giá trị 2 theo biểu thức: Oi j : các tần số thực nghiệm của ô thuộc hàng thứ I cột j. Ei j : các tần số lý thuyết của ô thuộc hàng thứ I cột j; r là số hàng; c là số cột. Xác suất P(X> 2)với bậc tự do DF= (r-1) (c-1) Nếu P(X>2) à chấp nhận giả thiết Ho và ngược lại. 2. Áp dụng MS – Excel: Nhập dữ liệu vào bảng tính: Tính các tần số lý thuyết: Tần số lý thuyết = ( tổng cột x tổng hàng ) / Tổng cột Áp dụng hàm Chitest: Chọn ô B16 và nhập biểu thức = CHITES (B3:D7,B10:D14) Kết luận: vì P( X bác bỏ giả thuyết H0. Vậy mức độ thỏa mãn không phân bố nhau cho 5 thành phố. Bài 3: Bảng số liệu sau đây cho ta số liệu về màu tóc của 422 người: Màu tóc Nam Nữ Đen Hung Nâu Vàng 56 37 84 19 32 66 90 38 Với mức ý nghĩa =1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính không. Giải:Giả thuyết H0: màu tóc có liên hệ với giới tính. Nhập dữ liệu vào bảng tính : A B C D 1 Màu tóc Nam Nữ Tổng hàng 2 Đen 56 32 88 3 Hung 37 66 103 4 Nâu 84 90 174 5 Vàng 19 38 57 6 Tổng cột 196 226 422 7 8 Lý Thuyết 9 Đen 40.87203791 47.12796209 10 Hung 47.83886256 55.16113744 11 Nâu 80.81516588 93.18483412 12 Vàng 26.47393365 30.52606635 13 Gíá trị "P" 0.0002467753 Tính các tổng số Toång haøng (Row totals): Choïn oâ D2 nhaäp bieåu thöùc “=SUM(B2:C2)”. Duøng con troû keùo nuùt töï ñieàn töø oâ D3 ñeán oâ D5. Tổng cột (Column totals): Choïn oâ B6 nhaäp bieåu thöùc “=SUM(B2:B5)”. Duøng con troû keùo nuùt töï ñieàn töø oâ B6 ñeán oâ C6. Toång coäng (Grand total): Choïn oâ D6 nhaäp bieåu thöùc “=SUM(D2:D5)” hay “=SUM(B6:C6)”. Tính tần số lý thuyết Taàn soá lyù thuyeát = (Toång haøng Toång coät) / Toång coäng Maøu ñen Nam : choïn oâ B9 roài nhaäp bieåu thöùc: “=D2*B6/D6” Nöõ : choïn oâ C9 roài nhaäp bieåu thöùc: “=D2*C6 /D6” Maøu hung Nam : choïn oâ B10 roài nhaäp bieåu thöùc: “=D3*B6/D6” Nöõ : choïn oâ C10 roài nhaäp bieåu thöùc: “=D3*C6 /D6” Maøu naâu Nam : choïn oâ B11 roài nhaäp bieåu thöùc: “=D4*B6/D6” Nöõ : choïn oâ C11 roài nhaäp bieåu thöùc: “=D4*C6 /D6” Maøu vaøng Nam : choïn oâ B12 roài nhaäp bieåu thöùc: “=D5*B6/D6” Nöõ : choïn oâ C12 roài nhaäp bieåu thöùc: “=D5*C6 /D6” Áp dụng hàm số “CHITEST” Tính xác suất P(X>) bằng cách chọn ô B13 và nhập biểu thức =CHITEST(B2:C5,B9:C12) Kết quả: P(X>) = 0,000246775 < = 0,01 ... Bác bỏ giả thuyết Ho. Vậy không có mối quan hệ giữa màu tóc và giới tính. Bài 4 : Một nhà nông học tiến hành kiểm định hiệu quả của ba loại cây này trên các cây cà chua và theo dõi số quả cà chua mọc trên mỗi cây. Kết quả thu được như sau: Loại phân A B C 24 18 27 28 21 26 32 25 16 22 19 17 Với mức ý nghĩa =1%, hãy so sánh số quả cà chua mọc trung bình khi bón ba loại phân A, B, C nói trên . Giải: Giả thiết H0: số quả cà chua mọc trung bình khi bón ba loại phân A, B, C là như nhau. Nhập dữ liệu vào bảng tính : Hộp thoại : Anova : Single Factor Bảng dữ liệu nhập vào Áp dụng “Anova : Single Factor” -Chọn Tool ->Data Analysis->OK Điền vào bảng Anova: Single Facetor như hình trên. + Input Range : dùng con trỏ quét từ ô A1 đến ô C5 +Grouped By : chọn cách sắp xếp Columns (theo cột). +Labels in first row : chọn để lấy nhãn dữ liệu . +Alpha : điền vào 0.01 +Output options : xác định vị trí xuất là 1 sheet mới. Anova: Single Factor SUMMARY Groups Count Sum Average Variance A 4 97 24.25 20.25 B 4 104 26 20.66667 C 4 74 18.5 7 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 123.1667 2 61.58333 3.855652 0.061737 8.021517 Within Groups 143.75 9 15.97222 Total 266.9167 11 Kết quả và biện luận: Chấp nhận giả thiết H0 Vậy số quả cà chua mọc trung bình khi bón ba loại phân là như nhau. Câu 5: Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của các hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau: Nghề chính Nghề phụ (1) (2) (3) (4) Trồng lúa (1) Trồng cây ăn trái (2) Chăn nuôi(3) Dịch bụ (4) 3.5 5.6 4.1 7.2 7.4 4.1 2.5 3.2 8.0 6.1 1.8 2.2 3.5 9.6 2.1 1.5 Giải: 1.Cơ sở lý thuyết: Đây là dạng toán phân tích phương sai hai yếu tố (không lặp): ( sách Gíao Trình xác suất và thống kê – Tác giả: PGS.TS Nguyễn Đình Huy phần phụ lục trang 154) 2.Tính toán trên máy tính: Giả thiết: H0 – các giá trị trung bình là bằng nhau Đối giả thiết: H1 – các giá trị trung bình là không bằng nhau. Nhập dữ liệu vào máy tính: Các thực hiện như sau: Áp dụng: “Anova: Two – Factor without Replication” a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”. b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn định các giá trị: - Phạm vi đầu vào (input range): chọn bảng tính ta vừa tạo. -Nhãn dữ liệu (labels in first row/column) -Ngưỡng tin cậy: Alpha = 5% = 0.05 -Phạm vi đầu ra (output Range). Sau khi click Ok thì kết quả được hiện trong wooksheet mới: FR = 1.9966 chấp nhận giả thiết H0 (nghề chính). FC = 0.1105 chấp nhận giả thiết H0 (nghề phụ). Vậy, thu nhập của gia đình giống nhau xét cho nghề chính hay nghề phụ.
File đính kèm:
- bai_tap_lon_xac_suat_thong_ke_nguyen_dinh_huy.doc
- bia.doc