Bài tập lớn môn Xác suất thống kê - Nguyễn Bá Thi
Trên màn hình xuất hiện hộp thoại Correlation, ta nhập vào như hình sau:
+ Phạm vi đầu vào (Input Range), ta kéo từ ô A1 đến ô B13.
+ Ở Grouped By: chọn Columns.
+ Đánh dấu vào Labels in first row.
+ Phạm vi đầu ra (Output Range): ta chọn ô D4. Nhấn OK
Bài 1. Bệnh đau mắt hột được chia làm 4 thời kỳ T1, T2, T3 và T4. Kết quả kiểm tra mắt hột ở 3 tỉnh A, B, C được cho trong bảng sau đây: Địa phương Mức độ đau mắt hột T1 T2 T3 T4 A 47 189 807 1768 B 53 746 1387 946 C 16 228 438 115 Hãy nhận định xem tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên có giống nhau hay không? Mức ý nghĩa 1%. Bài làm. Cơ sở lý thuyết : ĐÂY LÀ DẠNG BÀI SO SÁNH TỈ SỐ Giả thiết : Đặt: H0 : P = P0 “Tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên giống nhau.” Đối H0 : P ≠ P0 “Tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên không giống nhau.” Để kiểm định giả thiết, ta chọn cách thông qua hàm CHITEST để tính xác suất P(X > χ2). Công thức: Trong đó: - nij là tần số thực nghiệm - npij là tần số lý thuyết của ô (i,j) - r là số hàng, c là số cột Biện luận : Nếu P(X > χ2 ) > α : chấp nhận giả thiết H0 Nếu P(X > χ2 ) < α : bác bỏ giả thiết H0 Với α là mức ý nghĩa. Áp dụng MS – EXCEL: Nhập bảng dữ liệu: Tổng hàng và cột: Tổng hàng: Chọn F3, nhập = SUM(B3:E3), ENTER. Dùng con trỏ chuột ở góc phải dưới ô F3, hiện ra dấu cộng, nhấp vào và kéo rê xuống F5. Tổng cột: Chọn B6, nhập =SUM(B3:B5), ENTER Dùng con trỏ chuột ở góc phải dưới ô B6, nhấp vào và kéo rê từ B6 qua F6. Ta được kết quả như sau: Tần số lý thuyết của các giá trị: Tần số = (Tổng hàng * Tổng cột)/Tổng cộng Chọn ô B11 nhập =$F3*B6/$F6, sau đó dùng con trỏ chuột kéo từ ô B11 đến ô E11. Chọn ô B12 nhập =$F4*B6/$F6, sau đó dùng con trỏ chuột kéo từ ô B12 đến ô E12. Chọn ô B13 nhập =$F5*B6/$F6, sau đó dùng con trỏ chuột kéo từ ô B13 đến ô E13. Ta được kết quả như sau: Để tính xác suất P(X > χ2 ) : ta dùng hàm CHITEST =CHITEST(actual_range,expected_range) Trong đó: - “actual_range” : dãy chứa các giá trị ban đầu của bảng số liệu. - “expected_range”: dãy chứa tỉ lệ tần số lý thuyết đã tính ở trên. Chọn ô B14 và nhập: =CHITEST(B3:E5,B11:E13) ENTER Ta được kết quả sau: Giá trị P = 6.0949E-215 Kết quả: P(X > χ2 ) = 6.0949E-215 < α = 0.01 Ta bác bỏ giả thiết H0: Vậy tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên không giống nhau. Bài 2. Một nhà tâm lý học muốn nghiên cứu ảnh hưởng của quê quán đối với thời gian cần thiết (tính bằng phút) để một sinh viên có thể trả lời một cấu đố. Bốn nhóm sinh viên từ 4 vùng khác nhau được khảo sát với kết quả thu được như sau: Nội thành: 16,5 5,2 12,1 14,3 Ngoại thành: 10,9 5,2 10,8 8,9 16,1 Thị trấn: 18,6 8,1 6,4 7,8 Nông thôn: 14,2 24,5 14,8 24,9 5,1 Có kết luận gì về thời gian trung bình nói trên với mức ý nghĩa 5%? Bài làm. Cơ sở lý thuyết : PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số. Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình). Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,,k). Mô hình: Yếu tố thí nghiệm 1 2 .. k Y11 Y21 .. Yk1 Y12 Y22 .. Yk2 .. .. .. .. Y1N Y2N .. YkN Tổng cộng trung bình T1 T2 .. .. Tk T Bảng ANOVA: Nguồn sai số Bậc sai số Tổng số bình phương Bình phương trung bình Giá trị thống kê Yếu tố Sai số k-1 N-k SSF= SSE=SST-SSF MSF= MSE= F= Tổng cộng N-1 SST= Trắc nghiệm: Giả thiết: H0: “Các giá trị trung bình bằng nhau”. H1: “Ít nhất có hai giá trị trung bình khác nhau”. Giá trị thống kê: F= Biện luận: Nếu F Chấp nhận giả thiết H0. Bài làm: Đây là bài toán phân tích phương sai một yếu tố thời gian trung bình cần thiết (tính bằng phút) để một sinh viên đến từ những vùng khác nhau có thể trả lời một cấu đố. Giả thiết H0: µ1 = µ2 = µ3 = µ4; tức thời gian trung bình cần thiết (tính bằng phút) để một sinh viên đến từ những vùng khác nhau có thể trả lời một cấu đố là như nhau. Mở MS EXCEL Nhập dữ liệu vào bảng: Áp dụng “Anova: Single Factor” Nhấn lần lượt đơn lệnh Data và lệnh Data Analysis. Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp thoại Anova: Single Factor lần lượt ấn định - Phạm vi đầu vào (Input range) - Cách sắp xếp theo hàng hay cột (Group by) - Nhãn dữ liệu (Labels in first row/column) - Phạm vi đầu ra (Output range) Bảng Anova: Kết luận: Từ giá trị trong bảng Anova: F= 1.230355718 Chấp nhận giả thiết H0. => Thời gian trung bình cần thiết (tính bằng phút) để một sinh viên đến từ những vùng khác nhau có thể trả lời một cấu đố là như nhau. => Quê quán không ảnh hưởng đối với thời gian cần thiết (tính bằng phút) để một sinh viên có thể trả lời một cấu đố. Bài 3. Một trường đại học thu nhập các số liệu về số chứng chỉ mà một sinh viên theo học và số giờ học ở nhà của anh ta trong một tuần: X 20 25 30 50 20 23 20 25 30 50 20 23 Y 12 13 12 15 16 16 14 16 11 13 13 14 ở đó X là số giờ học, Y là số chứng chỉ. Tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X. Với mức ý nghĩa a = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có tuyến tính không?) ? Tìm đường hồi quy tuyến tính của Y đối với X. Tính sai số tiêu chuẩn của đường hồi quy tuyến tính. Bài làm. Nhận xét: Đây là bài toán về phân tích tương quan và hồi quy THỰC HIỆN BÀI TOÁN BẰNG EXCEL (i) Phân tích tương quan tuyến tính Nhập bảng giá trị: Vào Data/Data analysis, chọn Correlation: Trên màn hình xuất hiện hộp thoại Correlation, ta nhập vào như hình sau: + Phạm vi đầu vào (Input Range), ta kéo từ ô A1 đến ô B13. + Ở Grouped By: chọn Columns. + Đánh dấu vào Labels in first row. + Phạm vi đầu ra (Output Range): ta chọn ô D4. Nhấn OK. Ta được kết quả như sau: Ta tìm được: + Hệ số tương quan : r=-0.073257944 + Hệ số xác định : r2=0.005366726 Giả thuyết H0: X và Y không có quan hệ tương quan tuyến tính. Ta có: T=rn-21-r2=-0.232286105 (với n = 12) Mà : c=2,228 (c là phân vị mức α2=0,025 của phân bố Student với n-2=10 bậc tự do) Vì T<c nên chưa có cơ sở bác bỏ giả thiết H0. Vậy: Chưa kết luận được X và Y không có quan hệ tương quan tuyến tính. (ii) Phân tích tương quan phi tuyến: Phân tích lại bảng số liệu: Vào Data/Data analysic, chọn Anova: Single Factor, nhấn OK. Trên màn hình xuất hiện hộp thoại Anova: Single Factor. Trong hội thoại Anova: Single Factor, ta điền các giá trị như hình sau: + Phạm vi đầu vào (Input Range): ta kéo từ ô B1 đến ô F5. + Trong Grouped By: chọn Columns + Chọn Labels in first row + Nhập 0.05 vào Alpha. + Phạm vi đầu ra (Output Range): ta chọn ô A8. Nhấn OK, ta được kết quả như sau: Rút ra được từ bảng Anova: SSF = 14.5 SST = 32.25 Tính được: ηY/X2=SSFSST=0,4496124031 => Tỷ số tương quan: ηY/X=0,6705314333 Suy ra: ηY/X2-r2= 0,4442456771 ≠0 + Giả thiết H0: X và Y không có tương quan phi tuyến. Ta có: F=(ηY/X2-r2)(n-k)(1-ηY/X2)(k-2)=1,883351392 với (n = 12, k = 5) Mà c=4,35 (c là phân vị mức α=0,05 của phân bố Fisher bậc tự do (k-2,n-k)=(3,7)) Vì: F<c nên chấp nhận giả thiết H0. Vậy X và Y không có tương quan phi tuyến. (iii) Tìm đường hồi quy của X và Y Giả thiết H0: X và Y hồi quy tuyến tính Ta nhập bảng giá trị. Vào Data/Data Analysic, chọn Regression. Trong hội thoại Regression ta nhập vào các giá trị như hình sau: + Phạm vi đầu vào Y (Input Y Range): ta chọn từ ô B1 đến ô B13. + Phạm vi đầu vào X (Input X Range): ta chọn từ ô A1 đến ô A13. + Nhấp vào Labels. + Đánh dấu vào Confidence level (Mức tin cậy) và điền vào 95% + Nhấp vào Line Fit Plots + Tọa độ đầu ra (Output Range): chọn ô D1. Nhấn OK Ta được kết quả như sau : Đường hồi quy của Y đối với X là: Y=-0.011538462X+14.07307692 Sai số tiêu chuẩn của đường hồi quy: S=1.791003157 Bài 4. So sánh chi phí trung bình cho ba loại dịch vụ ở ba thành phố khác nhau trên cơ sở bảng số liệu sau đây: Các con số trong ô là chi phí trung bình cho 1 lần dịch vụ (đơn vị: 1000đ). Chọn mức ý nghĩa 10%. Bài làm. Nhận diện bài toán: PHÂN TÍCH PHƯƠNG SAI 2 NHÂN TỐ KHÔNG LẶP. Y Cơ sở lý thuyết: - Phân tích nhằm đánh giá sự ảnh hưởng của 2 nhân tố A và B trên các giá trị quan sát xij. - Giả sử: - Nhân tố A có n mức a1, a2, , an (nhân tố hàng) - Nhân tố B có m mức b1, b2, , bn (nhân tố cột) - Mẫu điều tra: - Giả thiết H0: Trung bình nhân tố cột bằng nhau Trung bình nhân tố hàng bằng nhau Không có sự tương tác giữa nhân tố cột và nhân tố hàng - Tiến hành tính toán theo bảng sau đây: - Bảng ANOVA: - Kết luận: Nếu FA > Fn-1;(n-1)(m-1);1-a thì bác bỏ yếu tố A (hàng) Nếu FB > Fm-1;(n-1)(m-1);1-a thì bác bỏ yếu tố B (cột) Y Thực hiện bằng MS-Excel: Giả thiết H0: Chi phí trung bình của 3 loại dịch vụ (ở cùng 1 thành phố) là như nhau Chi phí trung bình ở 3 thành phố (của cùng 1 loại dịch vụ) là như nhau Không có sự tương tác giữa loại dịch vụ và thành phố Nhập bảng dữ liệu: Chọn menu Data\Data Analysis\Anova: Two-Factor Without Replication Xuất hiện hộp thoại Anova: Two-Factor Without Replication: Input Range: Ta quét từ ô A2 đến ô D5 Đánh dấu vào ô Labels Alpha : Nhập 0.1 Output Range : Nhấp chọn ô A7 Ta được kết quả như sau: Kết luận : FA = 24.91588785 > F2;4;0.9 = 4.32455532 è Chi phí trung bình của 3 loại dịch vụ (ở cùng 1 thành phố) là khác nhau. FB = 24.74766355 > F2;4;0.9 = 4.32455532 è Chi phí trung bình ở 3 thành phố (của cùng 1 loại dịch vụ) là khác nhau. Cả loại dịch vụ khác nhau và thành phố khác nhau đều có ảnh hưởng chi phí trung bình cho từng loại dịch vụ ở từng thành phố.
File đính kèm:
- bai_tap_lon_mon_xac_suat_thong_ke_nguyen_ba_thi.docx
- nội dung.pdf