Báo cáo Bài tập lớn môn Xác suất thống kê - Đoàn Anh Thư
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của
hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc
nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân
tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2, ,k).
1 ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO BÀI TẬP XÁC SUẤT THỐNG KÊ GVHD: Thầy Nguyễn Bá Thi Lớp: DT06 - Nhóm: 5 SVTH: Đoàn Anh Thư MSSV: 31203731 Đề Tài: 2 Bài 1 Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: nhóm từ 40-50 tuổi và nhóm từ 50-60 tuổi trong tất cả các công nhân viên chức của Thụy Điển năm 1930 (Đơn vị: 1000 curon) Nhóm tuổi Thu nhập 0-1 1-2 2-3 3-4 4-6 ≥ 6 40-50 7831 26740 35572 20009 11527 6919 50-60 7858 20658 24186 12280 6776 4222 Có sự khác nhau về tỷ lệ thu nhập giữa 2 nhóm tuổi này không? Mức ý nghĩa α = 1%. Bài làm I. Cơ sở lý thuyết : Đây là dạng bài so sánh tỉ số Giả thuyết : - Đặt: Ho :P=P0 “Không có sự khác nhau về thu nhập giữa hai nhóm tuổi.” - Đối H0 :P≠P0 “Có sự khác nhau về thu nhập giữa hai nhóm tuổi.” - Để kiểm định giả thiết, ta chọn cách thông qua hàm CHITEST để tính xác suất P(X > χ2) Biện luận : - Nếu P(X > χ2 ) >α : chấp nhận giả thiết HO - Nếu P(X > χ2 ) <α : bác bỏ HO Với α là mức ý nghĩa. II. Áp dụng MS – EXCEL: Tổng hàng và cột - Tổng hàng: 3 Chọn H3, nhập = SUM(B3:G3), ENTER. Dùng con trỏ chuột ở góc phải dưới ô H3, hiện ra dấu cộng, nhấp vào và kéo rê xuống H4. - Tổng cột: Chọn B5, nhập =SUM(B3:B4), ENTER Dùng con trò ở góc phải dưới ô B5, nhấp và kéo rê từ B5 qua H5. Tần số lý thuyết của các giá trị: Tần số = (Tổng hàng * Tổng cột)/Tổng cộng Chọn ô B10 nhập =B5*$H$3/$H$5, sau đó dùng con trỏ chuột kéo từ ô B10 đến ô G10. Chọn ô B11 nhập =B5*$H$4/$H$5, sau đó dung con trỏ chuột kéo từ ô B11 đến ô G11. Ta được kết quả như sau: 4 - Để tính xác suất P(X > χ2 ) : ta dùng hàm CHITEST =CHITEST(actual_range,expected_range) Trong đó: “actual_range” : dãy chứa các giá trị ban đầu của bảng số liệu. “expected_range”: dãy chứa tỉ lệ tần số lý thuyết đã tính ở trên. Chọn ô B12 và nhập: =CHITEST(B3:G4,B10:G11) ENTER Ta được kết quả sau: P = 3.7317E-204 Kết quả: P(X > χ2 ) = 3.7317E-204 < α = 0.01 Ta bác bỏ giả thiết H0: Vậy có sự khác nhau về thu nhập giữa hai nhóm tuổi. Bài 2 Số kilômét đi được nhờ 1 lít xăng của 4 loại xe ôtô A, B, C, D được ghi lại như sau trên các xe chạy thí nghiệm: Loại A: 25, 23, 20, 27, 20 Loại B: 28, 31, 27, 28, 26 5 Loại C: 32, 33, 30, 28, 32 Loại D: 24, 24, 23, 27, 22 Với mức ý nghĩa α = 5%, hãy so sánh mức tiêu thụ năng lượng trung bình của 4 loại xe nói trên. Bài làm I. Cơ sở lý thuyết: phương pháp phân tích phương sai một yếu tố Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình). Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,,k). Mô hình: Yếu tố thí nghiệm 1 2 .. K Y11 Y21 .. Yk1 Y12 Y22 .. Yk2 .. .. .. .. Y1N Y2N .. YkN Tổng cộng trung bình T1 1 ___ Y T2 2 ___ Y .. .. Tk kY ___ T Y ___ Bảng ANOVA: Nguồn sai số Bậc sai số Tổng số bình phương Bình phương trung bình Giá trị thống kê Yếu tố Sai số k-1 N-k SSF= N T N Tk i i 2 1 2 SSE=SST-SSF MSF= 1k SSF MSE= kN SSE F= MSE MSF Tổng cộng N-1 SST= N T Y k i n j n 2 1 1 2 Trắc nghiệm: Giả thiết: H0: k .....21 “Các giá trị trung bình bằng nhau” H1: ji “Ít nhất có hai giá trị trung bình khác nhau” 6 Giá trị thống kê: F= MSE MSF Biện luận: Nếu F chấp nhận giả thiết H0 II. Thực hành bằng MS Excel: Giả thiết H0: µ1 = µ2 = µ3 = µ4; tức số Km trung bình 4 loại xe trên đi được nhờ 1lit xăng là bằng nhau (hay mức độ tiêu thụ xăng trung bình của 4 loại xe là như nhau) Nhập dữ liệu vào bảng: Áp dụng Anova: Single Factor Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis. Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp thoại Anova: Single Factor lần lượt ấn định Phạm vi đầu vào (Input range) Cách xắp xếp theo hàng hay cột (Group by) Nhấn dử liệu (Labels in fisrt row/column) Phạm vi đầu ra (Output range) Bảng Anova: 7 Kết luận: Từ giá trị trong bảng Anova: F= 13.33333 > Fα= 3.23887 => Bác bỏ H0 hay mức tiêu thụ xăng trung bình của 4 loại xe A,B,C,D là khác nhau . Bài 3 Tính tỉ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập số liệu sau đây. Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có tuyến tính không?). Tìm đường hồi quy của Y đối với X. X 0,9 1,22 1,32 0,77 1,3 1,2 0,9 1,22 1,32 0,77 1,3 1,2 Y -0,3 0,1 0,7 -0,28 -0,25 0,02 0,3 0,5 0,4 -0,2 -0,3 0,08 Bài làm 1. Phương pháp giải bài toán trên Excel 2013. Dạng: phân tích tương quan và hồi quy. Bảng tương quan: X Y 0,9 1,22 1,32 0,77 1,3 1,2 -0,3 0,1 0,7 -0,28 -0,25 0,02 8 0,3 0,5 0,4 -0,2 -0,3 0,08 ni 2 2 2 2 2 2 n=12 Ti 0 0,6 1,1 -0,48 -0,55 0,1 T=0,77 Giả thiết H0 : Hệ số góc α của đường thẳng hồi quy của Y đối với X bằng 0 Bước 1: Nhập dữ liệu vào bảng Bước 2: Sử dụng “Regression” a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis b) Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK c) Trong hộp Regression, lần lượt ấn định các chi tiết: - Phạm vi của biến số Y (Input Y Range) - Phạm vi của biến số X (Input X Range) - Nhãn dữ liệu (Labels) - Mức tin cậy (Confidence Level) - Tọa độ đầu ra (Output Range) - Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (residuals plots...) 9 Ta được bảng kết quả sau: Cách tính hệ số tương quan: + Excel: =CORREL(Miền giá trị X,Miền giá trị Y) +Công thức: 42,13)2,1(2)3,1(2)77,0(2)32,1(2)22,1(2)9,0(2 x 77,0 Ty 5274,15)2,1(2)3,1(2)77,0(2)32,1(2)22,1(2)9,0(2 2222222 x 3677,108,002,0...3,0)3,0( 22222 y 10 2194,1)1,0(2,1)55,0(3,1)48,0(77,0)1,1(32,1)6,0(22,1)0(9,0 xy 2994,4))(( yxxyn 2324,6)( 22 xxn 8195,15)( 22 yyn 432996,0 8195,152324,6 2994,4 r Cách tính hệ số xác định: +Excel: =RSQ(Miền giá trị X, Miền giá trị Y) +Công thức: r2=0,187485 Cách tính tỷ số tương quan: Ta có: 31829,1 12 77,0 3677,1 22 2 n T ySST 12667,0 12 77,0 12 1,0...0 2222 2 n T n T SSF i i ^ 2 096,0 SST SSF 2. Kết luận: Tỷ số tương quan Y đối với X: 096,0 Hệ số tương quan: 0,432996 Hệ số xác định: 0,187485 Đường hồi quy của Y đối với X: YX= -0.70731179+ 0.689846608 X FS4= 0.16 > α=0.05 => X và Y không có mối quan hệ tuyến tính. Bài 4 Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên cơ sở số liệu về doanh thu của một số cửa hàng với 3 lần quan sát như sau (mức ý nghĩa 10%) : Ngành nghề kinh doanh Khu vực kinh doanh Q1 Q2 Q3 Q4 Điện lạnh Vật liệu xây dựng Dịch vụ tin học 5.7:6.1:6.6 5.0:5.2:5.4 3.8:4.1:3.9 3.1:3.3:3.0 15.0:14.4:15.6 1.8:2.0:1.9 4.2:4.6: 4.4 9.5:8.8:9.8 1.3:1.5:1.4 5.0:5.2:5.5 17.5:17.2:18 4.8:4.6:4.9 Bài làm 11 I. Cơ cở lý thuyết : Dạng bài : Phương pháp phân tích phương sai hai yếu tố (có lặp) Phần mềm : Microsoft Exel 2010 - Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij (i=1,2,.r,yếu tố A:j=1,2,.c,yếu tố B). Mỗi mức (A1, B1) có sự lập lại k lần thí nghiệm mỗi hàng sẽ biểu thị một bản sao của dữ liệu và trong đầu ra sẽ có thêm một đại lượng tương tác F1 giữa hai yếu tố A và B. Mô hình Yếu tố A Yếu tố B Tổng cộng Tung bình 1 2 c Y11 Y21 Yr1 Y12 Y22 ..... Yr2 . . . . Y1C Y2C .... Yr Y1 Y2 . Yr Ῡ1 Ῡ2 Ῡr Tổng cộng Trung bình T1 Ῡ1 T2 Ῡ2 . . TC ῩC T.. Ῡ.. BẢNG ANOVA Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Yếu tố A (hàng) (r-1) FR Yếu tố B (cột) Sai số (c-1) (r-1)(c-1) SSE=SST-(SSF+SSB) Fc TỔNG CỘNG (rc-1) Trắc nghiệm: H0 : µ1=µ2=..=µk “các giá trị trung bình là bằng nhau” H1 : µi≠ µj => “ ít nhất có hai giá trị trung bình khác nhau” Giá trị trung bình : 12 FR FC Biện luận : Nếu FR chấp nhận H0 ( yếu tố A) Nếu Fc chấp nhận H0 ( yếu tố B) nếu F1 yếu tố A và yếu tố B độc lập với nhau II.Thực hành bằng MS Excel: Giả thiết H0 : µ1=µ2=..=µ4 “các giá trị trung bình là bằng nhau” Nhập dữ liệu vào bảng : Áp dụng Anova: “ tow-factor without replication”: Các yếu tố cần nhập: - Input Range: vùng dữ liệu. - Rows per sample: số dòng lặp là 3. - Alpha: mức ý nghĩa là 0.01. 13 Chọn OK ta được kết quả : Bảng ANOVA 14 BIỆN LUẬN : - FR= 2549.283>F0.01= 5.613 => bác bỏ giả thuyết H0 ( Ngành nghề kinh doanh) hay ngành nghề kinh doanh có ảnh hưởng tới thu nhập cửa hàng. - FC = 333.6921> F0.01=4.718 => bác bỏ giả thuyết H0 (quận) hay yếu tố quận có ảnh hưởng tới thu nhập của cửa hàng. - F1 =351.17 > F0.01= 3.67 => hai yếu tố quận và ngành nghề kinh doanh có mối quan hệ phụ thuộc với nhau. Vậy cả hai yếu tố ngành nghề kinh doanh và quận có ảnh hưởng tới thu nhập của cửa hàng ở các quận và 2 yếu tố này có mối quan hệ tương tác với nhau.
File đính kèm:
- bao_cao_bai_tap_lon_mon_xac_suat_thong_ke_doan_anh_thu.pdf