Bài tập lớn Xác suất thống kê - Lê Ngọc Sáng
- Các giá trị T.j.
Chọn ô B8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí tự tự điền từ ô B8 đến ô E8
- Các giá trị T.k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C4,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
- Giá trị T
Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
ữ liệu vào bảng như hình vẽ. Tính tổng các hàng và cột bằng hàm Sum. (=Sum(‘Trị bảng dò”) nhấn Enter) Tính tần số lý thuyết = (tổng hàng*tổng cột)/tổng cột Gọi hàm CHIEST tính giá trị P. Nhấp vào TAB Formulars chọn Insert Funcion chọn Chitest nhấn OK. Ở hộp thoại Funcion Agruments, nhập TSQS vào Actual_range, TSLT vào mục Expected_range. Nhấp OK. Kết quả tính được: P= 0.022515147 < α = 0,025 Vậy ta loại bỏ giả thiết H0. Bài 3 ( khac ) Đề bài: Soá kiloâmeùt ñi ñöôïc nhôø 1 lít xaêng cuûa 4 loaïi xe oâtoâ A, B, C, D ñöôïc ghi laïi nhö sau treân caùc xe chaïy thí nghieäm: Loaïi A: 25, 23, 20, 27, 20 Loaïi B: 28, 31, 27, 28, 26 Loaïi C: 32, 33, 30, 28, 32 Loaïi D: 24, 24, 23, 27, 22 Vôùi möùc yù nghóa a = 5%, haõy so saùnh möùc tieâu thuï xaêng cuûa 4 loaïi xe noùi treân. Cơ sở lý thuyết : PHAÂN TÍCH PHÖÔNG SAI MOÄT NHAÂN TOÁ Giaû söû ta coù k ÑLNN coù phaân boá chuaån X1, X2, ... Xk, trong ñoù Xi~N(μi,σi2). Caùc giaù trò trung bình mi vaø phöông sai ñeàu chöa bieát. Tuy nhieân chuùng ta giaû thieát raèng caùc phöông sai baèng nhau: Chuùng ta muoán kieåm ñònh xem lieäu caùc giaù trò trung bình mi naøy coù nhö nhau hay khoâng: Trong thống keâ vaán ñeà treân thöôøng ñöôïc xem xeùt döôùi goùc ñoä sau ñaây. Giaû söû chuùng ta quan taâm ñeán moät nhaân toá X (factor) naøo ñoù. Nhaân toá X coù theå xem xeùt ôû k möùc khaùc nhau. Kyù hieäu Xi laø hieäu quaû cuûa vieäc taùc ñoäng nhaân toá X ôû möùc i ñoái vôùi caù theå. Nhö vaäy mi laø hieäu quaû trung bình cuûa nhaân toá X ôû möùc i. chuùng ta muoán bieát khi cho nhaân toá X thay ñoåi caùc möùc khaùc nhau thì ñieàu ñoù coù aûnh höôûng hay khoâng tôùi hieäu quaû trung bình. Giả sử {x11,x21,,xn1} laø moät maãu coù kích thöôùc n1 ruùt ra töø taäp hôïp chính caùc giaù trò cuûa X1; {x12,x22,,xn2} laø moät maãu kích thöôùc ruùt ra töø taäp hôïp chính caùc giaù trò cuûa X2,..., {x1k,x2k,,xnk} laø moät maãu kích thöôùc nk ruùt ra töø taäp hôïp chính caùc giaù trò cuûa Xk. Caùc soá lieäu thu ñöôïc trình baøy thaønh baûng ôû daïng sau ñaây: Caùc möùc nhaân toá 1 2 ... k i=1kni x11 x12 ... x1k x21 x22 ... x2k ... ... ... ... ... Toång soá T1 T2 ... Tk Trung bình ... Ta ñöa ra moät soá kí hieäu sau *) Trung bình cuûa maãu thöù i (töùc laø maãu ôû coät thöù i trong baûng treân): *) Trung bình chung ôû ñoù n = n1 + n2 + ... + nk; T = T1 + T2 + ... + Tk. *) Toång bình phöông chung kyù hieäu laø SST (vieát taét laø chöõ Total Sum of Squares) ñöôïc tính theo coâng thöùc sau: coù theå chöùng minh raèng +) Toång bình phöông do nhaân toá kyù hieäu laø SSF (vieát taét cuûa chöõ Sum of Squares for Factor) ñöôïc tính theo coâng thöùc sau: +) Toång bình phöông do sai soá kyù hieäu laø SSE (vieát taét cuûa chöõ Sum of Squares for the Error) ñöôïc tính theo coâng thöùc: Töø coâng thöùc treân ta thaáy SST = SSF + SSE + Trung bình bình phöông cuûa nhaân toá, kyù hieäu laø MSF (vieát taét cuûa chöõ Mean Square for Factor) ñöôïc tính bôûi coâng thöùc: + k – 1 ñöôïc goïi laø baäc töï do cuûa nhaân toá. Trung bình bình phöông cuûa sai soá, kyù hieäu laø MSS (vieát taét cuûa chöõ Mean Square for Error) ñöôïc tính bôûi coâng thöùc: n – k ñöôïc goïi laø baäc töï do cuûa sai soá. + Tyû soá F ñöôïc tính bôûi coâng thöùc Caùc keát quaû noùi treân ñöôïc trình baøy trong baûng sau ñaây goïi laø ANOVA (vieát taét cuûa chuõ Analysis of Variance: phaân tích phöông sai) Baûng ANOVA Nguoàn Toång bình phöông Baäc töï do Trung bình bình phöông Tyû soá F Nhaân toá SSF k – 1 MSF MSF/MSE Sai soá SSE n – k MSE Toång soá SST n – 1 Ngöôøi ta chöùng minh ñöôïc raèng neáu giaû thieát Ho ñuùng thì tyû soá F seõ coù phaân boá Fisher vôùi baäc töï do laø (k – 1, n – k) Thaønh thöû giaû thieát Ho seõ bò baùc boû ôû möùc yù nghóa a cuûa phaân boá Fisher vôùi baäc töï do laø (k – 1, n – k). Trong baûng IV, k – 1 ñöôïc goïi laø baäc töï do ôû maãu soá. Phöông phaùp kieåm ñònh noùi treân ñöôïc goïi laø phaân tích phöông sai moät nhaân toá. Caùc böôùc trong ANOVA ñöôïc tieán haønh theo trình töï sau ñaây: Böôùc 1: Tính SSF Böôùc 2: Tính SST Böôùc 3: Tính SSE = SST – SSF Böôùc 4: Tính Böôùc 5: Tính Böôùc 6: Tính Böôùc 7: Tra baûng phaân boá F ñeå tìm c roài so saùnh vôùi F vaø ruùt ra keát luaän. Áp dụng vào bài toán. Tính tay: = 26.5 ; = 23 ; = 28 ; = 31 ; = 24. Từ (3.4) SSF = 205 Từ (3.6) SST = 287 Từ (3.5) SSE = 287 - 205 = 82 Từ (3.2) MSF = 68.33 Từ (3.3) MSE = 5.125 Từ (3.1) F = MSF/MSE = 13.33 Bảng ANOVA : Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F Nhân tố 205 3 68.33 13.33 Sai số 82 16 5.125 Tổng số 287 19 Kết quả tính bằng Excel: Nhập dữ liệu vào bảng tính: Sau đó vào data analysis: Chọn ANOVA: Single Factor Trong hộp thoại Anova:single factor điền các thông số : Sau đó nhấp OK được kết quả: Kết quả và biện luận: F=13,333 > F0,05=3.238 _⟹ Bác bỏ giả thuyết H0 . Vậy lượng xăng tiêu thụ của ít nhất 2 loại xe là khác nhau. Bài 4: Đề bài Một nhóm gồm 105 nhà DN Mỹ được phân loại căn cứ theo thu nhập hằng năm và tuổi của họ. Kết quả thu được như sau: Tuổi Thu nhập Dưới 100 000 $ Từ 100 000 $ - 399 599 $ Trên 400 000 $ Dưới 40 6 9 5 Từ 40 đến 54 18 19 8 Trên 54 11 12 17 Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập không có quan hệ với nhau. 1.Cơ sở lý thuyết. Đây là bài toán thuộc dạng “phân tích quan hệ” của hai dấu hiệu “Tuổi” và “Thu nhập hằng năm”. Xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết ta xét bài toán kiểm định tính độc lập của hai dấu hiệu A, B. Ta chia dấu hiệu A thành các mức độ: A1 , A2 ,, An, chia B thành các mức độ: B1 ,B2 ,,Bm. Xét một mẫu ngẫu nhiên N cá thể. Mỗi cá thể sẽ ứng với dấu hiệu A ở mức độ Ai, ứng với dấu hiệu B ở mức độ Bj nào đó. Các số liệu Nij trong bảng sau (gọi là bảng liên hợp các dấu hiệu-Contigency Table). A B B1 B2 Bm Tổng A1 N11 N12 N1m N10 A2 N21 N22 N2m N20 An Nn1 Nn2 Nnm Nn0 Tổng N01 N02 N0m SN Gọi pij là xác suất để 1 cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj; pio và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj. Ta có pio≈, poj≈. Nếu giả thiết H: “Hai dấu hiệu A và B độc lập” ta có hệ thức: pij= pio. poj Nếu H đúng thì pij≈. Và số cá thể có đồng thời dấu hiệu Ai và Bj xấp xỉ: Các sốVij gọi là tần số lý thuyết, còn Nij trong bảng gọi là tần số quan sát. Khoản cách giữa TSLT và TSQS được đo bằng đại lượng sau: Người ta chứng minh được rằng nếu N lớn và các TS lý thuyết không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ phân bố với bậc tự do là (M-1)(N-1). Do đó H sẽ bị bác bỏ ở mức ý nghĩa nếu T>, trong đólà phân vị mức của phân bố với (M-1)(N-1) bậc tự do. (Bảng Laplace trang 186 Giáo trình XSTK 2009). 2.Kết quả tính tay. Áp dụng công thức , với SN =105, m=n=3 ta có Qqs= 6.8538 Do nên chấp nhận giả thiết H: Tuổi và mức thu nhập không có quan hệ với nhau. 3.Kết quả tính bằng Excel. Xét giả thiết H: “Tuổi và mức thu nhập không có quan hệ gì với nhau” Bước 1: NHẬP DỮ LIỆU. Nhập dữ liệu thực tế vào Excel; Tính tổng: B6=SUM(B3;B5), C6=SUM(C3;C5), D6=SUM(D3;D5), E3=SUM(B3;D3), E4=SUM(B4;D4); E5=SUM(B5;D5); Tính tần số lý thuyết: B11=B6*E3/E6; B12=B6*E4/E6 B13=B6*E5/E6 C11=C6*E3/E6 C12=C6*E4/E6 C13=C6*E5/E6 Bước 2: TÍNH TOÁN Dùng hàm CHITES để tính P. Nhập vào ô B18 cú pháp: B18=CHITEST(B3,D5;B11,D13) Hoặc cách khác: Trong Tab Formulas chọn nhóm Insert Function -> Xuất hiện hộp thoại. Nhập các giá trị tần số thực tế vào ô Actual_range. Nhập các giá trị tần số lý thuyết vào ô Expected_range. Nhấn OK. Ta được P= 0.14375984 Bước 4: KẾT LUẬN Do P>α=0.01nên chấp nhận giả thiết H. Vậy: Tuổi và mức thu nhập không có quan hệ với nhau. Kết quả tính toán bằng tay và bằng Excel giống nhau. Bài 5: Đề bài: Ngày khảo sát Quận nội thành Q1 Q2 Q3 Q4 Q5 Thứ 2 22 18 22 18 18 Thứ 3 21 18 22 18 19 Thứ 4 25 25 25 19 20 Thứ 5 24 24 18 20 22 Thứ 6 28 19 15 22 25 Thứ 7 30 22 28 25 25 Câu hỏi: Lượng báo bán ra ở 5 quận có thực sự khác nhau không?Chọn α=5%.Lượng báo bán ra có chịu tác động của các yếu tố ngày trong tuần không? 1.Cơ sở lý thuyết:Phân tích phương sai 2 yếu tố không lặp và lập bảng ANOVA Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố A và B trên các giá trị quan sát Xij (i=1,2r(row:hàng):yếu tố A;j=1,2 c(column:cột):yếu tố B). Mô hình A B Tổng cộng 1 2 c 1 X11 X12 X1c T1. 2 X21 X22 X2c T2. R Xr1 Xr2 Xrc Tr Tổng cộng T.1 T.2 T.c T Bảng ANOVA Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê Yếu tố A(hàng) r-1 SSFA MSFA=SSFA(r-1) Fr=MSFAMSE Yếu tố B(cột) c-1 SSFB MSFB=SSFB(c-1) Fc=MSFAMSE Sai số (r-1)(c-1) SSE=SST-(SSFA+SSFB) MSE=SSEr-1(c-1) Tổng cộng (rc-1) SST SSFA=i=1rTi2c-T2rc SSFB=j=1cTj2r-T2rc SST=i=1rj=1CXij2-T2rc Kiểm định: Giả thuyết H:Các giá trị trung bình bằng nhau. Đối giả thuyết H:Ít nhất 2 giá trị trung bình khác nhau. Biện Luận: Nếu FR<Fα:chấp nhận H(đối với yếu tố A) Nếu FC<Fα:chấp nhận H(đối với yếu tố B) 2.Kết quả làm bằng tay: Ta có các kết quả sau: SSFA=141.5 SSFB=78.5 SST=378.7 SSE=158.7 MSFA=28.3 MSFB=19.6 MSE=7.9 FR=3.5823 FC=2.481 Ta có bảng ANOVA như sau: Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê Yếu tố A(ngày) 5 141.5 28.3 3.5823 Yếu tố B(nơi) 4 78.5 19.6 2.4810 Sai số 20 158.7 7.9 Tổng cộng 29 378.7 3.Kết quả làm trên excel: Nhập dữ liệu vào bảng tính Sau đó vào Data /Data Analysis Chọn Anova:Two-Factor Without Replication Trong hộp thoại điền vào các thông tin sau: Sau đó Ok ta có kết quả Kết quả và biện luận FR=3.5672>F0.05=2.7109:bác bỏ giả thuyết H(ngày bán) FC=2.4748<F0.05=2.866081:chấp nhận giả thuyết H(nơi bán) Vậy lượng báo bán ra ở 5 quận không khác nhau và có chịu tác động của yếu tố ngày trong tuần. - - - - - - - - - - Hết - - - - - - - - - -
File đính kèm:
- bai_tap_lon_xac_suat_thong_ke_le_ngoc_sang.docx