Bài tập lớn môn Xác suất thống kê - Nguyễn Bá Thi

Trên màn hình xuất hiện hộp thoại Correlation, ta nhập vào như hình sau:
+ Phạm vi đầu vào (Input Range), ta kéo từ ô A1 đến ô B13.
+ Ở Grouped By: chọn Columns.
+ Đánh dấu vào Labels in first row.
+ Phạm vi đầu ra (Output Range): ta chọn ô D4. Nhấn OK
19 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: tuando | Lượt xem: 1720 | Lượt tải: 0Free
Tóm tắt nội dung Bài tập lớn môn Xác suất thống kê - Nguyễn Bá Thi, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
Bài 1.
Bệnh đau mắt hột được chia làm 4 thời kỳ T1, T2, T3 và T4. Kết quả kiểm tra mắt hột ở 3 tỉnh A, B, C được cho trong bảng sau đây:
Địa phương
Mức độ đau mắt hột
T1
T2
T3
T4
A
47
189
807
1768
B
53
746
1387
946
C
16
228
438
115
Hãy nhận định xem tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên có giống nhau hay không? Mức ý nghĩa 1%.
Bài làm.
Cơ sở lý thuyết : ĐÂY LÀ DẠNG BÀI SO SÁNH TỈ SỐ
Giả thiết :
Đặt: H0 : P = P0 “Tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên giống nhau.”
Đối H0 : P ≠ P0 “Tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên không giống nhau.”
Để kiểm định giả thiết, ta chọn cách thông qua hàm CHITEST để tính xác suất P(X > χ2).
Công thức:
Trong đó: - nij là tần số thực nghiệm
	- npij là tần số lý thuyết của ô (i,j)
	- r là số hàng, c là số cột
Biện luận :
Nếu P(X > χ2 ) > α : chấp nhận giả thiết H0 
Nếu P(X > χ2 ) < α : bác bỏ giả thiết H0
Với α là mức ý nghĩa.
Áp dụng MS – EXCEL:
Nhập bảng dữ liệu:
Tổng hàng và cột:
Tổng hàng: 
Chọn F3, nhập = SUM(B3:E3), ENTER.
Dùng con trỏ chuột ở góc phải dưới ô F3, hiện ra dấu cộng, nhấp vào và kéo rê xuống F5.
Tổng cột: 
Chọn B6, nhập =SUM(B3:B5), ENTER
Dùng con trỏ chuột ở góc phải dưới ô B6, nhấp vào và kéo rê từ B6 qua F6.
Ta được kết quả như sau:
Tần số lý thuyết của các giá trị:
	Tần số = (Tổng hàng * Tổng cột)/Tổng cộng
Chọn ô B11 nhập =$F3*B6/$F6, sau đó dùng con trỏ chuột kéo từ ô B11 đến ô E11.
Chọn ô B12 nhập =$F4*B6/$F6, sau đó dùng con trỏ chuột kéo từ ô B12 đến ô E12.
Chọn ô B13 nhập =$F5*B6/$F6, sau đó dùng con trỏ chuột kéo từ ô B13 đến ô E13.
Ta được kết quả như sau:
Để tính xác suất P(X > χ2 ) : ta dùng hàm CHITEST
=CHITEST(actual_range,expected_range)
Trong đó: - “actual_range” : dãy chứa các giá trị ban đầu của bảng số liệu. 
 - “expected_range”: dãy chứa tỉ lệ tần số lý thuyết đã tính ở trên.
Chọn ô B14 và nhập: 	=CHITEST(B3:E5,B11:E13)	ENTER
Ta được kết quả sau:
Giá trị P = 6.0949E-215	
Kết quả:
P(X > χ2 ) = 6.0949E-215 < α = 0.01
Ta bác bỏ giả thiết H0: Vậy tình hình đau mắt hột (tỷ lệ phân bố các mức độ T1, T2, T3 và T4) ở 3 tỉnh trên không giống nhau.
Bài 2.
Một nhà tâm lý học muốn nghiên cứu ảnh hưởng của quê quán đối với thời gian cần thiết (tính bằng phút) để một sinh viên có thể trả lời một cấu đố. Bốn nhóm sinh viên từ 4 vùng khác nhau được khảo sát với kết quả thu được như sau:
Nội thành: 	16,5	5,2 	12,1 	14,3
Ngoại thành: 	10,9 	5,2 	10,8 	8,9 	16,1 
Thị trấn: 	18,6 	8,1 	6,4 	7,8
Nông thôn: 	14,2 	24,5 	14,8 	24,9 	5,1
Có kết luận gì về thời gian trung bình nói trên với mức ý nghĩa 5%?
Bài làm.
Cơ sở lý thuyết : 	PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số. Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,,k).
Mô hình:
Yếu tố thí nghiệm
1
2
..
k
Y11
Y21
..
Yk1
Y12
Y22
..
Yk2
..
..
..
..
Y1N
Y2N
..
YkN
Tổng cộng trung bình
T1
T2
..
..
Tk
T
Bảng ANOVA:
Nguồn sai số
Bậc sai số
Tổng số bình phương
Bình phương trung bình
Giá trị thống kê
Yếu tố
Sai số
k-1
N-k
SSF= 
SSE=SST-SSF
MSF= 
MSE=
F= 
Tổng cộng
N-1
SST=
Trắc nghiệm:
Giả thiết:
H0: “Các giá trị trung bình bằng nhau”.
H1: “Ít nhất có hai giá trị trung bình khác nhau”.
Giá trị thống kê: F=
Biện luận: Nếu F Chấp nhận giả thiết H0.
Bài làm:
Đây là bài toán phân tích phương sai một yếu tố thời gian trung bình cần thiết (tính bằng phút) để một sinh viên đến từ những vùng khác nhau có thể trả lời một cấu đố. 
Giả thiết H0: µ1 = µ2 = µ3 = µ4; tức thời gian trung bình cần thiết (tính bằng phút) để một sinh viên đến từ những vùng khác nhau có thể trả lời một cấu đố là như nhau.
Mở MS EXCEL
Nhập dữ liệu vào bảng:
Áp dụng “Anova: Single Factor”
Nhấn lần lượt đơn lệnh Data và lệnh Data Analysis.
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: Single Factor lần lượt ấn định
- Phạm vi đầu vào (Input range)
- Cách sắp xếp theo hàng hay cột (Group by)
- Nhãn dữ liệu (Labels in first row/column)
- Phạm vi đầu ra (Output range)
Bảng Anova:
Kết luận:
Từ giá trị trong bảng Anova:
	F= 1.230355718 Chấp nhận giả thiết H0. 
=> Thời gian trung bình cần thiết (tính bằng phút) để một sinh viên đến từ những vùng khác nhau có thể trả lời một cấu đố là như nhau.
=> Quê quán không ảnh hưởng đối với thời gian cần thiết (tính bằng phút) để một sinh viên có thể trả lời một cấu đố.
Bài 3.
Một trường đại học thu nhập các số liệu về số chứng chỉ mà một sinh viên theo học và số giờ học ở nhà của anh ta trong một tuần:
X
20
25
30
50
20
23
20
25
30
50
20
23
Y
12
13
12
15
16
16
14
16
11
13
13
14
ở đó X là số giờ học, Y là số chứng chỉ. Tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X. Với mức ý nghĩa a = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có tuyến tính không?) ? Tìm đường hồi quy tuyến tính của Y đối với X. Tính sai số tiêu chuẩn của đường hồi quy tuyến tính.
Bài làm.
Nhận xét: Đây là bài toán về phân tích tương quan và hồi quy 
THỰC HIỆN BÀI TOÁN BẰNG EXCEL
(i) Phân tích tương quan tuyến tính
Nhập bảng giá trị:
Vào Data/Data analysis, chọn Correlation:
Trên màn hình xuất hiện hộp thoại Correlation, ta nhập vào như hình sau:
+ Phạm vi đầu vào (Input Range), ta kéo từ ô A1 đến ô B13.
+ Ở Grouped By: chọn Columns.
+ Đánh dấu vào Labels in first row.
+ Phạm vi đầu ra (Output Range): ta chọn ô D4. Nhấn OK.
Ta được kết quả như sau:
Ta tìm được: 	+ Hệ số tương quan : r=-0.073257944
	+ Hệ số xác định : r2=0.005366726
Giả thuyết H0: X và Y không có quan hệ tương quan tuyến tính.
	Ta có: T=rn-21-r2=-0.232286105 (với n = 12)
	Mà : c=2,228 (c là phân vị mức α2=0,025 của phân bố Student với n-2=10 bậc tự do)
	Vì T<c nên chưa có cơ sở bác bỏ giả thiết H0.
	Vậy: Chưa kết luận được X và Y không có quan hệ tương quan tuyến tính.
(ii) Phân tích tương quan phi tuyến:
Phân tích lại bảng số liệu: 
Vào Data/Data analysic, chọn Anova: Single Factor, nhấn OK.
Trên màn hình xuất hiện hộp thoại Anova: Single Factor.
Trong hội thoại Anova: Single Factor, ta điền các giá trị như hình sau:
	+ Phạm vi đầu vào (Input Range): ta kéo từ ô B1 đến ô F5.
	+ Trong Grouped By: chọn Columns
	+ Chọn Labels in first row
	+ Nhập 0.05 vào Alpha.
	+ Phạm vi đầu ra (Output Range): ta chọn ô A8.
Nhấn OK, ta được kết quả như sau:
Rút ra được từ bảng Anova: 
	SSF = 14.5
	SST = 32.25
	Tính được: ηY/X2=SSFSST=0,4496124031
	=> Tỷ số tương quan: ηY/X=0,6705314333
	Suy ra: ηY/X2-r2= 0,4442456771 ≠0
+ Giả thiết H0: X và Y không có tương quan phi tuyến.
	Ta có: F=(ηY/X2-r2)(n-k)(1-ηY/X2)(k-2)=1,883351392 với (n = 12, k = 5)
	Mà c=4,35
(c là phân vị mức α=0,05 của phân bố Fisher bậc tự do (k-2,n-k)=(3,7))
	Vì: F<c nên chấp nhận giả thiết H0.
	Vậy X và Y không có tương quan phi tuyến.
(iii) Tìm đường hồi quy của X và Y
Giả thiết H0: X và Y hồi quy tuyến tính
Ta nhập bảng giá trị.
Vào Data/Data Analysic, chọn Regression.
Trong hội thoại Regression ta nhập vào các giá trị như hình sau:
	+ Phạm vi đầu vào Y (Input Y Range): ta chọn từ ô B1 đến ô B13.
	+ Phạm vi đầu vào X (Input X Range): ta chọn từ ô A1 đến ô A13.
	+ Nhấp vào Labels.
	+ Đánh dấu vào Confidence level (Mức tin cậy) và điền vào 95%
	+ Nhấp vào Line Fit Plots
	+ Tọa độ đầu ra (Output Range): chọn ô D1. Nhấn OK
	Ta được kết quả như sau :
Đường hồi quy của Y đối với X là:
	Y=-0.011538462X+14.07307692
Sai số tiêu chuẩn của đường hồi quy: S=1.791003157
Bài 4.
So sánh chi phí trung bình cho ba loại dịch vụ ở ba thành phố khác nhau trên cơ sở bảng số liệu sau đây:
Các con số trong ô là chi phí trung bình cho 1 lần dịch vụ (đơn vị: 1000đ). Chọn mức ý nghĩa 10%.
Bài làm.
Nhận diện bài toán: PHÂN TÍCH PHƯƠNG SAI 2 NHÂN TỐ KHÔNG LẶP.
Y Cơ sở lý thuyết:
	- Phân tích nhằm đánh giá sự ảnh hưởng của 2 nhân tố A và B trên các giá trị quan sát xij.
	- Giả sử: 	- Nhân tố A có n mức a1, a2,  , an (nhân tố hàng)
- Nhân tố B có m mức b1, b2,  , bn (nhân tố cột)
	- Mẫu điều tra:
- Giả thiết H0:
Trung bình nhân tố cột bằng nhau
Trung bình nhân tố hàng bằng nhau
Không có sự tương tác giữa nhân tố cột và nhân tố hàng
- Tiến hành tính toán theo bảng sau đây:
- Bảng ANOVA:
	- Kết luận:
Nếu FA > Fn-1;(n-1)(m-1);1-a thì bác bỏ yếu tố A (hàng)
Nếu FB > Fm-1;(n-1)(m-1);1-a thì bác bỏ yếu tố B (cột)
Y Thực hiện bằng MS-Excel:
Giả thiết H0:
Chi phí trung bình của 3 loại dịch vụ (ở cùng 1 thành phố) là như nhau
Chi phí trung bình ở 3 thành phố (của cùng 1 loại dịch vụ) là như nhau
Không có sự tương tác giữa loại dịch vụ và thành phố
Nhập bảng dữ liệu:
Chọn menu Data\Data Analysis\Anova: Two-Factor Without Replication
Xuất hiện hộp thoại Anova: Two-Factor Without Replication:
Input Range: Ta quét từ ô A2 đến ô D5
Đánh dấu vào ô Labels
Alpha : Nhập 0.1
Output Range : Nhấp chọn ô A7
Ta được kết quả như sau:
Kết luận :
FA = 24.91588785 > F2;4;0.9 = 4.32455532 è Chi phí trung bình của 3 loại dịch vụ (ở cùng 1 thành phố) là khác nhau.
FB = 24.74766355 > F2;4;0.9 = 4.32455532 è Chi phí trung bình ở 3 thành phố (của cùng 1 loại dịch vụ) là khác nhau.
Cả loại dịch vụ khác nhau và thành phố khác nhau đều có ảnh hưởng chi phí trung bình cho từng loại dịch vụ ở từng thành phố.
File đính kèm:
bai_tap_lon_mon_xac_suat_thong_ke_nguyen_ba_thi.docx
nội dung.pdf