Báo cáo Bài tập lớn môn Xác suất thống kê - Đoàn Anh Thư

Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của

hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc

nghiệm t hay z (so sánh hai giá trị trung bình).

Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân

tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2, ,k).

pdf14 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: tuando | Lượt xem: 494 | Lượt tải: 0download
Tóm tắt nội dung Báo cáo Bài tập lớn môn Xác suất thống kê - Đoàn Anh Thư, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
1 
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH 
TRƯỜNG ĐẠI HỌC BÁCH KHOA 
BÁO CÁO BÀI TẬP 
XÁC SUẤT THỐNG KÊ 
GVHD: Thầy Nguyễn Bá Thi 
Lớp: DT06 - Nhóm: 5 
SVTH: Đoàn Anh Thư 
MSSV: 31203731 
Đề Tài: 
2 
Bài 1 
 Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: nhóm từ 40-50 tuổi và nhóm từ 
50-60 tuổi trong tất cả các công nhân viên chức của Thụy Điển năm 1930 (Đơn vị: 1000 curon) 
Nhóm tuổi Thu nhập 
0-1 1-2 2-3 3-4 4-6 ≥ 6 
40-50 7831 26740 35572 20009 11527 6919 
50-60 7858 20658 24186 12280 6776 4222 
Có sự khác nhau về tỷ lệ thu nhập giữa 2 nhóm tuổi này không? Mức ý nghĩa α = 1%. 
Bài làm 
I. Cơ sở lý thuyết : Đây là dạng bài so sánh tỉ số 
 Giả thuyết : 
- Đặt: Ho :P=P0 “Không có sự khác nhau về thu nhập giữa hai nhóm tuổi.” 
- Đối H0 :P≠P0 “Có sự khác nhau về thu nhập giữa hai nhóm tuổi.” 
- Để kiểm định giả thiết, ta chọn cách thông qua hàm CHITEST để tính xác suất 
P(X > χ2) 
Biện luận : 
- Nếu P(X > χ2 ) >α : chấp nhận giả thiết HO 
- Nếu P(X > χ2 ) <α : bác bỏ HO 
Với α là mức ý nghĩa. 
II. Áp dụng MS – EXCEL: 
Tổng hàng và cột 
 - Tổng hàng: 
3 
 Chọn H3, nhập = SUM(B3:G3), ENTER. 
 Dùng con trỏ chuột ở góc phải dưới ô H3, hiện ra dấu cộng, nhấp vào và 
kéo rê xuống H4. 
- Tổng cột: 
 Chọn B5, nhập =SUM(B3:B4), ENTER 
 Dùng con trò ở góc phải dưới ô B5, nhấp và kéo rê từ B5 qua H5. 
Tần số lý thuyết của các giá trị: 
 Tần số = (Tổng hàng * Tổng cột)/Tổng cộng 
 Chọn ô B10 nhập =B5*$H$3/$H$5, sau đó dùng con trỏ chuột kéo từ ô B10 đến 
ô G10. 
 Chọn ô B11 nhập =B5*$H$4/$H$5, sau đó dung con trỏ chuột kéo từ ô B11 đến 
ô G11. 
Ta được kết quả như sau: 
4 
- Để tính xác suất P(X > χ2 ) : ta dùng hàm CHITEST 
 =CHITEST(actual_range,expected_range) 
Trong đó: “actual_range” : dãy chứa các giá trị ban đầu của bảng số liệu. 
 “expected_range”: dãy chứa tỉ lệ tần số lý thuyết đã tính ở trên. 
Chọn ô B12 và nhập: =CHITEST(B3:G4,B10:G11) ENTER 
Ta được kết quả sau: P = 3.7317E-204 
Kết quả: 
P(X > χ2 ) = 3.7317E-204 < α = 0.01 
Ta bác bỏ giả thiết H0: Vậy có sự khác nhau về thu nhập giữa hai nhóm tuổi. 
Bài 2 
 Số kilômét đi được nhờ 1 lít xăng của 4 loại xe ôtô A, B, C, D được ghi lại như sau trên các 
xe chạy thí nghiệm: 
Loại A: 25, 23, 20, 27, 20 Loại B: 28, 31, 27, 28, 26 
5 
Loại C: 32, 33, 30, 28, 32 Loại D: 24, 24, 23, 27, 22 
Với mức ý nghĩa α = 5%, hãy so sánh mức tiêu thụ năng lượng trung bình của 4 loại xe nói trên. 
Bài làm 
I. Cơ sở lý thuyết: phương pháp phân tích phương sai một yếu tố 
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của 
hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc 
nghiệm t hay z (so sánh hai giá trị trung bình). 
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân 
tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,,k). 
Mô hình: 
Yếu tố thí nghiệm 
1 2 .. K 
Y11 Y21 .. Yk1 
Y12 Y22 .. Yk2 
.. .. .. .. 
Y1N Y2N .. YkN 
Tổng cộng 
trung bình 
T1 
1
___
Y 
T2 
2
___
Y 
.. 
.. 
Tk 
kY
___
T 
Y
___
Bảng ANOVA: 
Nguồn sai số Bậc sai số Tổng số bình phương Bình phương trung bình Giá trị thống kê 
Yếu tố 
Sai số 
k-1 
N-k 
SSF=
N
T
N
Tk
i
i
2
1
2


SSE=SST-SSF 
MSF=
1k
SSF
MSE=
kN
SSE

F=
MSE
MSF
Tổng cộng N-1 
SST=
N
T
Y
k
i
n
j
n
2
1 1
2 
 
Trắc nghiệm: 
 Giả thiết: 
H0:  k .....21 “Các giá trị trung bình bằng nhau” 
H1:  ji  “Ít nhất có hai giá trị trung bình khác nhau” 
6 
 Giá trị thống kê: F=
MSE
MSF
 Biện luận: Nếu F chấp nhận giả thiết H0 
II. Thực hành bằng MS Excel: 
Giả thiết H0: µ1 = µ2 = µ3 = µ4; tức số Km trung bình 4 loại xe trên đi được nhờ 1lit xăng là 
bằng nhau (hay mức độ tiêu thụ xăng trung bình của 4 loại xe là như nhau) 
Nhập dữ liệu vào bảng: 
 Áp dụng Anova: Single Factor 
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis. 
Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK 
Trong hộp thoại Anova: Single Factor lần lượt ấn định 
 Phạm vi đầu vào (Input range) 
 Cách xắp xếp theo hàng hay cột (Group by) 
 Nhấn dử liệu (Labels in fisrt row/column) 
 Phạm vi đầu ra (Output range) 
Bảng Anova: 
7 
 Kết luận: 
Từ giá trị trong bảng Anova: 
F= 13.33333 > Fα= 3.23887 
=> Bác bỏ H0 hay mức tiêu thụ xăng trung bình của 4 loại xe A,B,C,D là khác nhau 
. 
Bài 3 
Tính tỉ số tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập số liệu 
sau đây. Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến 
không? Có tuyến tính không?). Tìm đường hồi quy của Y đối với X. 
X 0,9 1,22 1,32 0,77 1,3 1,2 0,9 1,22 1,32 0,77 1,3 1,2 
Y -0,3 0,1 0,7 -0,28 -0,25 0,02 0,3 0,5 0,4 -0,2 -0,3 0,08 
Bài làm 
1. Phương pháp giải bài toán trên Excel 2013. 
Dạng: phân tích tương quan và hồi quy. 
Bảng tương quan: 
 X 
Y 
0,9 1,22 1,32 0,77 1,3 1,2 
 -0,3 0,1 0,7 -0,28 -0,25 0,02 
8 
 0,3 0,5 0,4 -0,2 -0,3 0,08 
ni 2 2 2 2 2 2 n=12 
Ti 0 0,6 1,1 -0,48 -0,55 0,1 T=0,77 
Giả thiết H0 : Hệ số góc α của đường thẳng hồi quy của Y đối với X bằng 0 
 Bước 1: Nhập dữ liệu vào bảng 
 Bước 2: Sử dụng “Regression” 
a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis 
b) Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK 
c) Trong hộp Regression, lần lượt ấn định các chi tiết: 
- Phạm vi của biến số Y (Input Y Range) 
- Phạm vi của biến số X (Input X Range) 
- Nhãn dữ liệu (Labels) 
- Mức tin cậy (Confidence Level) 
- Tọa độ đầu ra (Output Range) 
- Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (residuals 
plots...) 
9 
Ta được bảng kết quả sau: 
Cách tính hệ số tương quan: 
+ Excel: =CORREL(Miền giá trị X,Miền giá trị Y) 
+Công thức: 
42,13)2,1(2)3,1(2)77,0(2)32,1(2)22,1(2)9,0(2  x 
77,0 Ty 
5274,15)2,1(2)3,1(2)77,0(2)32,1(2)22,1(2)9,0(2 2222222 x
3677,108,002,0...3,0)3,0( 22222  y
10 
2194,1)1,0(2,1)55,0(3,1)48,0(77,0)1,1(32,1)6,0(22,1)0(9,0 xy
    2994,4))(( yxxyn 
2324,6)( 22   xxn 
8195,15)( 22   yyn 
432996,0
8195,152324,6
2994,4
r 
Cách tính hệ số xác định: 
+Excel: =RSQ(Miền giá trị X, Miền giá trị Y) 
+Công thức: r2=0,187485 
Cách tính tỷ số tương quan: 
Ta có: 
31829,1
12
77,0
3677,1
22
2 
n
T
ySST
 

 12667,0
12
77,0
12
1,0...0 2222
2
n
T
n
T
SSF
i
i 
^
2 096,0
SST
SSF
 
2. Kết luận: 
 Tỷ số tương quan Y đối với X: 096,0 
 Hệ số tương quan: 0,432996 
 Hệ số xác định: 0,187485 
 Đường hồi quy của Y đối với X: YX= -0.70731179+ 0.689846608 X 
 FS4= 0.16 > α=0.05 => X và Y không có mối quan hệ tuyến tính. 
Bài 4 
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên cơ sở số liệu 
về doanh thu của một số cửa hàng với 3 lần quan sát như sau (mức ý nghĩa 10%) : 
Ngành nghề kinh doanh Khu vực kinh doanh 
Q1 Q2 Q3 Q4 
Điện lạnh 
Vật liệu xây dựng 
Dịch vụ tin học 
5.7:6.1:6.6 
5.0:5.2:5.4 
3.8:4.1:3.9 
3.1:3.3:3.0 
15.0:14.4:15.6 
1.8:2.0:1.9 
4.2:4.6: 4.4 
9.5:8.8:9.8 
1.3:1.5:1.4 
5.0:5.2:5.5 
17.5:17.2:18 
4.8:4.6:4.9 
Bài làm 
11 
I. Cơ cở lý thuyết : 
Dạng bài : Phương pháp phân tích phương sai hai yếu tố (có lặp) 
Phần mềm : Microsoft Exel 2010 
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij 
(i=1,2,.r,yếu tố A:j=1,2,.c,yếu tố B). Mỗi mức (A1, B1) có sự lập lại k lần thí 
nghiệm mỗi hàng sẽ biểu thị một bản sao của dữ liệu và trong đầu ra sẽ có thêm một đại 
lượng tương tác F1 giữa hai yếu tố A và B. 
Mô hình 
Yếu tố A Yếu tố B Tổng 
cộng 
Tung bình 
1 2  c 
 Y11 
Y21 
Yr1 
Y12 
Y22 
..... 
Yr2 
. 
. 
. 
. 
Y1C 
Y2C 
.... 
Yr 
Y1 
Y2 
. 
Yr 
Ῡ1 
Ῡ2 
Ῡr 
Tổng 
cộng 
Trung 
bình 
T1 
Ῡ1 
T2 
Ῡ2 
. 
. 
TC 
ῩC 
T.. 
Ῡ.. 
BẢNG ANOVA 
Nguồn sai số Bậc tự do Tổng số bình phương Bình phương 
 trung bình 
Yếu tố A 
(hàng) 
(r-1) 
FR 
Yếu tố B (cột) 
Sai số 
(c-1) 
(r-1)(c-1) 
 SSE=SST-(SSF+SSB) 
Fc 
TỔNG CỘNG (rc-1) 
Trắc nghiệm: 
H0 : µ1=µ2=..=µk “các giá trị trung bình là bằng nhau” 
H1 : µi≠ µj => “ ít nhất có hai giá trị trung bình khác nhau” 
 Giá trị trung bình : 
12 
 FR FC 
 Biện luận : 
Nếu FR chấp nhận H0 ( yếu tố A) 
Nếu Fc chấp nhận H0 ( yếu tố B) 
nếu F1 yếu tố A và yếu tố B độc lập với nhau 
II.Thực hành bằng MS Excel: 
 Giả thiết H0 : µ1=µ2=..=µ4 “các giá trị trung bình là bằng nhau” 
 Nhập dữ liệu vào bảng : 
 Áp dụng Anova: “ tow-factor without replication”: 
 Các yếu tố cần nhập: 
- Input Range: vùng dữ liệu. 
- Rows per sample: số dòng lặp là 3. 
- Alpha: mức ý nghĩa là 0.01. 
13 
 Chọn OK ta được kết quả : 
Bảng ANOVA 
14 
BIỆN LUẬN : 
- FR= 2549.283>F0.01= 5.613 => bác bỏ giả thuyết H0 ( Ngành nghề kinh doanh) hay ngành 
nghề kinh doanh có ảnh hưởng tới thu nhập cửa hàng. 
- FC = 333.6921> F0.01=4.718 => bác bỏ giả thuyết H0 (quận) hay yếu tố quận có ảnh 
hưởng tới thu nhập của cửa hàng. 
- F1 =351.17 > F0.01= 3.67 => hai yếu tố quận và ngành nghề kinh doanh có mối quan hệ 
phụ thuộc với nhau. 
Vậy cả hai yếu tố ngành nghề kinh doanh và quận có ảnh hưởng tới thu nhập của cửa hàng ở 
các quận và 2 yếu tố này có mối quan hệ tương tác với nhau. 

File đính kèm:

  • pdfbao_cao_bai_tap_lon_mon_xac_suat_thong_ke_doan_anh_thu.pdf