Bài tập lớn Xác suất thống kê - Nhóm 13

Trắc nghiệm

• Giả thiết:

H0: μ1 = μ2 = .= μk ↔ Các giá trị trung bình bằng nhau

H1: μi μj ↔ Có ít nhất hai giá trị trung bình khác nhau

• Giá trị thống kê: FR, FC, F

• Biện luận

Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố A

Nếu FC < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố B

Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C

 

docx30 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: tuando | Lượt xem: 529 | Lượt tải: 0download
Tóm tắt nội dung Bài tập lớn Xác suất thống kê - Nhóm 13, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
ó bảng số liệu như sau: 
Y
X
y1
y2
yh
ni
x1
n11
n12
n1h
n1
x2
n21
n22
n2h
n2
xk
nk1
nk2
nkh
nk
mj
m1
m2
mh
ni=n
Trong đó:
-xi ( i=1,k ) - các dấu hiệu mà X nhận
-yj ( j=1,h ) – các dấu hiệu mà Y nhận
- ni (i =1,k) – số lần X nhận xi
- mj (j =1,h) – số lần Y nhận yj
nij (i = 1,...,k ; j = 1,...,h) – số lần đồng thời X nhận xi và Y nhận yj
Kiểm định giả thiết: H0: X và Y độc lập, với mức ý nghĩa α.
Tìm từ bảng phân vị χ2 “khi bình phương”
Cách 1: Tính thống kê dựa vào các công thức sau:
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng các giá trị của nij và γij phải bằng nhau.
Kết luận
Nếu → Chấp nhận giả thiết H0.
Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H0.
Bài làm:
Gọi H0: tình hình đau mắt hột (cơ cấu phân bố các mức độ T1, T2, T3, T4) ở 3 tỉnh trên là khác nhau
Nhập bảng số liêu tính tổng hàng, tổng cột
Tính các tần số lý thuyết theo công thức: 
Chọn vùng như đã chọn, gõ lệnh “=$F3*B$6/$F$6” rồi ấn Ctrl+Enter, ta được bảng sau
Áp dụng hàm số “CHITEST”
Tính xác suất P(X>) bằng cách chọn ô B12 nhập biểu thức “=CHITEST(B3:E5,B9:E11)
Kết luận:
Kết quả : P(X>) =5.743.10-215 <0,01 : Bác bỏ giả thiết H0
Vậy: Không có sự khác nhau về tình hình đau mắt hột (cơ cấu phân bố các mức độ T1, T2, T3, T4) ở 3 tỉnh trên
Câu 3: Bảng sau đây cho số liệu người chết về ung thư ở 3 nước Mỹ Nhật Anh, Người chết được phân loại theo cơ quan ung thư
Choã ung thu
Nöôùc
Myõ
Nhaät
Anh
Ruoät
Ngöïc
Daï daøy
Boä phaän khaùc 
11
15
3
41
5
3
22
30
5
7
3
15
a Hãy tính tần số lý thuyết của bảng số liệu trên
b Có thể áp dụng chuẩn c2 được không 
c Với mức ý nghĩa a = 2% hãy so sánh phân bố tỷ lệ chết về ung thư của ba nước nói trên
Cơ sở lý thuyết : 	PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,,k).
Mô hình:
Yếu tố thí nghiệm
1
2
..
K
Y11
Y21
..
Yk1
Y12
Y22
..
Yk2
..
..
..
..
Y1N
Y2N
..
YkN
Tổng cộng trung bình
T1
T2
..
..
Tk
T
Bảng ANOVA:
Nguồn sai số
Bậc sai số
Tổng số bình phương
Bình phương trung bình
Giá trị thống kê
Yếu tố
Sai số
k-1
N-k
SSF=
SSE=SST-SSF
MSF=
MSE=
F=
Tổng cộng
N-1
SST=
Trắc nghiệm:
Giả thiết:
H0: “Các giá trị trung bình bằng nhau”
H1: “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F=
Biện luận: Nếu F chấp nhận giả thiết H0
Bài làm:
Gọi H0: Tỉ lệ chết do ung thư ở các nước là giống nhau
Nhập bảng số liêu tính tổng hàng, tổng cột.
Tính các tần số lý thuyết theo công thức: 
Chọn vùng như đã chọn, gõ lệnh “=$E2*B$6/$E$6” rồi ấn Ctrl+Enter, ta được bảng sau:
Nếu cỡ mẫu nhỏ thì giá trị χ2 quá lớn dẫn đến loại bỏ quá nhiều giả tthiết cần kiểm định. Cần tuân theo một nguyên tắc chung là không nên sử đụng tần số lý thuyết nhỏ hơn 5 đơn vị trong 1 ô của bảng phân phối
Áp dụng “ Anova: Single Factor”
a.Nhấn lần lượt đơn lệnh Data và lệnh Data Analysis.	
b.Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
c.Trong hộp thoại Anova: Single Factor lần lượt ấn định
- Phạm vi đầu vào (Input range)
- Cách xắp xếp theo hàng hay cột (Group by)
- Nhãn dử liệu (Labels in fisrt row/column)
- Phạm vi đầu ra (Output range)
Bảng Anova:	
Kết luận:
F = 0,69051< F0,01 = 4,256495
=>Chấp nhận giả thiết H0
Vậy phân bố tỉ lệ chết vì ung thư ở các nước trên là như nhau.
Câu 4: Theo dõi danh thu của 4 cửa hàng thuộc một công ty (triệu đ/tháng) người ta được số liệu như sau: 
Thaùng 
kinh doanh
Cöûa haøng
1
2
3
4
1
2
3
4
5
6
12,3
12,6
11,6
15,2
18,6
17,1
14,2
12,4
11,5
11,6
15,6
17,1
18,2
12,5
11,8
17,2
15,8
12,2
	Hãy so sánh mức doanh thu trung bình / tháng của các cửa hàng thuộc công ty nói trên. Mức ý nghĩa a = 5%
Cơ sở lý thuyết : 	PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số.Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,,k).
Mô hình:
Yếu tố thí nghiệm
1
2
..
K
Y11
Y21
..
Yk1
Y12
Y22
..
Yk2
..
..
..
..
Y1N
Y2N
..
YkN
Tổng cộng trung bình
T1
T2
..
..
Tk
T
Bảng ANOVA:
Nguồn sai số
Bậc sai số
Tổng số bình phương
Bình phương trung bình
Giá trị thống kê
Yếu tố
Sai số
k-1
N-k
SSF=
SSE=SST-SSF
MSF=
MSE=
F=
Tổng cộng
N-1
SST=
Trắc nghiệm:
Giả thiết:
H0: “Các giá trị trung bình bằng nhau”
H1: “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F=
Biện luận: Nếu F chấp nhận giả thiết H0
Bài làm: 
Giả thiết H0: doanh thu trung bình/ tháng của các cửa hàng là bằng nhau
Nhập dữ liệu vào bảng:
Áp dụng “ Anova: Single Factor”
a.Nhấn lần lượt đơn lệnh Data và lệnh Data Analysis.	
b.Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
c.Trong hộp thoại Anova: Single Factor lần lượt ấn định
- Phạm vi đầu vào (Input range)
- Cách xắp xếp theo hàng hay cột (Group by)
- Nhãn dử liệu (Labels in fisrt row/column)
- Phạm vi đầu ra (Output range)
Bảng Anova: 
Kết luận:
Từ giá trị trong bảng Anova:
	F= 0.980529 Chấp nhận H0 
Vậy doanh thu trung bình/ tháng của các cửa hàng là bằng nhau
Câu 5) Mức ý nghĩa a = 5%. Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên cơ sở số liệu về doanh thu các cửa hàng như sau
Ngaønh ngheà kinh doanh
Khu vöïc kinh doanh 
Q1
Q2
Q3
Q4
Ñieän laïnh
Vaät lieäu xaây döïng
Dòch vuï tin hoïc
2.5:2.7:2.0:3.0
0.6:10.4
1.2:1.0:9.8:1.8
3.1:3.5:2.7
15.0
2.0:2.2:1.8
2.0:2.4
9.5:9.3:9.1
1.2:1.3:1.2
5.0:5.4
19.5:17.5
5.0:4.8:5.2
Cơ sở lý thuyết: Phân tích phương sai hai nhân tố ( có lặp )
Giả sử chúng ta quan tâm tới nhân tố A và B. Nhân tố A được xem xét ở các mức A1, A2, ...Ar, và nhân tố B được xem xét ở các nước B1, B2,...Bc.
	Gọi Xjk là ĐLNN đo lường hiệu quả việc tác động của mức Aj và Bk lên cá thể.
	Giả sử 	x1jk, x2jk, ..., xnjk
là mẫu kích thước njk rút ra từ tập hợp chính các giá trị của Xjk. Ta gọi đó là mẫu (j, k). Ta đưa ra một số ký hiệu sau:
	: trung bình của mẫu (j, k) 
	 trung bình của mức Aj
	 trung bình của mức Bk
	 = trung bình chung = 
	Ta có bảng sau đây ghi các kết quả tính toán trên:
A
B
B1
B2
...
Bk
...
Bc
Trung bình
dòng Aj
A1
...
...
A2
...
...
...
...
...
...
...
...
...
...
Aj
...
...
...
...
...
...
...
...
...
...
Ar
...
...
Trung bình cột Bk
...
...
	+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau: 
	+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau:
	+ Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức
	+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức.
	+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA’ được tính bởi công thức:
	r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1.
	+ Trung bình bình phương của nhân tố B, ký hiệu là MSFB’ được tính bởi công thức.
	c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1.
	+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
	n – cr gọi là bậc tự do của sai số.
	+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi 
	(c – 1) (r – 1) gọi là bậc tự do của tương tác.
	Chú ý rằng:
	(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng.
	+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau.
	Tương tự tỷ số F cho nhân tố B, FB được tính bởi
và tỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính bởi:
	Với mức ý nghĩa a đã cho ta ký hiệu f (u, v) là phân vị mức a của phân bố Fisher với bậc tự do (u, v).
	Ta có quy tắc quyết định như sau:
	+ Nếu FA> f (r – 1, n – cr) thì ta bác bỏ giả thiết.
	 “Các mức A1,... Ar có hiệu quả trung bình như nhau”
	+ Nếu FB> f (c – 1, n – cr) thì ta bác bỏ giả thiết:
	 “Các mức B1, B2, ... Bc có hiệu quả trung bình như nhau”
	Nếu FAB> f ((r – 1)(c – 1), n – rc)
Ta bác bỏ giả thiết:
	 “Có sự tương tác giữa A và B”.
	Trên thực hành tính toán chúng ta thực hiện như sau:
	Giả sử Tjk là tổng các giá trị trong mẫu (j, k). Ký hiệu
	(3)
	Ta có các đẳng thức sau:
	(4)
	(5)
	(6)
	(7)
	(8)
	Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì: 
do đó 	(5’)
	(6’) 
Bài làm:
Giả thiết H0:Doanh thu theo ngành nghề kinh doanh là khác nhau
Giả thiết H0:Doanh thu của các khu vực kinh doanh là khác nhau
Giả thiết H0:Không có sự tương tác giữa khu vực kinh doanh và ngành nghề kinh doanh
Bước 1:Nhập dữ liệu vào bảng:
Bước 2: Áp dụng “Anova: Two-Factor With Replication”
 Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis.
Chọn chương trình Anova: Two-Factor With Replication trong hộp thoại Data Analysis rồi nhấp nút OK.
Trong hộp thoại ANOVA: Two-Factor With Replication lần lượt ấn định các chi tiết:
Phạm vi đầu vào (Input Range)
Nhãn dữ liệu (Labels in First Row/Column)
Ngưỡng tin cậy (Alpha)
Phạm vi đầu ra (Output Range)
Kết quả biện luận:
Yếu tố hàng (mẫu): F = 2.8929 < F–crit = 5.2479 → chấp nhận giả thiết H0.
ÞDoanh thu của các cửa hàngkhông phụ thuộc vào ngành nghề.
Yếu tốc cột: F = 0.8189 < F–crit = 4.3771 → chấp nhận giả thiết H0.
ÞDoanh thu của các cửa hàng không phụ thuộc vào khu vực kinh doanh.
Ảnh hưởng: F = 0.6498 < F–crit = 3.3507 → chấp nhận giả thiết H0.
	ÞKhông có sự tương tác (ảnh hưởng) giữa khu vực kinh doanh và ngành nghề kinh doanh.

File đính kèm:

  • docxbai_tap_lon_xac_suat_thong_ke_nhom_13.docx