Bài giảng Xác suất thống kê - Chương 5: Lý thuyết mẫu - Phạm Trí Cao
1. MẪU VÀ PHƯƠNG PHÁP MẪU
Giả sử ta cần nghiên cứu một tập hợp có rất nhiều
phần tử, vì một số lý do mà ta không thể khảo sát
toàn bộ tập lớn này (khảo sát tất cả các phần tử),
nhưng ta lại muốn có kết quả trên tập lớn. Ta có thể
giải quyết như sau: từ tập hợp lớn lấy ra một tập hợp
nhỏ hơn để nghiên cứu, ta thu được kết quả trên tập
nhỏ, từ kết quả trên tập nhỏ ta suy ra kết quả cho tập
lớn. Phương pháp làm việc như vậy gọi là phương
pháp mẫu. Tập lớn gọi là tổng thể hay đám đông, số
phần tử của tập lớn gọi là kích thước tổng thể/đám
đông, ký hiệu là N. Tập nhỏ gọi là mẫu, số phần tử
của mẫu gọi là kích thước mẫu hay cỡ mẫu, ký hiệu
n.
ần tử của mẫu gọi là kích thước mẫu hay cỡ mẫu, ký hiệu n. 3 Các lý do không thể nghiên cứu toàn bộ tổng thể: Giới hạn về thời gian, tài chính Thí dụ muốn khảo sát xem chiều cao trung bình của thanh niên Việt Nam hiện nay có tăng lên so với trước đây không, ta phải đo chiều cao của toàn bộ thanh niên Việt nam (giả sử xấp xỉ N=40 triệu người), điều này tuy làm được nhưng rõ ràng tốn nhiều thời gian, tiền bạc, công sức. Ta có thể khảo sát khoảng 1 triệu thanh niên và từ chiều cao trung bình của n=1 triệu người này, ta suy ra chiều cao trung bình của toàn bộ thanh niên VN. Phá vỡ tổng thể nghiên cứu. Thí dụ như ta cất vào kho N=10000 hộp sản phẩm, muốn biết tỷ lệ hộp hư trong kho sau 1 thời gian bảo quản. Ta phải kiểm tra từng hộp để xác định số hộp hư M=300, thì tỷ lệ hộp hư trong kho là M/N. Một sản phẩm sau khi được kiểm tra thì bị mất phẩm chất, khi ta kiểm tra xong cả kho thì cũng “tiêu” luôn cái kho! Ta có thể lấy ngẫu nhiên n=100 hộp ra kiểm tra, giả sử có m=9 hộp hư. Từ tỷ lệ hộp hư 9% ta suy ra tỷ lệ hộp hư của cả kho. 4 Không xác định được chính xác tổng thể. Thí dụ như muốn khảo sát xem tỷ lệ những người bị nhiễm HIV qua đường tiêm chích ma túy là bao nhiêu phần trăm. Trong tình huống này thì tổng thể chính là những người bị nhiễm HIV, nhưng ta không thể xác định chính xác tất cả những người bị nhiễm HIV vì chỉ có những người tự nguyện đến trung tâm xét nghiệm, bệnh viện thì mới biết được, còn những người không đi xét nghiệm thì không biết được. Do đó ta chỉ biết một phần của tổng thể, là những người đã đi xét nghiệm. Ngoài ra số người bị nhiễm mới HIV và bị chết do HIV có thể thay đổi từng giây nên số phần tử của tổng thể thay đổi từng giây. ThS. Phạm Trí Cao * Chương 5 2 5 Muốn từ kết quả của mẫu suy ra kết quả cho tổng thể tốt thì mẫu phải đại diện được cho tổng thể, muốn vậy thì mẫu phải được lấy một cách ngẫu nhiên. Trong phạm vi bài giảng này không đề cập đến kỹ thuật lấy mẫu (mẫu giản đơn, mẫu hệ thống, mẫu chùm, mẫu phân tổ, mẫu nhiều cấp). Ta quy ước là mẫu được lấy theo cách có hoàn lại. Mẫu gồm có: mẫu ngẫu nhiên và mẫu cụ thể. Cần phân biệt rõ mẫu ngẫu nhiên và mẫu cụ thể. 6 Tổng thể được đặc trưng bởi dấu hiệu nghiên cứu X, là một đại lượng ngẫu nhiên. Do đó khi nói về X tức là nói về tổng thể. Mẫu ngẫu nhiên (có cỡ mẫu n) được ký hiệu WX=(X1,,Xn) là một véctơ có n thành phần, mỗi thành phần Xi là một ĐLNN. Các ĐLNN này độc lập nhau và có cùng quy luật phân phối giống với X. Mẫu cụ thể (có cỡ mẫu n) được ký hiệu Wx=(x1,,xn) là một véctơ có n thành phần, mỗi thành phần xi là một giá trị (con số) cụ thể. Ứng với một mẫu ngẫu nhiên thì có nhiều mẫu cụ thể tương ứng với kết quả của các phép thử ngẫu nhiên khác nhau. 7 VD: Một kệ chứa các đĩa nhạc với giá như sau: Giá (ngàn đ) 20 25 30 34 40 Số đĩa 35 10 25 17 13 Xét tổng thể về mặt định lượng: Lấy ngẫu nhiên 1 đĩa nhạc trong kệ. Gọi X= giá của đĩa nhạc này. Ta thấy X có quy luật ppxs như sau: X 20 25 30 34 40 P 0,35 0,10 0,25 0,17 0,13 8 Lấy ngẫu nhiên (có hoàn lại) 4 đĩa nhạc từ kệ. Gọi Xi= giá của đĩa nhạc thứ i lấy được, i=1,4 Ta thấy các Xi độc lập và có cùng quy luật ppxs giống như X. Lập WX=(X1,X2,X3,X4), gọi là mẫu ngẫu nhiên. ThS. Phạm Trí Cao * Chương 5 3 9 Bây giờ ta xem giá cụ thể của từng đĩa lấy ra, thấy như sau: Đĩa 1: giá 20 ngàn đ Đĩa 2: giá 30 ngàn đ Đĩa 3: giá 20 ngàn đ Đĩa 4: giá 40 ngàn đ Lập Wx=(x1,x2,x3,x4) = (20,30,20,40), gọi là mẫu cụ thể. 10 Bây giờ ta xét tổng thể về mặt định tính: Đĩa có giá dưới 25 ngàn đ là đĩa “lậu”. Lấy ngẫu nhiên 1 đĩa từ kệ. Gọi X= số đĩa lậu lấy được. X 0 1 P 0,65 0,35 Lấy ngẫu nhiên (có hoàn lại) 4 đĩa nhạc từ kệ. Gọi Xi= số đĩa lậu lấy được khi lấy 1 đĩa ở lần lấy thứ i, i=1,4 Ta thấy các Xi độc lập và có cùng quy luật ppxs giống như X. Lập WX=(X1,X2,X3,X4), gọi là mẫu ngẫu nhiên. 11 Bây giờ ta xem giá cụ thể của từng đĩa lấy ra, thấy như sau: Đĩa 1: giá 20 ngàn đ --> x1=1 Đĩa 2: giá 30 ngàn đ --> x1=0 Đĩa 3: giá 20 ngàn đ --> x1=1 Đĩa 4: giá 40 ngàn đ --> x1=0 Lập Wx=(x1,x2,x3,x4) = (1,0,1,0), gọi là mẫu cụ thể. 12 Các đặc trưng số cơ bản của tổng thể: Ta xét tổng thể về mặt định lượng: Tổng thể được đặc trưng bởi dấu hiệu nghiên cứu X, X là ĐLNN. Ta có EX=µ là trung bình tổng thể. varX=2 là phương sai tổng thể. là độ lệch chuẩn của tổng thể. Ta xét tổng thể về mặt định tính: tổng thể có kích thước N, trong đó có M phần tử có tính chất A quan tâm. p=M/N gọi là tỷ lệ tổng thể. ThS. Phạm Trí Cao * Chương 5 4 13 II) Các đặc trưng số cơ bản của mẫu (dạng ngẫu nhiên): Định lượng: Trung bình mẫu: iXnX 1 Phương sai mẫu (chưa hiệu chỉnh): 2)(12ˆ XiXnS Phương sai mẫu (đã hiệu chỉnh): 2)(1 12 XiXnS Độ lệch chuẩn mẫu (chưa hiệu chỉnh): 2ˆˆ SS Độ lệch chuẩn mẫu (đã hiệu chỉnh): 2SS ta có 1 ˆ n nSS Định tính: Tỷ lệ mẫu: F= n i i Xn 1 1 Xi có quy luật phân phối xác suất (không-một): Xi 0 1 P q p 14 II) Các đặc trưng số cơ bản của mẫu (dạng cụ thể): Định lượng: Trung bình mẫu: ixnx 1 Phương sai mẫu (chưa hiệu chỉnh): 2)(12ˆ xixns Phương sai mẫu (đã hiệu chỉnh): 2)(1 12 xixns Độ lệch chuẩn mẫu (chưa hiệu chỉnh): 2ˆˆ ss Độ lệch chuẩn mẫu (đã hiệu chỉnh): 2ss ta có 1 ˆ n nss Định tính: Tỷ lệ mẫu: f= n i i xn 1 1 =m/n n: cỡ mẫu m: số phần tử có tính chất A quan tâm trong mẫu 15 Trong thực hành: Ta xác định trung bình mẫu, phương sai mẫu như sau: xi ni x1 n1 ... ... xi ni ... ... xk nk n=n1+...+nk ixinnx 1 2)(21 12 xnixinns Mẫu dạng điểm 16 Bài 1: Điều tra năng suất lúa trên diện tích 100 hecta trồng lúa của một vùng, ta thu được bảng số liệu sau: Năng suất (tạ / ha) 41 44 45 46 48 52 54 Số ha có năng suất tương ứng 10 20 30 15 10 10 5 1) Tính trung bình mẫu, phương sai mẫu chưa hiệu chỉnh, phương sai mẫu hiệu chỉnh 2) Những thửa ruộng có năng suất từ 48 tạ trở lên là những thửa ruộng có năng suất cao. Tính tỷ lệ thửa ruộng có năng suất cao 3) Tính trung bình mẫu, phương sai mẫu hiệu chỉnh (điều chỉnh) của những thửa ruộng có năng suất cao ThS. Phạm Trí Cao * Chương 5 5 17 Giải: 1) Ta lập bảng như sau xi ni nixi nixi2 41 44 45 46 48 52 54 10 20 30 15 10 10 5 410 880 1350 690 480 520 270 16.810 38.720 60.750 31.740 23.040 27.040 14.580 Tổng n = 100 4600 212680 18 Từ kết quả tính ở bảng trên ta có Năng suất trung bình 46100 4600x tạ/ha Phương sai (đã hiệu chỉnh) của năng suất 909,10246*1002126801100 12 s Cách khác: Phương sai (chưa hiệu chỉnh) của năng suất 8,102)46(100 2126802ˆ s Phương sai điều chỉnh của năng suất s2 = 1100 100 10,8 = 10,909 19 2) Tỷ lệ mẫu là f = 25,0100 51010 3) Lập bảng sau xi ni ni.xi ni.xi2 48 10 480 23040 52 10 520 27040 54 5 270 14580 Tổngn = 25 1270 64660 8,5025 1270x s2 = 6]2)8,50*(2564660[125 1 20 Bài 2: Quan sát tuổi thọ của một số người ta có bảng số liệu sau : Tuổi (năm) Số người 20 – 30 30 – 40 40 – 50 50 – 60 5 14 25 6 1) Tính x , s2. 2) Những người sống dưới 40 tuổi là "chết trẻ". Tìm tỷ lệ người chết trẻ. Mẫu dạng khoảng ThS. Phạm Trí Cao * Chương 5 6 21 Đưa về dạng điểm, sau đó lập bảng tính như bài 1. xi ni 25 35 45 55 5 14 25 6 1) x = 41,40 s2 = 68,4082 2) f= (5+14)/ 50 = 0,38 22 Quy luật phân phối xác suất của đặc trưng mẫu NN: Định lượng: Ta có X N(, 2) )2,(~ nNX )1,0(~ / Nn X Do đó: )()()( nanbbXaP )(2)|(| nXP Nếu chưa biết 2, ta có: )1(~ / nTnS X )1(2~2 2)1( nSn Định tính: iXnF 1 , với Xi có quy luật ppxs 0-1. pFE )( , n pqF )var( Nếu n lớn (p không quá gần 0 và 1) thì: ),( n pqpNF )1,0( / Nnpq pF 23 Bài 3: Chiều cao thanh niên của vùng M là biến ngẫu nhiên phân bố chuẩn với = 165 cm, 2 = 102 cm2 . Người ta đo ngẫu nhiên chiều cao của 100 thanh niên vùng đó. 1) Xác suất để chiều cao trung bình của 100 thanh niên đó sẽ sai lệch so với chiều cao trung bình của thanh niên vùng M không vượt quá 2 cm là bao nhiêu? 2) Khả năng chiều cao trung bình của số thanh niên trên vượt quá 168 cm là bao nhiêu? 3) Nếu muốn chiều cao trung bình đo được sai lệch so với chiều cao trung bình của tổng thể (của tất cả thanh niên vùng M) không vượt quá 1cm với xác suất (độ tin cậy ) là 0,99 thì chúng ta phải tiến hành đo chiều cao của bao nhiêu thanh niên? 24 Giải: 1) 9544,0)2(2) 100/10 2(2)2|(| XP 2) 0013,04987,05,0)3(5,0 )10010 165168(5,0)168( XP 3) Tìm n sao cho: 99,0)1|(| XP Ta có )575,2(495,0)1,0( 99,0)10 1(2)1|(| n nXP 0,1 n = 2,575 n= 663,0625 664 (làm tròn lên) ThS. Phạm Trí Cao * Chương 5 7 25 Mời ghé thăm trang web: www37.websamba.com/phamtricao www.phamtricao.web1000.com
File đính kèm:
- bai_giang_xac_suat_thong_ke_chuong_5_ly_thuyet_mau_pham_tri.pdf