Bài giảng Xác suất thống kê - Chương 5: Thống kê mô tả - Hoàng Văn Hà
Một số khái niệm cơ bản 2
Biến và dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Tổng thể và mẫu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Chọn mẫu ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Thống kê suy luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Mô tả dữ liệu bằng đồ thị 11
Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Phân phối tần số. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Xây dựng một phân phối tần số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Xây dựng một phân phối tần số - ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Đồ thị Stem-and-Leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Đồ thị Stem-and-Leaf - ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Đồ thị phân tán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Mô tả dữ liệu số 29
Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Các độ đo xu hướng trung tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Trung vị. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Trung vị. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Độ đo nào là tốt nhất? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Độ đo sự biến thiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Miền giá trị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Nhược điểm của miền giá trị. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Miền phân vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Đồ thị Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Công thức tìm phân vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Phương sai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Độ lệch tiêu chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Độ đo sự biến thiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
So sánh các độ lệch chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Định lý Chebyshev. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Quy tắc thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Hệ số biến thiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1So sánh hệ số biến thiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Các phân phối thường gặp trong thống kê 53
Phân phối chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Phân phối chuẩn hóa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Phân phối chi bình phương. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Phân phối Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Phân phối mẫu 72
Phân phối mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Phân phối mẫu của trung bình và phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Sai số chuẩn của trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Phân phối mẫu của tỷ lệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
ược xác định như sau Vị trí phân vị thứ nhất = 0.25(n + 1) Vị trí phân vị thứ hai = 0.5(n + 1) Vị trí phân vị thứ ba = 0.75(n + 1) với n là số giá trị quan trắc. 43 Phương sai n Phương sai (Variance) là trung bình của bình phương độ lệch các giá trị so với trung bình. n Phương sai phản ánh độ phân tán hay sự biến thiên của dữ liệu. n Phương sai tổng thể σ2 = ∑N i=1(xi − µ)2 N (4) với N là số phần tử của tổng thể, µ là trung bình tổng thể, xi là giá trị thứ i của biến x. n Phương sai mẫu S2 = ∑n i=1(Xi − X¯)2 n− 1 (5) với X¯ là trung bình mẫu, n là cỡ mẫu, Xi là giá trị thứ i của biến X. 44 18 Độ lệch tiêu chuẩn n Sử dụng để đo sự biến thiên, biểu diễn sự biến thiên xung quanh trung bình, n Có cùng đơn vị đo với dữ liệu gốc. n Độ lệch chuẩn của tổng thể, ký hiệu là σ: σ = √∑N i=1(xi − µ)2 N (6) n Độ lệch chuẩn của mẫu, S = √∑n i=1(Xi − X¯)2 n− 1 (7) 45 Độ đo sự biến thiên 46 19 So sánh các độ lệch chuẩn 47 Định lý Chebyshev Định lý 1 (Chebyshev). Với một tổng thể bất kỳ có trung bình µ và độ lệch chuẩn σ, và k > 1, phần trăm các giá trị quan trắc nằm trong khoảng [µ+ kσ] bằng ít nhất 100 [ 1− 1 k2 ] % • Ví dụ: 48 20 Quy tắc thực nghiệm n Quy tắc thực nghiệm (The Empirical Rule): nếu dữ liệu có phân phối chuẩn (hoặc tiệm cận chuẩn), thì khoảng + µ± 1σ chứa khoảng 68% giá trị dữ liệu của mẫu hoặc tổng thể. 49 Quy tắc thực nghiệm + µ± 2σ chứa khoảng 95% giá trị dữ liệu của mẫu hoặc tổng thể. + µ± 3σ chứa khoảng 99.7% giá trị dữ liệu của mẫu hoặc tổng thể. 50 Hệ số biến thiên n Hệ số biến thiên (Coefficient of Variation) được sử dụng để so sánh sự biến thiên của hai hay nhiều tập dữ liệu, có thể đo ở các đơn vị khác nhau, n Đo mối liên hệ giữa sự biến thiên và trung bình. n Đơn vị tính bằng %. n Công thức CV = S X¯ 100% (8) 51 21 So sánh hệ số biến thiên n Dữ liệu A: u Trung bình x¯A = 50 u Độ lệch chuẩn sA = 5 CVA = SA x¯A 100% = 5 50 100% = 10% n Dữ liệu B: u Trung bình x¯B = 100 u Độ lệch chuẩn sB = 5 CVB = SB x¯B 100% = 5 100 100% = 5% n Cả hai tập dữ liệu có cùng độ lệch chuẩn, nhưng dữ liệu B biến thiên ít hơn so với giá trị của nó. 52 Các phân phối thường gặp trong thống kê 53 Phân phối chuẩn Định nghĩa 2 (Phân phối chuẩn). Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (−∞,+∞) được gọi là có phân phối chuẩn tham số µ, σ nếu hàm mật độ xác suất có dạng f(x) = 1 σ √ 2pi exp ( −(x− µ) 2 2σ2 ) −∞ < x < +∞ (9) trong đó µ, σ là hằng số và σ > 0, −∞ < µ < +∞, ký hiệu X ∼ N (µ;σ2). 54 22 Phân phối chuẩn 55 Phân phối chuẩn 56 23 Phân phối chuẩn Nhờ vào định lý sau, nên nếu biến ngẫu nhiên X có phân phối chuẩn thì biến đổi tuyến tính của X cũng có phân phối chuẩn. Định lý 3 (Tính "tuyến tính" của phân phối chuẩn). Nếu biến ngẫu nhiên X có phân phối chuẩn với kỳ vọng µ, phương sai σ2 và nếu Y = aX + b, (a, b là hằng số và a 6= 0), thì Y có phân phối chuẩn với kỳ vọng aµ+ b và phương sai a2σ2. Định lý 4. Nếu các biến ngẫu nhiên X1, . . . ,Xn là độc lập và nếu Xi có phân phối chuẩn với kỳ vọng µi và phương sai σ2i , (i = 1, 2, . . . , n), thì tổng X1 + · · ·+Xn có phân phối chuẩn với kỳ vọng là µ1 + · · ·+ µn và phương sai là σ21 + · · ·+ σ2n. 57 Phân phối chuẩn Mệnh đề 1. Nếu các biến ngẫu nhiên X1, . . . ,Xn là độc lập và Xi có phân phối chuẩn với kỳ vọng µi và phương sai σ2i , (i = 1, . . . , n). ai, . . . , an và b là các hằng số sao cho có ít nhất một ai 6= 0, thì biến ngẫu nhiên a1X1 + · · ·+ anXn + b có phân phối chuẩn với kỳ vọng a1µ1 + · · ·+ anµn và phương sai a21σ 2 1 + · · ·+ a2nσ2n. 58 Phân phối chuẩn hóa Định nghĩa 5 (Standard normal distribution). Biến ngẫu nhiên X được gọi là có phân phối chuẩn hóa nếu nó có phân phối chuẩn với tham số µ = 0 và σ2 = 1, ký hiệu X ∼ N (0; 1). Theo quy ước, hàm phân phối của biến ngẫu nhiên chuẩn hóa được ký hiệu là Φ(x), tức Φ(x) = 1√ 2pi ∫ x −∞ e− y2 2 dy 59 24 Phân phối chuẩn hóa Theo định lý về tính tuyến tính của phân phối chuẩn, nếu X ∼ N (µ;σ2) thì X − µ σ có phân phối chuẩn hóa hay X − µ σ ∼ N (0; 1) Dựa vào tính chất này ta có thể tính xác suất của biến ngẫu nhiên X ∼ N (µ;σ2). P (X ≤ b) = P ( X − µ σ ≤ b− µ σ ) = Φ ( b− µ σ ) Tương tự, với a ≤ b thì P (a < X ≤ b) = P (X ≤ b)− P (X ≤ a) = Φ ( b− µ σ ) − Φ ( a− µ σ ) 60 Phân phối chuẩn hóa Nếu X ∼ N (µ;σ2) thì P (|X − µ| ≤ kσ) = P ( −k ≤ X − µ σ ≤ k ) = 2Φ(k)− 1 người ta hay gọi đẳng thức trên là "Quy tắc k-sigma (kσ)". Với k = 3 ta có quy tắc 3-sigma: P (|X − µ| ≤ 3σ) = P ( −k ≤ X − µ σ ≤ k ) = 2Φ(3)− 1 ≈ 0.9973 "Sai số giữa X và µ không quá 3 σ là gần chắc chắn (xác suất gần bằng 1)." 61 Phân phối chuẩn hóa Định nghĩa 6 (Phân vị chuẩn hóa, Normal quartile). Cho biến ngẫu nhiên X ∼ N (µ;σ2), phân vị chuẩn hóa mức α, ký hiệu xα, là giá trị của biến ngẫu nhiên X thỏa mãn điều kiện P (X ≤ xα) = α Ví dụ 3. Đường kính của một chi tiết máy do một máy tiện sản xuất có phân phối chuẩn với kỳ vọng 20mm, phương sai (0.2mm)2. Tính xác suất lấy ngẫu nhiên một chi tiết a) có đường kính trong khoảng 19.9mm đến 20.3mm. b) có đường kính sai khác với kỳ vọng không quá 0.3mm. 62 25 Phân phối chi bình phương Định nghĩa 7 (Chi-squared distribution). Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (0,+∞) được gọi là có phân phối chi bình phương với n bậc tự do, ký hiệu X ∼ χ2(n), nếu hàm mật độ xác suất có dạng f(x) = 0 với x ≤ 0, 1 2 n 2 Γ(n2 ) x n 2 −1e− x 2 với x > 0. trong đó Γ(x) = ∫∞ 0 t x−1e−tdt là hàm Gamma . Lưu ý: Để thấy phân phối chi bình phương xuất phát từ phân phối chuẩn người ta còn định nghĩa X ∼ χ2(n) nếu X =∑ni=1X2i với Xi là các biến ngẫu nhiên độc lập và Xi ∼ N(0, 1). 63 Phân phối chi bình phương 64 26 Phân phối chi bình phương 65 Phân phối chi bình phương Định lý 8 (Các đặc trưng của biến ngẫu nhiên có phân phối chi bình phương). Cho X là biến ngẫu nhiên có phân phối chi bình phương với n bậc tự do thì i) Kỳ vọng E (X) = n, ii) Phương sai Var (X) = 2n, iii) Nếu X ∼ χ2(n), Y ∼ χ2(m) và X,Y là hai biến ngẫu nhiên độc lập thì X + Y ∼ χ2(m+ n). 66 Phân phối Student Định nghĩa 9 (Student distribution). Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (−∞,+∞) được gọi là có phân phối Student với n bậc tự do, ký hiệu X ∼ t(n), nếu hàm mật độ xác suất có dạng f(x) = Γ(n+12 )√ npi Γ(n2 ) ( 1 + t2 n )−n+1 2 , trong đó Γ(x) là hàm Gamma. 67 27 Phân phối student Lưu ý • Đồ thị của hàm mật độ phân phối Student có dạng hình chuông như đồ thị hàm mật độ của phân phối chuẩn, nhưng có phần đỉnh thấp hơn và hai phần đuôi cao hơn so với phân phối chuẩn. • Để thấy phân phối Student xuất phát từ phân phối chuẩn và phân phối χ2(n) người ta còn định nghĩa X ∼ t(n) nếu X = Z√ Y n với Z ∼ N(0, 1), Y ∼ χ2(n) và Z, Y là các biến ngẫu nhiên độc lập. 68 Phân phối student 69 28 Phân phối student 70 Phân phối student Định lý 10 (Các đặc trưng của biến ngẫu nhiên có phân phối Student). Cho X ∼ t(n) thì i) Kỳ vọng E (X) = 0 nếu n > 1, các trường hợp còn lại E (X) không được định nghĩa. ii) Phương sai Var (X) = n n−2 nếu n > 2; Var (X) =∞ nếu 1 < n ≤ 2 các trường hợp còn lại Var (X) không được định nghĩa. 71 Phân phối mẫu 72 Phân phối mẫu Định nghĩa 11. Xét X1,X2, . . . ,Xn là một mẫu ngẫu nhiên chọn từ một tổng thể và hàm giá trị thực (hay véc-tơ) T (x1, x2, . . . , xn). Thì biến ngẫu nhiên hay véc-tơ ngẫu nhiên Y = T (X1,X2, . . . ,Xn) được coi là một thống kê. Phân phối xác suất của thống kê Y được gọi là phân phối mẫu của Y . Những phân phối mẫu được khảo sát: • Phân mối mẫu của trung bình, • Phân phối mẫu của phương sai, • Phân phối mẫu của tỷ lệ. 73 29 Phân phối mẫu của trung bình và phương sai Định nghĩa 12. Trung bình mẫu là trung bình số học của các giá trị trong một mẫu ngẫu nhiên, xác định bởi X¯ = X1 +X2 + · · ·+Xn n = 1 n n∑ i=1 Xi Phương sai mẫu là thống kê xác định bởi S2 = 1 n− 1 n∑ i=1 (Xi − X¯)2 74 Phân phối mẫu của trung bình và phương sai Định lý 13. Nếu tổng thể X có phân phối chuẩn X ∼ N(µ, σ2) và (X1, ...,Xn) là một mẫu ngẫu nhiên từ tổng thể trên thì n X¯ ∼ N(µ, σ 2 n ). n (n−1) σ2 S2 = ∑n i=1 (Xi−X¯)2 σ2 ∼ χ2(n− 1). n (X¯−µ) √ n S ∼ t(n− 1) n X¯ và S2 là hai biến ngẫu nhiên độc lập. 75 Phân phối mẫu của trung bình và phương sai Trong trường hợp tổng thể không có phân phối chuẩn, từ định lý giới hạn trung tâm ta suy ra rằng (X¯ − µ)√n σ D−→ N(0, 1) (X¯ − µ)√n S D−→ N(0, 1) Từ kết quả này, trong thực hành, khi mẫu có kích thước, n, đủ lớn ta có các phân phối xấp xỉ chuẩn sau (X¯ − µ)√n σ ≈ N(0, 1) (X¯ − µ)√n S ≈ N(0, 1) 76 30 Sai số chuẩn của trung bình Định nghĩa 14. Xét X1,X2, . . . ,Xn là một mẫu ngẫu nhiên chọn từ một tổng thể có trung bình µ và phương sai σ2 <∞. Sai số chuẩn (Standard Error) của trung bình, ký hiệu σX¯ được định nghĩa như sau σX¯ = σ√ n (10) Ý nghĩa: • σX¯ đo độ biến thiên của X¯ xung quanh µ, • Sai số chuẩn càng nhỏ, ước lượng tham số từ tổng thể càng tốt và độ tin cậy cao. 77 Sai số chuẩn của trung bình σX¯ bị ảnh hưởng bởi hai yếu tố: (1) Cỡ mẫu n: Cỡ mẫu càng lớn ⇒ sai số chuẩn càng nhỏ, chú ý rằng khi n = 1 thì σX¯ = σ. (2) Độ biến thiên của tổng thể σ: σ càng lớn ⇒ sai số chuẩn càng lớn. 78 Phân phối mẫu của tỷ lệ • Giả sử cần khảo sát đặc trưng A của một tổng thể, khảo sát n phần tử và đặt Xi = { 1, nếu thỏa A 0, nếu không thỏa A thu được mẫu ngẫu nhiên X1, . . . ,Xn với Xi ∼ B(p), p là tỷ lệ phần tử thỏa đặc trưng A. • Đặt X =∑ni=1 là số phần tử thỏa đặc trưng A trong mẫu khảo sát, thì X ∼ B(n, p). • Tỷ lệ mẫu Pˆ là một ước lượng của tỷ lệ p xác định bởi Pˆ = X n (11) 79 31 Phân phối mẫu của tỷ lệ • Kỳ vọng và phương sai của Pˆ bằng E ( Pˆ ) = p; Var ( Pˆ ) = p(1− p) n • Theo định lý giới hạn trung tâm ta có Pˆ − p√ p(1−p) p ; N(0, 1) Vì vậy trong thực hành, khi np ≥ 5, n(1− p) ≥ 5, ta có Pˆ ≈ N ( p, p(1−p) n ) . 80 32
File đính kèm:
- bai_giang_xac_suat_thong_ke_chuong_5_thong_ke_mo_ta_hoang_va.pdf
- Chap 5 - Thong ke mo ta (slide).pdf