Bài giảng Xác suất thống kê - Chương 5: Thống kê mô tả - Hoàng Văn Hà

Một số khái niệm cơ bản 2

Biến và dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Tổng thể và mẫu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Chọn mẫu ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Thống kê suy luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Mô tả dữ liệu bằng đồ thị 11

Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Phân phối tần số. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Xây dựng một phân phối tần số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

Xây dựng một phân phối tần số - ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Đồ thị Stem-and-Leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Đồ thị Stem-and-Leaf - ví dụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Đồ thị phân tán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Mô tả dữ liệu số 29

Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Các độ đo xu hướng trung tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Trung vị. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Trung vị. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Độ đo nào là tốt nhất? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Độ đo sự biến thiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Miền giá trị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Nhược điểm của miền giá trị. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Miền phân vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Đồ thị Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Công thức tìm phân vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Phương sai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Độ lệch tiêu chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Độ đo sự biến thiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

So sánh các độ lệch chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Định lý Chebyshev. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Quy tắc thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Hệ số biến thiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

1So sánh hệ số biến thiên . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Các phân phối thường gặp trong thống kê 53

Phân phối chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Phân phối chuẩn hóa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Phân phối chi bình phương. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Phân phối Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Phân phối mẫu 72

Phân phối mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Phân phối mẫu của trung bình và phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Sai số chuẩn của trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Phân phối mẫu của tỷ lệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

 

pdf32 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: yen2110 | Lượt xem: 443 | Lượt tải: 0download
Tóm tắt nội dung Bài giảng Xác suất thống kê - Chương 5: Thống kê mô tả - Hoàng Văn Hà, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
ược xác định như sau
Vị trí phân vị thứ nhất = 0.25(n + 1)
Vị trí phân vị thứ hai = 0.5(n + 1)
Vị trí phân vị thứ ba = 0.75(n + 1)
với n là số giá trị quan trắc.
43
Phương sai
n Phương sai (Variance) là trung bình của bình phương độ lệch các giá trị so với trung bình.
n Phương sai phản ánh độ phân tán hay sự biến thiên của dữ liệu.
n Phương sai tổng thể
σ2 =
∑N
i=1(xi − µ)2
N
(4)
với N là số phần tử của tổng thể, µ là trung bình tổng thể, xi là giá trị thứ i của biến x.
n Phương sai mẫu
S2 =
∑n
i=1(Xi − X¯)2
n− 1 (5)
với X¯ là trung bình mẫu, n là cỡ mẫu, Xi là giá trị thứ i của biến X.
44
18
Độ lệch tiêu chuẩn
n Sử dụng để đo sự biến thiên, biểu diễn sự biến thiên xung quanh trung bình,
n Có cùng đơn vị đo với dữ liệu gốc.
n Độ lệch chuẩn của tổng thể, ký hiệu là σ:
σ =
√∑N
i=1(xi − µ)2
N
(6)
n Độ lệch chuẩn của mẫu,
S =
√∑n
i=1(Xi − X¯)2
n− 1 (7)
45
Độ đo sự biến thiên
46
19
So sánh các độ lệch chuẩn
47
Định lý Chebyshev
Định lý 1 (Chebyshev). Với một tổng thể bất kỳ có trung bình µ và độ lệch chuẩn σ, và k > 1, phần
trăm các giá trị quan trắc nằm trong khoảng
[µ+ kσ]
bằng ít nhất
100
[
1− 1
k2
]
%
• Ví dụ:
48
20
Quy tắc thực nghiệm
n Quy tắc thực nghiệm (The Empirical Rule): nếu dữ liệu có phân phối chuẩn (hoặc tiệm cận
chuẩn), thì khoảng
+ µ± 1σ chứa khoảng 68% giá trị dữ liệu của mẫu hoặc tổng thể.
49
Quy tắc thực nghiệm
+ µ± 2σ chứa khoảng 95% giá trị dữ liệu của mẫu hoặc tổng thể.
+ µ± 3σ chứa khoảng 99.7% giá trị dữ liệu của mẫu hoặc tổng thể.
50
Hệ số biến thiên
n Hệ số biến thiên (Coefficient of Variation) được sử dụng để so sánh sự biến thiên của hai hay
nhiều tập dữ liệu, có thể đo ở các đơn vị khác nhau,
n Đo mối liên hệ giữa sự biến thiên và trung bình.
n Đơn vị tính bằng %.
n Công thức
CV =
S
X¯
100% (8)
51
21
So sánh hệ số biến thiên
n Dữ liệu A:
u Trung bình x¯A = 50
u Độ lệch chuẩn sA = 5
CVA =
SA
x¯A
100% =
5
50
100% = 10%
n Dữ liệu B:
u Trung bình x¯B = 100
u Độ lệch chuẩn sB = 5
CVB =
SB
x¯B
100% =
5
100
100% = 5%
n Cả hai tập dữ liệu có cùng độ lệch chuẩn, nhưng dữ liệu B biến thiên ít hơn so với giá trị của nó.
52
Các phân phối thường gặp trong thống kê 53
Phân phối chuẩn
Định nghĩa 2 (Phân phối chuẩn). Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (−∞,+∞)
được gọi là có phân phối chuẩn tham số µ, σ nếu hàm mật độ xác suất có dạng
f(x) =
1
σ
√
2pi
exp
(
−(x− µ)
2
2σ2
)
−∞ < x < +∞ (9)
trong đó µ, σ là hằng số và σ > 0, −∞ < µ < +∞, ký hiệu X ∼ N (µ;σ2).
54
22
Phân phối chuẩn
55
Phân phối chuẩn
56
23
Phân phối chuẩn
Nhờ vào định lý sau, nên nếu biến ngẫu nhiên X có phân phối chuẩn thì biến đổi tuyến tính của X
cũng có phân phối chuẩn.
Định lý 3 (Tính "tuyến tính" của phân phối chuẩn). Nếu biến ngẫu nhiên X có phân phối chuẩn với
kỳ vọng µ, phương sai σ2 và nếu Y = aX + b, (a, b là hằng số và a 6= 0), thì Y có phân phối chuẩn
với kỳ vọng aµ+ b và phương sai a2σ2.
Định lý 4. Nếu các biến ngẫu nhiên X1, . . . ,Xn là độc lập và nếu Xi có phân phối chuẩn với kỳ
vọng µi và phương sai σ2i , (i = 1, 2, . . . , n), thì tổng X1 + · · ·+Xn có phân phối chuẩn với kỳ vọng
là µ1 + · · ·+ µn và phương sai là σ21 + · · ·+ σ2n.
57
Phân phối chuẩn
Mệnh đề 1. Nếu các biến ngẫu nhiên X1, . . . ,Xn là độc lập và Xi có phân phối chuẩn với kỳ vọng
µi và phương sai σ2i , (i = 1, . . . , n). ai, . . . , an và b là các hằng số sao cho có ít nhất một ai 6= 0, thì
biến ngẫu nhiên a1X1 + · · ·+ anXn + b có phân phối chuẩn với kỳ vọng a1µ1 + · · ·+ anµn và phương
sai a21σ
2
1 + · · ·+ a2nσ2n.
58
Phân phối chuẩn hóa
Định nghĩa 5 (Standard normal distribution). Biến ngẫu nhiên X được gọi là có phân phối chuẩn
hóa nếu nó có phân phối chuẩn với tham số µ = 0 và σ2 = 1, ký hiệu X ∼ N (0; 1).
Theo quy ước, hàm phân phối của biến ngẫu nhiên chuẩn hóa được ký hiệu là Φ(x), tức
Φ(x) =
1√
2pi
∫ x
−∞
e−
y2
2 dy
59
24
Phân phối chuẩn hóa
Theo định lý về tính tuyến tính của phân phối chuẩn, nếu X ∼ N (µ;σ2) thì X − µ
σ
có phân phối
chuẩn hóa hay
X − µ
σ
∼ N (0; 1)
Dựa vào tính chất này ta có thể tính xác suất của biến ngẫu nhiên X ∼ N (µ;σ2).
P (X ≤ b) = P
(
X − µ
σ
≤ b− µ
σ
)
= Φ
(
b− µ
σ
)
Tương tự, với a ≤ b thì
P (a < X ≤ b) = P (X ≤ b)− P (X ≤ a) = Φ
(
b− µ
σ
)
− Φ
(
a− µ
σ
)
60
Phân phối chuẩn hóa
Nếu X ∼ N (µ;σ2) thì
P (|X − µ| ≤ kσ) = P
(
−k ≤ X − µ
σ
≤ k
)
= 2Φ(k)− 1
người ta hay gọi đẳng thức trên là "Quy tắc k-sigma (kσ)".
Với k = 3 ta có quy tắc 3-sigma:
P (|X − µ| ≤ 3σ) = P
(
−k ≤ X − µ
σ
≤ k
)
= 2Φ(3)− 1 ≈ 0.9973
"Sai số giữa X và µ không quá 3 σ là gần chắc chắn (xác suất gần bằng 1)."
61
Phân phối chuẩn hóa
Định nghĩa 6 (Phân vị chuẩn hóa, Normal quartile). Cho biến ngẫu nhiên X ∼ N (µ;σ2), phân vị
chuẩn hóa mức α, ký hiệu xα, là giá trị của biến ngẫu nhiên X thỏa mãn điều kiện P (X ≤ xα) = α
Ví dụ 3. Đường kính của một chi tiết máy do một máy tiện sản xuất có phân phối chuẩn với kỳ vọng
20mm, phương sai (0.2mm)2. Tính xác suất lấy ngẫu nhiên một chi tiết
a) có đường kính trong khoảng 19.9mm đến 20.3mm.
b) có đường kính sai khác với kỳ vọng không quá 0.3mm.
62
25
Phân phối chi bình phương
Định nghĩa 7 (Chi-squared distribution). Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng
(0,+∞) được gọi là có phân phối chi bình phương với n bậc tự do, ký hiệu X ∼ χ2(n), nếu hàm mật
độ xác suất có dạng
f(x) =


0 với x ≤ 0,
1
2
n
2 Γ(n2 )
x
n
2
−1e−
x
2 với x > 0.
trong đó Γ(x) =
∫∞
0 t
x−1e−tdt là hàm Gamma .
Lưu ý: Để thấy phân phối chi bình phương xuất phát từ phân phối chuẩn người ta còn định nghĩa
X ∼ χ2(n) nếu X =∑ni=1X2i với Xi là các biến ngẫu nhiên độc lập và Xi ∼ N(0, 1).
63
Phân phối chi bình phương
64
26
Phân phối chi bình phương
65
Phân phối chi bình phương
Định lý 8 (Các đặc trưng của biến ngẫu nhiên có phân phối chi bình phương). Cho X là biến ngẫu
nhiên có phân phối chi bình phương với n bậc tự do thì
i) Kỳ vọng E (X) = n,
ii) Phương sai Var (X) = 2n,
iii) Nếu X ∼ χ2(n), Y ∼ χ2(m) và X,Y là hai biến ngẫu nhiên độc lập thì X + Y ∼ χ2(m+ n).
66
Phân phối Student
Định nghĩa 9 (Student distribution). Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng
(−∞,+∞) được gọi là có phân phối Student với n bậc tự do, ký hiệu X ∼ t(n), nếu hàm mật độ xác
suất có dạng
f(x) =
Γ(n+12 )√
npi Γ(n2 )
(
1 +
t2
n
)−n+1
2
,
trong đó Γ(x) là hàm Gamma.
67
27
Phân phối student
Lưu ý
• Đồ thị của hàm mật độ phân phối Student có dạng hình chuông như đồ thị hàm mật độ của
phân phối chuẩn, nhưng có phần đỉnh thấp hơn và hai phần đuôi cao hơn so với phân phối
chuẩn.
• Để thấy phân phối Student xuất phát từ phân phối chuẩn và phân phối χ2(n) người ta còn định
nghĩa X ∼ t(n) nếu X = Z√
Y
n
với Z ∼ N(0, 1), Y ∼ χ2(n) và Z, Y là các biến ngẫu nhiên độc
lập.
68
Phân phối student
69
28
Phân phối student
70
Phân phối student
Định lý 10 (Các đặc trưng của biến ngẫu nhiên có phân phối Student). Cho X ∼ t(n) thì
i) Kỳ vọng E (X) = 0 nếu n > 1, các trường hợp còn lại E (X) không được định nghĩa.
ii) Phương sai Var (X) = n
n−2 nếu n > 2; Var (X) =∞ nếu 1 < n ≤ 2 các trường hợp còn lại
Var (X) không được định nghĩa.
71
Phân phối mẫu 72
Phân phối mẫu
Định nghĩa 11. Xét X1,X2, . . . ,Xn là một mẫu ngẫu nhiên chọn từ một tổng thể và hàm giá trị thực
(hay véc-tơ) T (x1, x2, . . . , xn). Thì biến ngẫu nhiên hay véc-tơ ngẫu nhiên Y = T (X1,X2, . . . ,Xn)
được coi là một thống kê. Phân phối xác suất của thống kê Y được gọi là phân phối mẫu của Y .
Những phân phối mẫu được khảo sát:
• Phân mối mẫu của trung bình,
• Phân phối mẫu của phương sai,
• Phân phối mẫu của tỷ lệ.
73
29
Phân phối mẫu của trung bình và phương sai
Định nghĩa 12. Trung bình mẫu là trung bình số học của các giá trị trong một mẫu ngẫu nhiên, xác
định bởi
X¯ =
X1 +X2 + · · ·+Xn
n
=
1
n
n∑
i=1
Xi
Phương sai mẫu là thống kê xác định bởi
S2 =
1
n− 1
n∑
i=1
(Xi − X¯)2
74
Phân phối mẫu của trung bình và phương sai
Định lý 13. Nếu tổng thể X có phân phối chuẩn X ∼ N(µ, σ2) và (X1, ...,Xn) là một mẫu ngẫu
nhiên từ tổng thể trên thì
n X¯ ∼ N(µ, σ
2
n
).
n (n−1)
σ2
S2 =
∑n
i=1
(Xi−X¯)2
σ2
∼ χ2(n− 1).
n (X¯−µ)
√
n
S
∼ t(n− 1)
n X¯ và S2 là hai biến ngẫu nhiên độc lập.
75
Phân phối mẫu của trung bình và phương sai
Trong trường hợp tổng thể không có phân phối chuẩn, từ định lý giới hạn trung tâm ta suy ra rằng
(X¯ − µ)√n
σ
D−→ N(0, 1)
(X¯ − µ)√n
S
D−→ N(0, 1)
Từ kết quả này, trong thực hành, khi mẫu có kích thước, n, đủ lớn ta có các phân phối xấp xỉ chuẩn
sau
(X¯ − µ)√n
σ
≈ N(0, 1)
(X¯ − µ)√n
S
≈ N(0, 1)
76
30
Sai số chuẩn của trung bình
Định nghĩa 14. Xét X1,X2, . . . ,Xn là một mẫu ngẫu nhiên chọn từ một tổng thể có trung bình µ
và phương sai σ2 <∞. Sai số chuẩn (Standard Error) của trung bình, ký hiệu σX¯ được định nghĩa
như sau
σX¯ =
σ√
n
(10)
Ý nghĩa:
• σX¯ đo độ biến thiên của X¯ xung quanh µ,
• Sai số chuẩn càng nhỏ, ước lượng tham số từ tổng thể càng tốt và độ tin cậy cao.
77
Sai số chuẩn của trung bình
σX¯ bị ảnh hưởng bởi hai yếu tố:
(1) Cỡ mẫu n: Cỡ mẫu càng lớn ⇒ sai số chuẩn càng nhỏ, chú ý rằng khi n = 1 thì σX¯ = σ.
(2) Độ biến thiên của tổng thể σ: σ càng lớn ⇒ sai số chuẩn càng lớn.
78
Phân phối mẫu của tỷ lệ
• Giả sử cần khảo sát đặc trưng A của một tổng thể, khảo sát n phần tử và đặt
Xi =
{
1, nếu thỏa A
0, nếu không thỏa A
thu được mẫu ngẫu nhiên X1, . . . ,Xn với Xi ∼ B(p), p là tỷ lệ phần tử thỏa đặc trưng A.
• Đặt X =∑ni=1 là số phần tử thỏa đặc trưng A trong mẫu khảo sát, thì X ∼ B(n, p).
• Tỷ lệ mẫu Pˆ là một ước lượng của tỷ lệ p xác định bởi
Pˆ =
X
n
(11)
79
31
Phân phối mẫu của tỷ lệ
• Kỳ vọng và phương sai của Pˆ bằng
E
(
Pˆ
)
= p; Var
(
Pˆ
)
=
p(1− p)
n
• Theo định lý giới hạn trung tâm ta có
Pˆ − p√
p(1−p)
p
; N(0, 1)
Vì vậy trong thực hành, khi np ≥ 5, n(1− p) ≥ 5, ta có Pˆ ≈ N
(
p,
p(1−p)
n
)
.
80
32

File đính kèm:

  • pdfbai_giang_xac_suat_thong_ke_chuong_5_thong_ke_mo_ta_hoang_va.pdf
  • pdfChap 5 - Thong ke mo ta (slide).pdf