Báo cáo Bài tập lớn môn Toán ứng dụng - Đỗ Hoàng Huy

• Phân tích hồi quy tuyến tính.

Đường hồi quy tuyến tính của Y đối với X:

- Sử dụng lệnh data analysis.

- Chọn chương trình Regression. Trong hộp thoại của Regression lần lượt

ấn định các chi tiết:

•Phạm vi của biến số Y (Input Y Range) $B$1:$B$21

•Phạm vi của biến số X (Input X Range) $A$1:$A$21

•Nhãn dữ liệu (Labels)

•Mức tin cậy ( Confidence Level): 95%

•Tọa độ đầu ra (Output Range)

Và 1 số tùy chọn khác như đường hồi quy ( Line Fit Plots), biểu thức sai số

(ResidualsPlots).

 

docx24 trang | Chuyên mục: Xác Suất Thống Kê | Chia sẻ: tuando | Lượt xem: 479 | Lượt tải: 0download
Tóm tắt nội dung Báo cáo Bài tập lớn môn Toán ứng dụng - Đỗ Hoàng Huy, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
âng ?)? Tìm ñöôøng hoài quy tuyeán tính cuûa Y ñoái vôùi X. Tính sai soá tieâu chuaån cuûa ñöôøng hoài quy tuyeán tính.
Cơ sở lý thuyết:
1) Phân tích tương quan tuyến tính:
Giả sử X và Y là hai ĐLNN. Chúng ta đã biết rằng X và Y gọi là độc lập nếu việc ĐLNN này nhận một giá trị nào đó cũng không ảnh hưởng gì đến phân bố xác suất của ĐLNN kia.Tuy nhiên trong nhiều tình huống thực tế, X và Y không độc lập với nhau. Điều này thường gặp khi X và Y là hai phép đo nào đó tiến hành trên cùng một cá thể. 
Vì vậy để đo mức độ phụ thuộc giữa hai ĐLNN X và Y, người ta đưa ra khái niệm về hệ số tương quan. Hệ số tương quan lý thuyết của X và Y, kí hiệu là ρ, và ρ có công thức: 
ρ=E(X-μX)(Y-μY)σXσY
Trong đó μX ,σX là giá trị trung bình và độ lệch chuẩn của X và μY,σY là giá trị trung bình và độ lệch chuẩn của Y. ρ nằm trong khoảng [-1,1] . 
Khi ρ = 0 thì không có tương quan tuyết tính giữa X và Y. (X,Y) có phân bố chuẩn thì ρ= 0 khi và chỉ khi X và Y độc lập. Khi |ρ| càng gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng mạnh. Nếu |ρ| = 1, thì Y là một hàm tuyến tính của X. 
Do ρ thường rất khó tìm vì muốn biết ρ chúng ta cần biết phân bố của tập hợp chính bao gồm tất cả các giá trị của cặp (X,Y). Vì thế chúng ta có bài toán ước lượng và kiểm định hệ số tương quan ρ căn cứ trên một mẫu quan sát (x1,y1), (x2,y2),,(xn,yn) các giá trị của (X,Y).
Và ước lượng cho ρ được thay thế bằng đại lượng r (r được gọi là hệ số tương quan). 
r=1n(xi-X)(yi-Y)1n(xi-X)21n(yi-Y)2
Để tính toán thuận lợi r có thể được viết dưới dạng sau: 
r=n(xy)-(x)(y)nx2-(x)2ny2-(y)2
r cũng nằm trong [-1,1], nếu thu được giá trị nằm ngoài đoạn [-1,1] có nghĩa là ta đã tính toán sai. 
Chúng ta có bài toán kiểm định : 
Ho: ρ = 0 ( X, Y không tương quan) 
Với đối giả thiết : H1: ρ ≠ 0 
Nếu (X,Y) có phân bố chuẩn hai chiều thì dưới giả thiết Ho, ĐLNN 
T=rn-21-r2
có phân bố Student với n-2 bậc tự do. 
Vì vậy test thống kê thích hợp cho bài toán kiểm định thống kê cho bài này là : 
T=rn-21-r2
Ta sẽ bác bỏ Ho, nếu |T| > c, ở đó c là phân vị mức của phân bố Student với bậc n-2 bậc tự do. 
2) Phân tích hồi quy: 
Cho hệ các biến ngẫu nhiên (X,Y).Giả sử theo kết quả ta nhận được n điểm (x1;y1) ,(x2;y2) (xn; yn) (trong các điểm này có thể trùng nhau).Cần tìm hệ số tương quan của hệ các biến ngẫu nhiên này. 
Chú ý tới luật số lớn,thì với n đủ lớn trong các công thức tính σx2,σy2 và Cxy ta có thể thay các kỳ vọng M(X) và M(Y) bằng trung bình cộng các giá trịcủa các biến ngẫu nhiên tương ứng. Ta được các đẳng thức xấp xỉ sau đây: 
MX≈x=1ni=1nxi; M(Y)≈Y=1ni=1nyi;
σx2≈1ni=1nxi2-x2;σy2≈1ni=1nyi2-y2;
Cxy≈1ni=1nxiyi-xy;
Từ đó ta tìm hệ số tương quan theo công thức 
rxy=Cxyσxσy
Nếu |rxy|n-1≥3 thì sự liên hệ giữa các biến ngẫu nhiên X và Y đủ tin cậy.Nếu liên hệ giữa X và Y đã được thiết lập thì xấp xỉ tuyến tính yx theo x được cho bởi công thức hồi quy tuyến tính 
yx-y=rxyσxσyx-x hay yx=ax+b
Còn xấp xỉ tuyến tính xy theo y được cho bởi công thức hồi quy tuyến tính 
xy-x=rxyσyσxy-y hay xy=cx+d
Cần chú ý rằng yx=ax+b và xy=cx+d là các đường thẳng khác nhau.Đường thứ nhất nhận được do kết quả giải bài toán cực tiểu hóa tổng bình phương độ lệch theo đường thẳng đứng,còn đường thứ hai nhận được khi giải bài toán cực tiểu hóa tổng bình phương độ lệch theo đường thẳng nằm ngang. 
Để dựng phương trình hồi quy tuyến tính cần phải: 
1) Theo bảng xuất phát của các giá trị(X,Y) tính x,y, σx,σy,Cxy,rxy ;
2) Kiểm định giả thiết tồn tại sự liên hệ giữa X và Y; 
3) Lập các phương trình của cả hai đường hồi quy và biểu diễn đồ thị của các phương trình đó.
Bài làm:
Bài toán cho mức ý nghĩa nên đây là bài toán kiểm định. Đây là bài kiểm định phương sai và hổi quy.
Phân tích tương quan tuyến tính:
Giả thiết: 
Ho: X,Y không tương quan với nhau (ρ= 0) 
H1: X,Y tương quan với nhau.
Ta có bảng dữ liệu:
- Sử dụng lệnh data analysis. 
-Chọn chương trình correlation. 
-Nhập vùng dữ liệu : (A1,B13). 
-Check mục labels in first column.
-Chọn ô xuất giá trị ENTER .
-MS EXCEL sẽ xuất cho ta bảng sau:
Vậy hệ số tương quan r = -0.07326 , hệ số xác định r2=0.0567
Ta có 12 cặp quan sát=>n=12, T α có phân bố Student với 10 (hay n-2) bậc tự do, α=5%,
Sử dụng lệnh Tinv để tính T α:
Ta có Tα= 2.22813
Với bậc n=12, α=5%. Ta có Tqs:
Tqs=rXYn-21-rXY2= -0.07326 x 12-21--0.073262= -0.23229 
Do | Tqs | < Tα , vậy ta chấp nhận giả thiết Ho nghĩa là X,Y không tương quan với nhau.
Phân tích tương quan phi tuyến
Giả thiết H1: X,Y không tương quan phi tuyến với nhau.
- Nhập dữ liệu sau khi sắp xếp lại.
- Sử dụng lệnh data analysis . 
- Trong hộp thoại Anova: Single Factor lần lượt ấn định
- Phạm vi đầu vào (Input range)
- Cách xắp xếp theo hàng hay cột (Group by)
- Nhãn dử liệu (Labels in fisrt row/column)
- Phạm vi đầu ra (Output range)
- Ta được bảng sau
Biện luận:
+ n=12, k=5.
+ Tổng bình phương giữa các nhóm SSF :14,5.
+ Tổng bình phương giữa các nhân tố SST : 32,25.
+ ηY/X2= SSFSST=0,44165→Tần số tương quan ηY/X= 0,667947.
+ Phân bố Fisher Fα = 4,346831.
+ Giá trị Fqs=(ηY/X2- r2)(n-k)(1- ηY/X2)(k-2) = 1.82321
 Fqs< Fα
Kết luận:
Vậy X và Y không có tương quan phi tuyến với nhau.
Phân tích hồi quy tuyến tính.
Đường hồi quy tuyến tính của Y đối với X:
- Sử dụng lệnh data analysis. 
- Chọn chương trình Regression. Trong hộp thoại của Regression lần lượt 
ấn định các chi tiết: 
•Phạm vi của biến số Y (Input Y Range) $B$1:$B$21 
•Phạm vi của biến số X (Input X Range) $A$1:$A$21 
•Nhãn dữ liệu (Labels) 
•Mức tin cậy ( Confidence Level): 95% 
•Tọa độ đầu ra (Output Range) 
Và 1 số tùy chọn khác như đường hồi quy ( Line Fit Plots), biểu thức sai số
(ResidualsPlots)....
Bảng kết quả:
Hệ số tự do: 14.0731
Hệ số góc: -0.0115
Giá trị của hệ số tự do (P-value) = 2.577x10-6 Bác bỏ giả thiết Ho. (Hệ số tự do có ý nghĩa thống kê).
Giá trị hệ số góc (P-value)=0.821>0.05=> Chấp nhận giả thiết H (Hệ số góc không có ý nghĩa thống kê)
Giá trị F (signi	ficance) =0.821>0.05=> chấp nhận giả thiết H.
Phương trình đường hồi quy của Y đối với X: Y=14.0731-0.0115X (với sai số tiêu chuẩn S=1.791) là không thích hợp.
Câu 4) So saùnh chi phí trung bình cho ba loaïi dòch vuï ôû ba thaønh phoá khaùc nhau treân cô sôû baûng soá lieäu sau ñaây:
Thaønh phoá
Loaïi dòch vuï
I
II
III
I
II
III
61
58
68
52
51
64
69
61
79
Caùc con soá trong oâ laø chi phí trung bình cho 1 laàn dòch vuï (ñôn vò: 1000ñ).Choïn möùc yù nghóa 10%.
Cơ sở lý thuyết: 
Phân tích phương sai hai nhân tố ( có lặp )
Giả sử chúng ta quan tâm tới nhân tố A và B. Nhân tố A được xem xét ở các mức A1, A2, ...Ar, và nhân tố B được xem xét ở các nước B1, B2,...Bc.
Gọi Xjk là ĐLNN đo lường hiệu quả việc tác động của mức Aj và Bk lên cá thể. Giả sử x1jk, x2jk, ..., xnjk là mẫu kích thước njk rút ra từ tập hợp chính các giá trị của Xjk. Ta gọi đó là mẫu (j, k). Ta đưa ra một số ký hiệu sau:
: trung bình của mẫu (j, k)
 trung bình của mức Aj
 trung bình của mức Bk
 = trung bình chung = 
	Ta có bảng sau đây ghi các kết quả tính toán trên:
A
B
B1
B2
...
Bk
...
Bc
Trung bình
dòng Aj
A1
...
...
A2
...
...
...
...
...
...
...
...
...
...
Aj
...
...
...
...
...
...
...
...
...
...
Ar
...
...
Trung bình cột Bk
...
...
	+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau: 
	+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau:
	+ Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức
	+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức.
	+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA’ được tính bởi công thức:
	r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1.
	+ Trung bình bình phương của nhân tố B, ký hiệu là MSFB’ được tính bởi công thức.
	c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1.
	+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
	n – cr gọi là bậc tự do của sai số.
	+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi 
	(c – 1) (r – 1) gọi là bậc tự do của tương tác.
	Chú ý rằng:
	(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng.
	+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau.
	Tương tự tỷ số F cho nhân tố B, FB được tính bởi
và tỷ số F cho tương tác giữa A và B, ký hiệu là FAB được tính bởi:
	Với mức ý nghĩa a đã cho ta ký hiệu f (u, v) là phân vị mức a của phân bố Fisher với bậc tự do (u, v).
	Ta có quy tắc quyết định như sau:
	+ Nếu FA> f (r – 1, n – cr) thì ta bác bỏ giả thiết.
	 “Các mức A1,... Ar có hiệu quả trung bình như nhau”
	+ Nếu FB> f (c – 1, n – cr) thì ta bác bỏ giả thiết:
	 “Các mức B1, B2, ... Bc có hiệu quả trung bình như nhau”
	Nếu FAB> f ((r – 1)(c – 1), n – rc)
Ta bác bỏ giả thiết:
	 “Có sự tương tác giữa A và B”.
	Trên thực hành tính toán chúng ta thực hiện như sau:
	Giả sử Tjk là tổng các giá trị trong mẫu (j, k). Ký hiệu
	(3)
	Ta có các đẳng thức sau:
	(4)
	(5)
	(6)
	(7)
	(8)
	Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì: 
do đó 	(5’)
	(6’) 
Bài làm: 
Bài toán cho mức ý nghĩa nên đây là bài toán kiểm định. Giả thiết H0: Chi phí trung bình cho 3 loại dịch vụ ở 3 thành phố là bằng nhau.
Từ đề ta có dữ liệu:
Áp dụng “ Anova: Two-Factor Without Replication”
a.Nhấn lần lượt đơn lệnh Data và lệnh Data Analysis.	
b.Chọn trương trình Anova: Two-Factor Without Replication trong hộp thoại Data Analysis rồi nhấn nút OK
c.Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định
- Phạm vi đầu vào (Input range)
- Cách xắp xếp theo hàng hay cột (Group by)
- Nhãn dử liệu (Labels in fisrt row/column)
- Phạm vi đầu ra (Output range)
Bảng Anova: 
Kết luận:
Từ giá trị trong bảng Anova: 
Ta có FR=24.91589 > F0.1=4.324555 =>Bác bỏ giả thiết Ho (giữa thành phố).
Ta có FC=24.74766 > F0.1=4.324555 =>Bác bỏ giả thiết Ho (giữa loại dịch vụ).
Vậy chi phí trung bình cho 3 loại dịch vụ ở 3 thành phố là khác nhau.

File đính kèm:

  • docxbao_cao_bai_tap_lon_mon_toan_ung_dung_do_hoang_huy.docx