Luận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không

MỤC LỤC

trang

Lời cảm ơn 1

Mục lục 2

Danh mục các bảng 5

Danh mục các hình vẽ 6

Lời nói đầu 7

Chương 1: Tổng quan vềdịch máy

I) Định nghĩa dịch máy 11

II) Vai trò của dịch máy 12

III) Lịch sửdịch máy 13

1) Giai đoạn 1930 - 1940 14

2) Giai đoạn 1940 - 1970 14

3) Giai đoạn 1970 - 1990 16

4) Giai đoạn 1990 - hiện nay 17

IV) Phân loại dịch máy 18

I) Phạm vi của luận văn 19

VI) Kết chương 20

Chương 2: Các phương pháp dịch máy

I) Vấn đềngôn ngữtrong dịch máy 21

II) Kho ngữliệu 24

III) Dịch trực tiếp 25

IV) Dịch chuyển đổi 27

1) Dịch chuyển đổi cú pháp 27

2) Dịch chuyển đổi cú pháp + phân giải ngữnghĩa 29

-3) Quy trình dịch chuyển đổi 30

V) Dịch máy dựa trên thống kê (Statistical Machine Translation) 29

VI) Dịch máy dựa trên mẫu ví dụ(Example-Based Machine Translation) 32

VII) Dịch dựa trên cơsởtri thức 33

VIII) Dịch dựa trên ngữliệu 33

IX) Dịch liên ngữ 33

1) Ưu điểm 34

2) Nhược điểm 35

3) Phân hoạch liên ngữ 36

X) Kết chương 38

Chương 3: Từ điển hàng không

I) Khảo sát 39

1) Tập hợp các từ điển Anh - Việt hàng không (dạng sách) 40

2) Tập hợp các từ điển Anh - Việt thông dụng (dạng phần mềm) 41

II) Biên tập đểxây dựng kho ngữliệu

1) Nhập liệu (từ, nghĩa từ, từxem thêm) 42

2) Phân nhóm từ 42

3) Biên tập 43

III) Lựa chọn mô hình, thiết kếgiải thuật, giao diện và viết chương trình 44

IV) Thiết kếvà viết mã 49

V) Xin ý kiến đóng góp của các chuyên gia và người sửdụng. Hoàn thiện từ điển và thửnghiệm dịch máy 60

VI) Tài liệu sửdụng 62

VII) Kết chương 62

Chương 4: Cài đặt chương trình thửnghiệm và đánh giá

I) Cách tiếp cận 62

II) Bộdữliệu thử 63

III) Các yêu cầu vềphần cứng, phần mềm của trình thửnghiệm 64

IV) Kết quảthực nghiệm 65

V) So sánh

1) Với EV-Trans 3.0 73

2) Với Lạc Việt từ điển (ởchức năng tra từtự động - AutoLook) 75

Chương 5: Kết luận - Hướng phát triển 76

Tài liệu tham khảo 78

Tóm tắt luận văn 82

Phụlục

pdf86 trang | Chuyên mục: Dịch Máy | Chia sẻ: dkS00TYs | Lượt xem: 1746 | Lượt tải: 1download
Tóm tắt nội dung Luận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
g người điều khiển. 
ST. LOUIS, tháng mười. 09, 2006 -- 
công ty chế tạo tầu bay Boeing [NYSE: 
Hàng không Anh quốc (British Airways) 
bay mới của họ thiết kế A/MH-6X light-
turbine trực thăng (một loại tầu bay 
nặng hơn không khí có cánh dạng rôto 
cánh quay, mà khi trục rôto quay sẽ tạo 
ra lực nâng) cho lần đầu tiên, dấu hiệu 
một cột mốc quan trọng trong tiếp tục 
phát triển của đa năng tầu bay quân sự 
có người lái/ không người lái. 
Thời gian tính: 1, 844 s ; Số từ: 35 ; Thời gian tính: 2 s ; Số từ: 37 ; 
Nội dung mẫu thử nghiệm 
( lấy tại  
"Boeing would like to congratulate Emirates SkyCargo on its success," Schulz 
said. "We're confident the 747-8 brings the economics and reliability that will help 
the company continue to expand its freight-carrying capabilities around the world." 
Kết xuất của EV Tran 3.0 Kết xuất của ứng dụng thử nghiệm 
"Boeing muốn chúc mừng Emirates 
SkyCargo về thành công (của) nó, " 
Schulz nói. "Chúng tôi (thì) tin chắc 
rằng 747-8 mang kinh tế học và sự tin 
cậy mà sẽ giúp đỡ công ty tiếp tục đến 
"Boeing hân hoan chúc mừng Emirates 
SkyCargo trên thành công của họ," 
Schulz nói. "chúng ta tin chắc 747-8 
hướng về kinh tế chính trị học và độ tin 
cậy sẽ đó giúp đỡ công ty tiếp tục 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 73 -
để mở rộng những khả năng mang 
chuyên chở (của) nó trên khắp thế giới."
hướng đến mở rộng khả năng chuyên 
chở của họ trên khắp thế giới." 
Thời gian tính: 1, 844 s ; Số từ: 35 ; Thời gian tính: 1, 844 s ; Số từ: 35 ; 
V) So sánh 
1) Với EV-Trans 3.0 
(đây là phiên bản mới nhất của EV-Trans, còn có tên là EvShuttle) 
 EV-Trans 3.0 Trình thử nghiệm 
Tri thức trong kho ngữ liệu 530.000 từ (EV-Trans 
được phát triển từ 
năm 1990, đội ngũ 12 
người: 3 tiến sỹ, 3 
thạc sỹ, 6 kỹ sư, cử 
nhân) 
155.270 từ (trong đó có 
21.740 thuật ngữ thuộc 
lĩnh vực hàng không), 
được phát triển từ cuối 
tháng 4-2006. 
Tính chính xác chính xác chính xác với từ hàng 
không 
Hướng thực hiện Dịch chuyển đổi Dịch trực tiếp (frase-
based) 
Thời gian thực hiện dịch nhanh hơn chậm hơn 
Dịch ngay trên ứng dụng 
khác 
Có có 
Độ lớn của đầu vào (dữ liệu khoảng 10 dòng (Win không hạn chế 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 74 -
text) Word) 
Phát âm không có 
Kết xuất dử liệu dạng ảnh 
(ảnh minh họa cho nghĩa của 
từ) 
không có (ở module gettext) 
Chiều dịch Anh - Việt, Việt - Anh Anh - Việt hàng không 
Tính ứng dụng trong thực 
tiễn 
Là một thương phẩm, 
tuy nhiên tính ứng 
dụng chưa cao 
Là một trình thử 
nghiệm, chưa có tính 
ứng dụng cao. 
Cung cấp các tính năng xóa, 
sửa, thêm (huấn luyện cho 
máy học) 
không có 
Bảng 4.2: Nội dung mẫu thử nghiệm (so sánh với EV-Trans 3.0) 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 75 -
2) Với Lạc Việt từ điển (ở chức năng tra từ tự động - AutoLook) 
(so sánh dựa trên phiên bản 2002, đây là phiên bản mới nhất của Lạc Việt 
từ điển) 
 Lạc Việt từ điển Trình thử nghiệm 
Tri thức trong kho ngữ liệu thông dụng, tổng quát chỉ từ hàng không 
Tính chính xác chính xác chính xác với từ hàng 
không 
Hướng thực hiện không xác định được 
(do Lạc Việt là mã 
nguồn đóng) 
Get text 
Tra ngay trên ứng dụng khác có (trừ file pdf) Có 
Độ lớn văn bản nguồn tra nghĩa được 1 từ tra nghĩa được cụm 
từ 
Phát âm Có Có 
Kết xuất dử liệu dạng ảnh 
(ảnh minh họa cho nghĩa của 
từ) 
Không Có 
Tương tác với người dùng 
(khi liệt kê từ và xuất nghĩa 
bởi các phím mũi tên, <pg 
up>, , , 
) 
Không Có 
Bảng 4.3: So sánh trình thử nghiệm với Lạc Việt từ điển 2002. 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 76 -
CHƯƠNG 5: KẾT LUẬN - HƯỚNG PHÁT TRIỂN 
I) Kết luận 
Luận văn đặt ra mục tiêu là tìm hiểu, nghiên cứu các phương pháp xây 
dựng hệ dịch máy. Được trình bày trong 5 chương, luận văn đã đạt được 
những kết quả sau: 
• Khảo cứu: Tìm hiểu và nghiên cứu về các hệ thống dịch máy và các mô 
hình xử lý ngữ nghĩa trong dịch máy. 
• Trình bày, liên hệ và so sánh giữa các chiến lược dịch máy khác nhau, 
từ những hướng tiếp cận cổ điển (dịch trực tiếp, dịch chuyển đổi,...) đến 
những hướng tiếp cận mới (dịch dựa trên thống kê, dịch dựa trên mẫu 
ví dụ,...). 
• Đưa ra một ứng dụng thử nghiệm về dịch máy. Trình bày, liên hệ và so 
sánh ưu nhược điểm của trình thử nghiệm với các sản phẩm thông dụng 
trên thị trường. 
Luận văn có hai phần: lý thuyết và cài đặt, phần lý thuyết về các hệ dịch 
máy chưa sâu, hàm lượng khoa học chưa cao. Tính ứng dụng vào thực tiễn 
của phần cài đặt còn khá hạn chế. Đi theo hướng thực hiện dịch trực tiếp, 
phần học máy trong ứng dụng thử nghiệm còn sơ sài (người sử dụng tương 
tác với chương trình: nhập bằng tay một mẫu tốt hơn so với mẫu kết xuất từ 
chương trình, chương trình cập nhật mẫu tốt hơn này về kho ngữ liệu). 
II) Hướng phát triển 
Để phát triển hoàn thiện hơn mô hình dịch máy, các kết quả của luận văn 
sẽ được tiếp tục phát triển theo các hướng sau: 
• Bổ sung và tối ưu hơn nữa tri thức trong kho ngữ liệu. 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 77 -
• Cải tiến thuật toán để thời gian thực hiện nhanh hơn. Phát triển trình 
thử nghiệm có thể chạy trên trang web (như systransoft.com; 
babelfish.yahoo.com, .v.v.). 
• Nghiên cứu sâu hơn về lý thuyết dịch máy: dựa trên mẫu ví dụ, dựa trên 
thống kê (đây cũng là hướng mà nhóm VLSP - Vietnamese language 
and speech của GS. Hồ Tú Bảo, Lương Chi Mai) thuộc JAIST, Viện 
Công nghệ Thông tin đang nghiên cứu. Chú trọng nghiên cứu về dịch 
chuyển đổi. 
• Tìm hiểu kỹ về mạng Bayes và mô hình Markov ẩn để việc học máy và 
tương tác người dùng cuối – trình thử nghiệm có thể tối ưu hơn. 
• Lập nhóm nghiên cứu, hiện thực thành một đề tài hoặc một nhiệm vụ 
cấp ngành, đưa ứng dụng vào thực tiễn. 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 78 -
TÀI LIỆU THAM KHẢO 
1) Tài liệu tham khảo tiếng Anh 
[1] Scott Bass, “Machine vs. Human Translation”. 
on.pdf 
[2] Hồ Tú Bảo, “Current Status of Machine Translation Research in 
Vietnam”. 
[3] Bonnie J. Dorr, “A Survey of Current Paradigms in Machine Translation”, 
tài liệu được cung cấp nhóm VLSP (Vietnamese language and speech) của 
GS. Hồ Tú Bảo, JAIST. 
[4] Bonnie J. Dorr, “Natural Language Processing and Machine Translation 
Encyclopedia of Language and Linguistics, 2nd ed. (ELL2). Machine 
Translation: Interlingual Methods”, tài liệu được cung cấp bởi TS. Lê Khánh 
Hùng, Viện Ứng dụng Công nghệ. 
[5] John Hutchins (2005), “Computer based translation in Europe and North 
America, and its future prospects”; JAPIO 20th anniversary. (Tokyo: Japan 
Patent Information Organization, 2005), pp. 156–160. 
[6] John Hutchins, “An introduction to machine translation”. 
[7] Christer Samuelsson, “Linguistic Theory in Statistical Language 
Learning”. 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 79 -
[8] Bernard E. Scott, “Linguistic and computational motivations for the 
Logos machine translation system - an overview”. 
[9] Lucia Specia, Maria das Graças Volpe Nunes, Mark Stevenson, 
“Exploiting Parallel Texts to Produce a Multilingual Sense Tagged Corpus for 
Word Sense Disambiguation”. 
[10] Wikipedia, các tài liệu về “Machine translation” trên Wikipedia 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 80 -
2) Tài liệu tham khảo tiếng Việt 
[11] GS. Hồ Tú Bảo, GS. Lương Chi Mai (2005), “Về xử lý tiếng Việt trong 
công nghệ thông tin”. 
[12] Cục Hàng không dân dụng Việt nam (2005), Từ điển giải nghĩa thuật ngữ 
kinh tế - kỹ thuật Anh-Việt hàng không. 
[13] TS. Đinh Điền (2005), “Xử lý ngôn ngữ tự nhiên”, tập san khoa học 
trường ĐH Khoa học Tự nhiên Tp. Hồ Chí Minh. 
d=1 
[14] Hồ Ngọc Đức, Từ điển Anh - Việt từ dự án “The Free Vietnamese 
Dictionary Project”. 
[15] Nguyễn Huy Hiệu (2001), Từ điển hàng không dân dụng Anh-Việt, Nhà 
xuất bản Thế giới. 
[16] Lê Khánh Hùng (2005), “Một số giải pháp nâng cao chất lượng dịch 
máy”, tài liệu của TS. Lê Khánh Hùng, Viện Ứng dụng Công nghệ. 
[17] Lê Khánh Hùng (2005), “Mở rộng mô hình văn phạm”, tài liệu của TS. 
Lê Khánh Hùng, Viện Ứng dụng Công nghệ. 
[18] Lê Khánh Hùng (2005), “Giải pháp dịch máy”, tài liệu của TS. Lê Khánh 
Hùng, Viện Ứng dụng Công nghệ. 
[19] Bùi Thanh Huy - Lê Phương Quang (2003), “Nghiên cứu và cài đặt bộ 
gán nhãn từ loại cho song ngữ Anh-Việt”. Luận văn tốt nghiệp Đại học. Khoa 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 81 -
Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí 
Minh. 
[20] Trương Xuân Nam (2004), “Một số vấn đề về xử lý ngữ nghĩa trong dịch 
tự động ngôn ngữ tự nhiên”. 
[21] Văn Chí Nam (2003), “Xử lý ngữ nghĩa trong hệ dịch tự động Anh – 
Việt cho các tài liệu tin học”. Luận văn tốt nghiệp Đại học. Khoa Công nghệ 
Thông tin, Trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh. 
[22] Nguyễn Lưu Thùy Ngân - Đỗ Xuân Quang (2003), “Xây dựng chương 
trình chuyển đổi cây cú pháp trong hệ dịch tự động Anh-Việt”. Luận văn tốt 
nghiệp Đại học. Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự 
nhiên, Thành phố Hồ Chí Minh. 
[23] Nguyễn Thống Nhất, Lê Minh Sơn (2003), “Gán nhãn phân tích cú pháp 
quan hệ cho song ngữ Anh-Việt thông qua liên kết ngữ”. Luận văn tốt nghiệp 
Đại học. Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, 
Thành phố Hồ Chí Minh. 
[24] Phạm Vinh (1999), “Từ điển kỹ thuật máy bay Anh-Việt”. Nhà xuất bản 
Khoa học Kỹ thuật. 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 84 -
PHỤ LỤC 
1) Giao diện của phần mềm 
Trần Lâm Quân 
TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG 
- 85 -
Giao diện của trình thử nghiệm dịch máy 

File đính kèm:

  • pdfLuận văn Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không.pdf
Tài liệu liên quan