Giáo trình Tin học lý thuyết - Chương 8: Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh

Nội dung chính : Trong chương này, chúng ta xét thêm một loại ôtômát, không mạnh

bằng máy Turing, được gọi là ôtômát tuyến tính giới nội (Linear Bounded Automata

– LBA). Đồng thời cũng xét thêm lớp văn phạm tương ứng với nó, là lớp văn phạm

L1hay còn gọi là văn phạm cảm ngữcảnh, lớp văn phạm nằm giữa lớp văn phạm L0

và văn phạm phi ngữcảnh L2. Từ đó ta hoàn thành sựphân cấp các ngôn ngữthành 4

cấp, gọi là sựphân cấp Chomsky.

Mục tiêu cần đạt: Cuối chương, sinh viên cần phải nắm vững:

¾Khái niệm LBA, định nghĩa và các thành phần.

¾Sựtương đương giữa LBA và văn phạm cảm ngữcảnh.

¾Mối tương quan giữa các lớp ngôn ngữ.

pdf7 trang | Chuyên mục: Lý Thuyết Automat và Ứng Dụng | Chia sẻ: dkS00TYs | Lượt xem: 1806 | Lượt tải: 2download
Tóm tắt nội dung Giáo trình Tin học lý thuyết - Chương 8: Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
 CẢNH (CSG) 
Ta gọi văn phạm cảm ngữ cảnh (Context Sensitive Grammar - CSG) là một hệ thống 
G (V, T, P, S), trong đó: 
1) V là một tập hữu hạn các biến hay ký hiệu không kết thúc. 
2) T là một tập hữu hạn các ký hiệu cuối, V ∩ T = ∅ 
3) P là tập hữu hạn các luật sinh dạng α → β trong đó α, β ∈ (V ∪ T)*, chuỗi 
α phải có chứa biến và ràng buộc ⎟ α⎟ ≤ ⏐β⏐ 
4) S ∈ V là ký hiệu bắt đầu. 
Ta định nghĩa ngôn ngữ do văn phạm cảm ngữ cảnh G sinh ra là 
L(G) = { w | w ∈ Σ* và S ⇒* w} 
L(G) được gọi là ngôn ngữ cảm ngữ cảnh (Context Sensitive Language - CSL). Thuật 
ngữ “cảm ngữ cảnh” có xuất xứ từ một dạng chuẩn của văn phạm dạng này, trong đó 
mỗi luật sinh có dạng α1Aα2 → α1βα2 với β ≠ ε, cho thấy một biến A chỉ có thể được 
thay thế bởi một chuỗi β (khác rỗng) trong “ngữ cảnh” α1 - α2. Điều đó không giống 
như trong văn phạm phi ngữ cảnh, với các luật sinh có dạng A → β (⏐β⏐≥ 0), sự thay 
thế này không đòi hỏi ngữ cảnh. 
Thí dụ 8.1 : Xét CSG G (V, T, P, S) với V ={ S, B, C}, ∑ ={a, b, c} và P gồm các 
luật sinh như sau : 
 1) S → aSBC 
2) S → aBC 
 3) CB → BC 
 4) aB → ab 
5) bB → bb 
6) bC → bc 
7) cC → cc 
Một cách phi hình thức, bằng cách áp dụng một số luật sinh cho các chuỗi dẫn xuất 
sinh ra ngôn ngữ, ta dễ thấy rằng văn phạm G sinh ra ngôn ngữ có dạng : 
L = {anbncn⏐ n ≥ 1} 
Thật vậy, với luật sinh (1) và (2) ta có chuỗi dẫn xuất S ⇒* an(BC)n. Sau đó, bằng 
cách áp dụng luật sinh (3), mọi biến B sẽ được thay thế lên trước các biến C trong 
chuỗi dẫn xuất : an(BC) ⇒* anBnCn. Bởi luật sinh (4) và (5), mọi biến B sẽ được thay 
thế thành các ký hiệu kết thúc b, và cuối cùng với (6) và (7), mọi biến C cũng sẽ được 
thay thế thành c. Tóm lại, ta có chuỗi dẫn xuất như sau : 
S⇒* an(BC)n ⇒* anBnCn ⇒* anbncn 
Bài toán thành viên với CSG (Membership) 
Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 
 136
ĐỊNH LÝ 8.1 : Tồn tại giải thuật để xác định với mọi ngôn ngữ cảm ngữ cảnh 
CSG G(V, T, P, S) bất kỳ và một chuỗi nhập w ∈ T*, liệu chuỗi w có thuộc ngôn 
ngữ L(G) hay không. 
Chứng minh 
Giả sử | w | = n. Ta lập đồ thị mà mỗi đỉnh là một chuỗi thuộc (V ∪ T)* có độ 
dài nhỏ hơn hoặc bằng n, có một cung từ đỉnh α đến đỉnh β nếu α ⇒G β. Như vậy 
một đường trong đồ thị đó tương ứng với một suy dẫn trong G. Vậy w ∈ L(G) khi và 
chỉ khi có một đường đi từ đỉnh bắt đầu S tới đỉnh w trong đồ thị. Dùng bất cứ giải 
thuật nào cho phép tìm đường nối hai đỉnh trong đồ thị (đã có nhiều thuật toán như 
thế), ta sẽ xác định được phải chăng đã có đường đi từ đỉnh S tới đỉnh w. 
Thí dụ 8.2 : Xét CSG G (V, T, P, S) với các luật sinh được cho như trong Thí dụ 
8.1 trên và xét chuỗi nhập w = abbc. Ta cần xác định xem liệu chuỗi w ∈ L(G)? 
 Để tìm đường đi từ đỉnh S tới đỉnh abbc trong đồ thị nói trên ta có thể dùng 
phương pháp “vết dầu loang” như sau: 
 Lập các R(i), i = 0, 1, 2, … theo quy tắc sau: 
 R(0) = { S } 
 R(i) = R(i -1) ∪ { β | α ⇒ β với α ∈ R(i -1) và | β | ≤ | w | } 
Do R(0) ⊆ R(1) ⊆ … ⊆ R(i) ⊆ R(i +1) ⊆ … ⊆ tập các đỉnh, vậy tồn tại số k 
nào đó sao cho: 
 R(k) = R(k +1) = R(k +2) = … 
Do đó quá trình thành lập các R(i) sẽ có thể ngừng sau k bước. 
 Và w ∈ L(G) khi và chỉ khi có i ≤ k để cho w ∈ R(i). 
 Trong thí dụ trên, giả sử khi ta xét | w |= 4, ta có: 
 R(0) = { S } 
 R(1) = {S, aSBC, aBC} 
 R(2) = {S, aSBC, aBC, abC} 
 R(3) = {S, aSBC, aBC, abC, abc} 
 R(4) = R(3) 
 Vậy chuỗi abbc không thuộc L(G). 
III. SỰ TƯƠNG ĐƯƠNG GIỮA LBA VÀ CSG 
Chúng ta chú ý rằng LBA có thể chấp nhận các chuỗi rỗng ε, còn CSG không thể sinh 
ra chuỗi rỗng. Ngoài trường hợp đó ra thì LBA sẽ chấp nhận chính xác tất cả các 
chuỗi được sinh ra từ CSG. 
ĐỊNH LÝ 8.2 : Nếu L là một CSG thì L sẽ được chấp nhận bởi một LBA nào đó. 
Chứng minh 
Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 
 137
 Cách chứng minh định lý này cũng tương tự như cách chứng minh của định lý 
7.9 ở chương trước về sự tương đương giữa lớp ngôn ngữ sinh từ văn phạm loại 0 với 
lớp ngôn ngữ mà máy Turing chấp nhận, chỉ khác là ở đây không cần dùng một băng 
nhập thứ hai để phát sinh các dạng câu theo chuỗi dẫn xuất lần lượt theo các suy dẫn 
của văn phạm, mà chỉ cần dùng rãnh thứ hai trên băng nhập của LBA vào việc đó. 
 Cho G = (V, T, P, S) là một CSG, ta xây dựng ôtômát LBA M như sau: Băng 
nhập của LBA gồm hai rãnh : rãnh 1 chứa chuỗi nhập w với các ký hiệu đánh dấu ⊄, 
$ ở hai đầu, rãnh 2 dùng để phát sinh các dạng câu α. Trạng thái bắt đầu, nếu w = ε 
thì M ngừng và không chấp nhận input, nếu không thì đầu đọc viết ký hiệu S ở rãnh 
2, ngay dưới ký hiệu bên trái nhất của chuỗi w, tiếp đó M thực hiện quá trình sau: 
1) Chọn trong số không đơn định một chuỗi con β của chuỗi α trên rãnh 2 sao 
cho β → γ là một luật sinh trong P. 
2) Thay β bởi γ, nếu cần thiết ta phải dịch chuyển phần cuối chuỗi sang phải 
cho đủ chỗ, tuy nhiên nếu dịch chuyển ra ngoài $ thì LBA ngừng và không chấp 
nhận. 
3) (Hình thái hiện tại ở rãnh 1 là ⊄ w $, còn ở rãnh 2 là chuỗi α, mà S ⇒G α và 
| α | ≤ | w |). So sánh rãnh 1 và rãnh 2, nếu α = w thì LBA ngừng và chấp nhận w. 
Nếu không thì trở về bước (1). 
Như vậy khi M chấp nhận chuỗi w, thì S ⇒G* w. Ngược lại nếu S ⇒G* w thì 
mọi dạng câu α xuất hiện trong chuỗi dẫn xuất đó đều thoả mãn | α | ≤ | w |, bởi vì 
mọi luật sinh β → γ trong văn phạm G đều thỏa | β | ≤ | γ |. Như vậy M có thể thực 
hiện chuỗi dẫn xuất đó trên rãnh 2, giữa hai ký hiệu đánh dấu đầu mút ⊄ và $. Vậy M 
chấp nhận chuỗi nhập w. 
Tóm lại M sẽ chấp nhận mọi chuỗi sinh ra bởi văn phạm G. 
ĐỊNH LÝ 8.3 : Nếu L = L(M) với một LBA M (Q, Σ, Γ,δ,qo,⊄, $, F) thì L – {ε} 
là một ngôn ngữ cảm ngữ cảnh. 
Chứng minh 
 Cách chứng minh định lý này cũng tương tự như cách chứng minh của định lý 
7.10 ở chương trước, bằng cách ta xây dựng một CSG G thực hiện 3 giai đoạn: 
 - Giai đoạn 1: Văn phạm cho phép sinh ra một chuỗi w (chuỗi nhập của M), 
cũng được chứa trong ⊄, $ và q0. 
 - Giai đoạn 2: Văn phạm lặp lại công việc của M. 
 - Giai đoạn 3: Khi xuất hiện trạng thái q ∈ F, ta thu về chuỗi w với lưu ý rằng 
các luật sinh α → β đều có | α | = | β |. 
 Quá trình mô phỏng lại các luật sinh đó bởi các luật sinh của CSG sẽ không có 
gì vướng mắc. Chỉ ở giai đoạn 3, việc xoá đi các ký hiệu đánh dấu hai đầu mút ⊄ và 
$, q không được phép làm rút ngắn chuỗi nhập lại. Để giải quyết vướng mắc này, ta 
gắn các ký hiệu ⊄, $, q kề bên với các ký hiệu của chuỗi nhập mà không để đứng rời 
ra như trước. 
 Cụ thể, giai đoạn 1 thực hiện bởi các luật sinh trong G sau: 
 S1 → [a, q0 ⊄ a]S2 S1 → [a, q0⊄a$] 
Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 
 138
 S2 → [a, a]S2, S2 → [a,a$] 
 ∀a ∈ Σ - {⊄, $} 
 Các luật sinh trong G cho phép thực hiện giai đoạn 2, giống như LBA M thực 
hiện (sinh viên tự xây dựng xem như bài tập). 
 Cuối cùng, ở giai đoạn 3, các luật sinh sau đây sẽ được sử dụng, với q ∈ F : 
 [a, αqβ] → a 
 ∀a ∈ Σ - {⊄, $} và ∀α, β có thể có. 
 Chú ý rằng số luật sinh là hữu hạn, vì α và / hoặc β chỉ gồm ⊄, $ và một ký 
hiệu nhập vào. Chúng ta cũng có thể xoá thành phần thứ hai của một biến nếu nó liền 
kề với ký hiệu kết thúc bằng cách dùng các luật sinh dạng: 
 [a, α]b → ab 
 b[a, α] → ba 
 ∀a, b ∈ Σ - {⊄, $} và ∀α có thể có. 
 Như vậy các luật sinh vừa được xây dựng mô tả văn phạm là CSG và có thể 
chứng minh L(M) - {ε} = L(G). 
IV. TƯƠNG QUAN GIỮA CÁC LỚP NGÔN NGỮ 
Ngôn ngữ đoán nhận bởi các văn phạm cũng được phân loại theo tên của từng lớp văn 
phạm, ta gọi đó là sự phân cấp Chomsky về ngôn ngữ. 
Có 4 lớp ngôn ngữ đã được giới thiệu – tập đệ quy liệt kê (r.e), ngôn ngữ cảm ngữ 
cảnh (CSL), ngôn ngữ phi ngữ cảnh (CFL) và tập chính quy (r) tương đương với 4 
lớp ngôn ngữ loại 0, 1, 2 và 3. 
Theo lý thuyết được xây dựng xuyên suốt trong giáo trình này, ta có thể tóm tắt lại 
như sau: 
a) L là ngôn ngữ loại 0 khi và chỉ khi L được đoán nhận bởi một máy Turing. 
b) L là ngôn ngữ loại 1 khi và chỉ khi L được đoán nhận bởi một ôtômát tuyến 
tính giới nội (sai khác chuỗi rỗng ε) 
 c) L là ngôn ngữ loại 2 khi và chỉ khi L được đoán nhận bởi một ôtômát đẩy 
xuống (không đơn định). 
 d) L là ngôn ngữ loại 3 khi và chỉ khi L được đoán nhận bởi một ôtômát hữu 
hạn (sai khác chuỗi rỗng ε). 
Ta cũng cần lưu ý rằng sự phân cấp ngôn ngữ như trên là một bao hàm thức nghiêm 
ngặt, thể hiện quy luật sau: 
 a) Lớp các ngôn ngữ loại 3 là tập con thực sự của lớp ngôn ngữ loại 2. Thật 
vậy mọi văn phạm chính quy đều là văn phạm phi ngữ cảnh. Hơn nữa người ta có thể 
chứng minh rằng ngôn ngữ {0n1n | n ≥ 1} là một ngôn ngữ phi ngữ cảnh, nhưng không 
phải là ngôn ngữ chính quy. 
Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 
 139
 b) Lớp các ngôn ngữ loại 2 không chứa các chuỗi rỗng là tập con thực sự của 
lớp ngôn ngữ loại 1. Thật vậy mọi văn phạm phi ngữ cảnh có dạng chuẩn Chomsky 
đều là văn phạm cảm ngữ cảnh. Hơn nữa người ta có thể chứng minh rằng ngôn ngữ 
{a 2i | i ≥ 1} là ngôn ngữ cảm ngữ cảnh nhưng không là ngôn ngữ phi ngữ cảnh. 
 c) Lớp các ngôn ngữ loại 1 là tập con thực sự của lớp các ngôn ngữ loại 0. 
Thật vậy, mọi văn phạm cảm ngữ cảnh đều là văn phạm cấu trúc không hạn chế. Mặt 
khác người ta cũng đề xuất được những ngôn ngữ là đệ quy liệt kê (loại 0), mà không 
cần làm ngữ cảnh (loại 1). Các thí dụ đó được xây dựng dựa trên các khái niệm “đệ 
quy” và “sự giải được”, mà khuôn khổ giáo trình này không cho phép đề cập đến. 
Tổng kết chương VIII: Với sự giới thiệu mô hình ôtômát tuyến tính giới nội LBA và 
lớp ngôn ngữ cảm ngữ cảnh mà nó đoán nhận, mô hình phân cấp ngôn ngữ theo 
Noam Chomsky đã được hoàn chỉnh. 
BÀI TẬP CHƯƠNG VIII 
8.1. Xây dựng văn phạm cảm ngữ cảnh sinh ra các ngôn ngữ sau: 
a) { ww | w ∈ (0+1)+} 
b) { 0k | k = i2 và i ≥ 1} 
c) { 0i | i không là số nguyên tố} 
d) { ai b2i c3i | i ≥ 1} 
e) { ai bi ck | i ≥ 1, k ≤ 1} 
8.2. Thiết kế ôtômát tuyến tính giới nội LBA đoán nhận các ngôn ngữ sau: 
a) { an bn cn | n ≥ 1} 
b) { ww | w ∈ (a + b + c)*} 

File đính kèm:

  • pdfGiáo trình Tin học lý thuyết - Chương 8 Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh.pdf