Giáo trình Tin học lý thuyết - Chương 8: Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh
Nội dung chính : Trong chương này, chúng ta xét thêm một loại ôtômát, không mạnh
bằng máy Turing, được gọi là ôtômát tuyến tính giới nội (Linear Bounded Automata
– LBA). Đồng thời cũng xét thêm lớp văn phạm tương ứng với nó, là lớp văn phạm
L1hay còn gọi là văn phạm cảm ngữcảnh, lớp văn phạm nằm giữa lớp văn phạm L0
và văn phạm phi ngữcảnh L2. Từ đó ta hoàn thành sựphân cấp các ngôn ngữthành 4
cấp, gọi là sựphân cấp Chomsky.
Mục tiêu cần đạt: Cuối chương, sinh viên cần phải nắm vững:
¾Khái niệm LBA, định nghĩa và các thành phần.
¾Sựtương đương giữa LBA và văn phạm cảm ngữcảnh.
¾Mối tương quan giữa các lớp ngôn ngữ.
CẢNH (CSG) Ta gọi văn phạm cảm ngữ cảnh (Context Sensitive Grammar - CSG) là một hệ thống G (V, T, P, S), trong đó: 1) V là một tập hữu hạn các biến hay ký hiệu không kết thúc. 2) T là một tập hữu hạn các ký hiệu cuối, V ∩ T = ∅ 3) P là tập hữu hạn các luật sinh dạng α → β trong đó α, β ∈ (V ∪ T)*, chuỗi α phải có chứa biến và ràng buộc ⎟ α⎟ ≤ ⏐β⏐ 4) S ∈ V là ký hiệu bắt đầu. Ta định nghĩa ngôn ngữ do văn phạm cảm ngữ cảnh G sinh ra là L(G) = { w | w ∈ Σ* và S ⇒* w} L(G) được gọi là ngôn ngữ cảm ngữ cảnh (Context Sensitive Language - CSL). Thuật ngữ “cảm ngữ cảnh” có xuất xứ từ một dạng chuẩn của văn phạm dạng này, trong đó mỗi luật sinh có dạng α1Aα2 → α1βα2 với β ≠ ε, cho thấy một biến A chỉ có thể được thay thế bởi một chuỗi β (khác rỗng) trong “ngữ cảnh” α1 - α2. Điều đó không giống như trong văn phạm phi ngữ cảnh, với các luật sinh có dạng A → β (⏐β⏐≥ 0), sự thay thế này không đòi hỏi ngữ cảnh. Thí dụ 8.1 : Xét CSG G (V, T, P, S) với V ={ S, B, C}, ∑ ={a, b, c} và P gồm các luật sinh như sau : 1) S → aSBC 2) S → aBC 3) CB → BC 4) aB → ab 5) bB → bb 6) bC → bc 7) cC → cc Một cách phi hình thức, bằng cách áp dụng một số luật sinh cho các chuỗi dẫn xuất sinh ra ngôn ngữ, ta dễ thấy rằng văn phạm G sinh ra ngôn ngữ có dạng : L = {anbncn⏐ n ≥ 1} Thật vậy, với luật sinh (1) và (2) ta có chuỗi dẫn xuất S ⇒* an(BC)n. Sau đó, bằng cách áp dụng luật sinh (3), mọi biến B sẽ được thay thế lên trước các biến C trong chuỗi dẫn xuất : an(BC) ⇒* anBnCn. Bởi luật sinh (4) và (5), mọi biến B sẽ được thay thế thành các ký hiệu kết thúc b, và cuối cùng với (6) và (7), mọi biến C cũng sẽ được thay thế thành c. Tóm lại, ta có chuỗi dẫn xuất như sau : S⇒* an(BC)n ⇒* anBnCn ⇒* anbncn Bài toán thành viên với CSG (Membership) Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 136 ĐỊNH LÝ 8.1 : Tồn tại giải thuật để xác định với mọi ngôn ngữ cảm ngữ cảnh CSG G(V, T, P, S) bất kỳ và một chuỗi nhập w ∈ T*, liệu chuỗi w có thuộc ngôn ngữ L(G) hay không. Chứng minh Giả sử | w | = n. Ta lập đồ thị mà mỗi đỉnh là một chuỗi thuộc (V ∪ T)* có độ dài nhỏ hơn hoặc bằng n, có một cung từ đỉnh α đến đỉnh β nếu α ⇒G β. Như vậy một đường trong đồ thị đó tương ứng với một suy dẫn trong G. Vậy w ∈ L(G) khi và chỉ khi có một đường đi từ đỉnh bắt đầu S tới đỉnh w trong đồ thị. Dùng bất cứ giải thuật nào cho phép tìm đường nối hai đỉnh trong đồ thị (đã có nhiều thuật toán như thế), ta sẽ xác định được phải chăng đã có đường đi từ đỉnh S tới đỉnh w. Thí dụ 8.2 : Xét CSG G (V, T, P, S) với các luật sinh được cho như trong Thí dụ 8.1 trên và xét chuỗi nhập w = abbc. Ta cần xác định xem liệu chuỗi w ∈ L(G)? Để tìm đường đi từ đỉnh S tới đỉnh abbc trong đồ thị nói trên ta có thể dùng phương pháp “vết dầu loang” như sau: Lập các R(i), i = 0, 1, 2, … theo quy tắc sau: R(0) = { S } R(i) = R(i -1) ∪ { β | α ⇒ β với α ∈ R(i -1) và | β | ≤ | w | } Do R(0) ⊆ R(1) ⊆ … ⊆ R(i) ⊆ R(i +1) ⊆ … ⊆ tập các đỉnh, vậy tồn tại số k nào đó sao cho: R(k) = R(k +1) = R(k +2) = … Do đó quá trình thành lập các R(i) sẽ có thể ngừng sau k bước. Và w ∈ L(G) khi và chỉ khi có i ≤ k để cho w ∈ R(i). Trong thí dụ trên, giả sử khi ta xét | w |= 4, ta có: R(0) = { S } R(1) = {S, aSBC, aBC} R(2) = {S, aSBC, aBC, abC} R(3) = {S, aSBC, aBC, abC, abc} R(4) = R(3) Vậy chuỗi abbc không thuộc L(G). III. SỰ TƯƠNG ĐƯƠNG GIỮA LBA VÀ CSG Chúng ta chú ý rằng LBA có thể chấp nhận các chuỗi rỗng ε, còn CSG không thể sinh ra chuỗi rỗng. Ngoài trường hợp đó ra thì LBA sẽ chấp nhận chính xác tất cả các chuỗi được sinh ra từ CSG. ĐỊNH LÝ 8.2 : Nếu L là một CSG thì L sẽ được chấp nhận bởi một LBA nào đó. Chứng minh Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 137 Cách chứng minh định lý này cũng tương tự như cách chứng minh của định lý 7.9 ở chương trước về sự tương đương giữa lớp ngôn ngữ sinh từ văn phạm loại 0 với lớp ngôn ngữ mà máy Turing chấp nhận, chỉ khác là ở đây không cần dùng một băng nhập thứ hai để phát sinh các dạng câu theo chuỗi dẫn xuất lần lượt theo các suy dẫn của văn phạm, mà chỉ cần dùng rãnh thứ hai trên băng nhập của LBA vào việc đó. Cho G = (V, T, P, S) là một CSG, ta xây dựng ôtômát LBA M như sau: Băng nhập của LBA gồm hai rãnh : rãnh 1 chứa chuỗi nhập w với các ký hiệu đánh dấu ⊄, $ ở hai đầu, rãnh 2 dùng để phát sinh các dạng câu α. Trạng thái bắt đầu, nếu w = ε thì M ngừng và không chấp nhận input, nếu không thì đầu đọc viết ký hiệu S ở rãnh 2, ngay dưới ký hiệu bên trái nhất của chuỗi w, tiếp đó M thực hiện quá trình sau: 1) Chọn trong số không đơn định một chuỗi con β của chuỗi α trên rãnh 2 sao cho β → γ là một luật sinh trong P. 2) Thay β bởi γ, nếu cần thiết ta phải dịch chuyển phần cuối chuỗi sang phải cho đủ chỗ, tuy nhiên nếu dịch chuyển ra ngoài $ thì LBA ngừng và không chấp nhận. 3) (Hình thái hiện tại ở rãnh 1 là ⊄ w $, còn ở rãnh 2 là chuỗi α, mà S ⇒G α và | α | ≤ | w |). So sánh rãnh 1 và rãnh 2, nếu α = w thì LBA ngừng và chấp nhận w. Nếu không thì trở về bước (1). Như vậy khi M chấp nhận chuỗi w, thì S ⇒G* w. Ngược lại nếu S ⇒G* w thì mọi dạng câu α xuất hiện trong chuỗi dẫn xuất đó đều thoả mãn | α | ≤ | w |, bởi vì mọi luật sinh β → γ trong văn phạm G đều thỏa | β | ≤ | γ |. Như vậy M có thể thực hiện chuỗi dẫn xuất đó trên rãnh 2, giữa hai ký hiệu đánh dấu đầu mút ⊄ và $. Vậy M chấp nhận chuỗi nhập w. Tóm lại M sẽ chấp nhận mọi chuỗi sinh ra bởi văn phạm G. ĐỊNH LÝ 8.3 : Nếu L = L(M) với một LBA M (Q, Σ, Γ,δ,qo,⊄, $, F) thì L – {ε} là một ngôn ngữ cảm ngữ cảnh. Chứng minh Cách chứng minh định lý này cũng tương tự như cách chứng minh của định lý 7.10 ở chương trước, bằng cách ta xây dựng một CSG G thực hiện 3 giai đoạn: - Giai đoạn 1: Văn phạm cho phép sinh ra một chuỗi w (chuỗi nhập của M), cũng được chứa trong ⊄, $ và q0. - Giai đoạn 2: Văn phạm lặp lại công việc của M. - Giai đoạn 3: Khi xuất hiện trạng thái q ∈ F, ta thu về chuỗi w với lưu ý rằng các luật sinh α → β đều có | α | = | β |. Quá trình mô phỏng lại các luật sinh đó bởi các luật sinh của CSG sẽ không có gì vướng mắc. Chỉ ở giai đoạn 3, việc xoá đi các ký hiệu đánh dấu hai đầu mút ⊄ và $, q không được phép làm rút ngắn chuỗi nhập lại. Để giải quyết vướng mắc này, ta gắn các ký hiệu ⊄, $, q kề bên với các ký hiệu của chuỗi nhập mà không để đứng rời ra như trước. Cụ thể, giai đoạn 1 thực hiện bởi các luật sinh trong G sau: S1 → [a, q0 ⊄ a]S2 S1 → [a, q0⊄a$] Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 138 S2 → [a, a]S2, S2 → [a,a$] ∀a ∈ Σ - {⊄, $} Các luật sinh trong G cho phép thực hiện giai đoạn 2, giống như LBA M thực hiện (sinh viên tự xây dựng xem như bài tập). Cuối cùng, ở giai đoạn 3, các luật sinh sau đây sẽ được sử dụng, với q ∈ F : [a, αqβ] → a ∀a ∈ Σ - {⊄, $} và ∀α, β có thể có. Chú ý rằng số luật sinh là hữu hạn, vì α và / hoặc β chỉ gồm ⊄, $ và một ký hiệu nhập vào. Chúng ta cũng có thể xoá thành phần thứ hai của một biến nếu nó liền kề với ký hiệu kết thúc bằng cách dùng các luật sinh dạng: [a, α]b → ab b[a, α] → ba ∀a, b ∈ Σ - {⊄, $} và ∀α có thể có. Như vậy các luật sinh vừa được xây dựng mô tả văn phạm là CSG và có thể chứng minh L(M) - {ε} = L(G). IV. TƯƠNG QUAN GIỮA CÁC LỚP NGÔN NGỮ Ngôn ngữ đoán nhận bởi các văn phạm cũng được phân loại theo tên của từng lớp văn phạm, ta gọi đó là sự phân cấp Chomsky về ngôn ngữ. Có 4 lớp ngôn ngữ đã được giới thiệu – tập đệ quy liệt kê (r.e), ngôn ngữ cảm ngữ cảnh (CSL), ngôn ngữ phi ngữ cảnh (CFL) và tập chính quy (r) tương đương với 4 lớp ngôn ngữ loại 0, 1, 2 và 3. Theo lý thuyết được xây dựng xuyên suốt trong giáo trình này, ta có thể tóm tắt lại như sau: a) L là ngôn ngữ loại 0 khi và chỉ khi L được đoán nhận bởi một máy Turing. b) L là ngôn ngữ loại 1 khi và chỉ khi L được đoán nhận bởi một ôtômát tuyến tính giới nội (sai khác chuỗi rỗng ε) c) L là ngôn ngữ loại 2 khi và chỉ khi L được đoán nhận bởi một ôtômát đẩy xuống (không đơn định). d) L là ngôn ngữ loại 3 khi và chỉ khi L được đoán nhận bởi một ôtômát hữu hạn (sai khác chuỗi rỗng ε). Ta cũng cần lưu ý rằng sự phân cấp ngôn ngữ như trên là một bao hàm thức nghiêm ngặt, thể hiện quy luật sau: a) Lớp các ngôn ngữ loại 3 là tập con thực sự của lớp ngôn ngữ loại 2. Thật vậy mọi văn phạm chính quy đều là văn phạm phi ngữ cảnh. Hơn nữa người ta có thể chứng minh rằng ngôn ngữ {0n1n | n ≥ 1} là một ngôn ngữ phi ngữ cảnh, nhưng không phải là ngôn ngữ chính quy. Chương VIII :Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh 139 b) Lớp các ngôn ngữ loại 2 không chứa các chuỗi rỗng là tập con thực sự của lớp ngôn ngữ loại 1. Thật vậy mọi văn phạm phi ngữ cảnh có dạng chuẩn Chomsky đều là văn phạm cảm ngữ cảnh. Hơn nữa người ta có thể chứng minh rằng ngôn ngữ {a 2i | i ≥ 1} là ngôn ngữ cảm ngữ cảnh nhưng không là ngôn ngữ phi ngữ cảnh. c) Lớp các ngôn ngữ loại 1 là tập con thực sự của lớp các ngôn ngữ loại 0. Thật vậy, mọi văn phạm cảm ngữ cảnh đều là văn phạm cấu trúc không hạn chế. Mặt khác người ta cũng đề xuất được những ngôn ngữ là đệ quy liệt kê (loại 0), mà không cần làm ngữ cảnh (loại 1). Các thí dụ đó được xây dựng dựa trên các khái niệm “đệ quy” và “sự giải được”, mà khuôn khổ giáo trình này không cho phép đề cập đến. Tổng kết chương VIII: Với sự giới thiệu mô hình ôtômát tuyến tính giới nội LBA và lớp ngôn ngữ cảm ngữ cảnh mà nó đoán nhận, mô hình phân cấp ngôn ngữ theo Noam Chomsky đã được hoàn chỉnh. BÀI TẬP CHƯƠNG VIII 8.1. Xây dựng văn phạm cảm ngữ cảnh sinh ra các ngôn ngữ sau: a) { ww | w ∈ (0+1)+} b) { 0k | k = i2 và i ≥ 1} c) { 0i | i không là số nguyên tố} d) { ai b2i c3i | i ≥ 1} e) { ai bi ck | i ≥ 1, k ≤ 1} 8.2. Thiết kế ôtômát tuyến tính giới nội LBA đoán nhận các ngôn ngữ sau: a) { an bn cn | n ≥ 1} b) { ww | w ∈ (a + b + c)*}
File đính kèm:
- Giáo trình Tin học lý thuyết - Chương 8 Ôtômát tuyến tính giới nội và văn phạm cảm ngữ cảnh.pdf