Bài giảng Audio Video Engineering
TỔNG QUAN
• TỔNG QUAN VỀ MULTIMEDIA
• KHÁI NIỆM CHUNG VỀ AUDIO VÀ
VIDEO
• HỆ THỐNG AUDIO-VIDEO
• MỘT SỐ VẤN ĐỀ VỀ TÍN HIỆ
Tóm tắt nội dung Bài giảng Audio Video Engineering, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
263 Khái niệm Tiêu chuẩn cải tiến H.261 cho video tốc độ thấp, có thể truyền trên mạng điện thoại công cộng PSTN, được công nhận năm 1996. Giống như H.261, mã hoá DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong P Frame. Tốc độ tối thiểu Ưu điểm: Chính xác sai biệt dự đoán với ½ pixels. Không hạn chế vector chuyển động. Mã hoá số học theo cú pháp. Dự đoán thuận lợi với các khung P. Ngoài CIF, QCIF, H.263 còn hỗ trợ SQCIF, 4 CIF và 16CIF với độ phân giải tín hiệu chói tuần tự là 128x96, 704x576, 1408x1152. Độ phân giải tín hiệu sắc bằng ¼ tín hiệu chói. Audio-Video Engineeringi - i i ri MPEG-1 Khái niệm MPEG-1 là một chuẩn được phát triển và thùa nhận năm 1992 để lưu trữ video dạng CIF và kết hợp với audio khoảng 1.5Mbps trên nhiều môi trường lưu trữ số khác nhau như CD-ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống đa môi trường trực tuyến. Thuật toán MPEG-1 tương tự như H.261 nhưng với một vài đặc tính bổ sung. Chất lượng của MPEG-1 nén và giải nén tín hiệu CIF khoảng 1.2Mbps (tốc độ video) tương đương với chất lượng video tương tự VHS. Đặc tính Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán bù chuyển động, DCT, lượng tử và VLC. Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hoá linh hoạt. Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau. Truy cập ngẫu nhiên dựa vào các điểm truy cập độc lập (khung I). Tìm nhanh xem như quét dòng bit mã hoá, chỉ hiển thị các khung được chọn. Trễ mã hoá và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công. Audio-Video Engineeringi - i i ri MPEG-1 Dạng tín hiệu ngõ vào MPEG-1 chỉ xét tín hiệu video luỹ tiến. Để đạt được tốc độ bit 1.5Mbps, video ngõ vào thường được chuyển đổi trước khi đưa vào dạng ngõ vào chuẩn MPEG SIF (Standard Input Format). Không gian màu (Y, Cr, Cb) đã được thừa nhận theo khuyến nghị CCIR 601. Trong SIF MPEG, kênh chí là 352 pixel x 240 dòng và 30 khung/s. - Số pixel lớn nhất trên một dòng: 720. - Số dòng lớn nhất trên một ảnh: 576. - Số ảnh trong một giây: 30. - Số macroblock trên một ảnh: 396. - Số macroblock trên một giây: 9900. - Tốc độ bit tối đa: 1.86Mbps. - Kích thước bộ đệm giải mã tối đa: 376.832bits. Chú ý: Ràng buộc trên không có nghĩa là tín hiệu video được nén với tốc độ tối đa. Audio-Video Engineeringi - i i ri MPEG-1 Cấu trúc dữ liệu và các kiểu nén Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ gải mã hiểu được những tín hiệu chưa xác định. 1) Các chuỗi được định dạng bởi một vài nhóm ảnh GOP. 2) Nhóm ảnh tạo nên ảnh. Nhóm ảnh được xác định bởi hai thông số m và n. Thông số m xác định số khung hình P và khung hình B xuất hiện giữa hai khung hiềnh I gần nhau nhất. Số n xác định số khung hình B giữa hai khung P. 3) Ảnh bao gồm các phần (slice). Có 4 dạng ảnh tương ứng với các kiểu nén, đó là ảnh I, ảnh P, ảnh B và ảnh D. Ảnh I là ảnh được mã hoá DCT trong khung sử dụng thuật toán giông như JPEG. Chúng cho phép các điểm truy cập ngẫu nhiên đến chuỗi. Có hai dạng ảnh được mã hoá liên khung là ảnh P và ảnh B. Các ảnh này mã hoá DCT bù chuyển động sai biệt dự đoán. Chỉ có việc dự đoán tới là được sử dụng trong kiểu ảnh P, là các ảnh được mã hoá liên quan đến ảnh I và P trước đó. Sự dự đoán trong ảnh B có thể là tới hoặc lùi hoặc liên hệ hai chiều tới các ảnh I hoặc P khác. Các ảnh D chỉ chứa các thành phần DC trong mỗi khối với mục đích cho các tốc độ bit rất thấp. Số khung I, P và B trong một GOP được áp dụng một cách phụ thuộc, ví dụ tuỳ thuộc vào thời gian truy cập và các tốc độ bit yêu cầu. Audio-Video Engineeringi - i i ri MPEG-1 Ví dụ: Một GOP như hình vẽ được kết hợp bởi 9 ảnh. Chú ý rằng khung đầu của mỗi GOP luôn là một ảnh I. Trong MPEG, trật tự trong các ảnh không cần thiết giống nhau theo thứ tự liên tiếp. Nghĩa là thứ tự truyền ảnh và thứ tự ảnh hiện lên màn hình là không giống nhau. Ảnh trong hình vẽ có có thể được mã hoá trong một trật tự như sau: 0, 4, 1, 2, 3, 8, 5, 6, 7 hay 0, 1, 4, 3, 8, 5, 6, 7 Khi dự đoán với các ảnh P và B nên dựa trên các ảnh đã được truyền I B B B P B B B P 0 1 2 3 4 5 6 7 8 9 10 Nhóm ảnh Hình 3-22 Nhóm ảnh trong MPEG-1 Audio-Video Engineeringi - i i ri MPEG-1 4) Các phần (slice) được tạo bởi các macroblock. Chúng được đưa ra với mục đích khôi phục lỗi. 5) Sự kết hợp các macroblock MB là tương tự như H.261. Một vài tham số nén có thể được mang trong MB cơ sở. Các dạng MB như bảng bên. I: Nội suy(hai hướng); B: Lùi A: Thích ứng; F: Tới D: Sai biệt dự đoán. 6) Các khối là các mảng 8x8 pixels. Chúng là một đơn vị DCT nhỏ nhất. Các tiêu đề được định nghĩa cho các chuỗi, GOP, ảnh, phần và các MB để xác định độc nhất dữ liệu sau nó. Ảnh I Ảnh P Ảnh B Intra Intra Intra Intra-A Intra-A Intra-A Inter-D Inter-F Inter-DA Inter-FD Inter-F Inter-FDA Inter-FD Inter-B Inter-FDA Inter-BD Skipped Inter-BDA Inter-I Inter-ID Inter-IDA Skipped Audio-Video Engineeringi - i i ri MPEG-1 Kiểu nén trong khung Các giá trị cường độ của điểm ảnh được mã hoá DCT theo cách tương tự như JPEG và kiểu intra của H.261. Việc nén đạt được bằng sự kết hợp của lượng tử hoá và mã hoá chiều dài thay đổi của các hệ số 0. MPEG cho phép lượng tử hoá không gian thích ứng bằng việc đưa ra tỷ lệ lượng tử MQUANT trong cú pháp. Có hai kiểu MB trong các ảnh I: - MB Intra được mã hoá với ma trận lượng tử hoá hiện thời. - MB Intra A thì ma trận lượng tử hoá được tỷ lệ bởi hệ số MQUANT được truyền trong header. Chú ý rằng MQUANT có thể thay đổi trong MB cơ bản để điều khiển tốc độ bit hoặc với mục đích lượng tử. MPEG đã được chứng minh rằng kiểu nén Intra cung cấp 30% nén tốt hơn so với JPEG về tính lượng tử thích ứng. - Mã hoá các hệ số DCT sau lượng tử giống như JPEG. Audio-Video Engineeringi - i i ri MPEG-1 Kiểu nén liên khung Trong các kiểu nén liên khung, sự dự đoán thời gian được tiến hành và kết quả sai biệt dự đoán được mã hoá DCT. Có hai dạng kiểu dự đoán thời gian được cho phép trong MPEG-1, đó là dự đoán tới (khung P) và dự đoán hai hướng (khung B). Khung P (dự đoán bù chuyển động) Sử dụng các MB thích hợp nhất trong khung trước (tham chiếu) để dự đoán bù chuyển động trong khung hiện hành. Thích hợp nhất dựa vào trung bình bình phương tối thiểu hoặc trung bình tuyệt đối tối thiểu. Sử dụng thuật toaán ước luượng chuyển động nửa pixel với hai bước thô và tinh. Hình 3-23 Dự đoán bù chuyển động tới Audio-Video Engineeringi - i i ri MPEG-1 Khung B (dự đoán hai hướng, nội suy) Là đặc trưng của MPEG. Dự đoán MB cho khung hiện hành dựa vào: Khung trước; khung sau và trung bình MB của khung trước và khung sau. Ưu điểm: Hiệu quả trong việc nén nếu dùng khung B để dự đoán chu khung sau, trung bình MC qua hai khung cho SNR tốt hơn. Nhược: Cần ít nhất hai khug tham chiếu I, P; nếu sử dụng khung B quá nhiều thì khoảng cách giữa các khung tham chiếu I, P tăng " trễ mã hoá lớn. Hình 3-24 Dự đoán hai hướng Audio-Video Engineeringi - i i ri MPEG-1 Mã hoá MPEG-1 Hình 3-25 Mã hoá MPEG-1 Audio-Video Engineeringi - i i ri MPEG-1 Giải mã MPEG-1 Hình 3-26 Giải mã MPEG-1 Tổng quan, bộ mã hoá MPEG-1 tiến hành các bước sau: - Quyết định nhãn của các khung I, P và B trong một GOP. - Đánh giá chuyển động cho mỗi MB trong các ảnh P, B. - Xác định kiểu nén MTYPE cho mỗi MB. - Đặt tỷ số lượng tử MQUANT nếu lượng tử thích ứng được chọn. Bộ giải mã MPEG-1 hoạt động theo hướng ngược lại. Audio-Video Engineeringi - i i ri MPEG-2 Khái niệm Chất lượng MPEG-1 ở tốc độ 1.2Mbps cho thấy không thể chấp nhận được với các ứng dụng giải trí. MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng của các ứng dụng với các tốc độ bit và các độ phân giải khác nhau (2-20Mbps). Dạng ảnh trong MPEG-2 Video luỹ tiến Video kết hợp Khung ảnh I, P hoặc B Khung ảnh I, P hoặc B Trường ảnh I, P hoặc B Hình 3-27 Dạng ảnh trong MPEG-2 Đặc trưng của MPEG-2: - Cho phép ngõ vào kết hợp (interlace), độ phân giải cao, lấy mẫu phụ thay đổi của các kênh sắc. - Cung cấp dòng bit co dãn. - Cung cấp các tuỳ chọn lượng tử hoá và mã hoá. Audio-Video Engineeringi - i i ri MPEG-2 Các hình thái của MPEG-2 Hình thái đơn giản: Số bước nén thấp nhất, chỉ cho phép mã hoá các ảnh loại I hoặc P, không cho phép mã hoá các ảnh loại B. Tốc độ tối đa của hình thái này là 15Mbps. Hình thái chính: Cho phép sử dụng tất cả các loại ảnh nhưng không tạo ra các mức bất kỳ. Chất lượng ảnh tốt hơn hình thái đơn giản nhưng tốc độ bit không đổi. Hình thái phân cấp theo SNR: Tính phân cấp theo SNR có nghĩa là có sự thoả hiệp về chất lượng hình ảnh với tỷ số tín hiệu trên tạp âm. Hỗ trợ cho các tốc độ 4 và 15Mbps. Hình thái phân cấp theo không gian: Tính phân cấp theo không gian là có sự thoả hiệp về độ phân giải. Hỗ trợ tốc độ bit 60Mbps. Hình thái cao: Bao gồm các công cụ của các hình thái trước cộng với khả năng mã hoá các tín hiệu màu khác nhau cùng một lúc. Là hệ thống hoàn hảo được thiết kế cho toàn bộ các ứng dụng mà không bị giới hạn bởi tốc độ cao. Audio-Video Engineeringi - i i ri MPEG-4 Phiên bản 1: 8/1998. Phiên bản 2: 12/1999. Phát triển cho tốc độ bit rất thấp: 4.8 đến 64kbps, tuy nhiên, sau đó đã nâng tốc độ lên đáng kể. Video: 5kbps đến 10Mbps. Audio: 2kbps đến 64 kbps. Hỗ trợ nội dung co dãn. Hỗ trợ đối tượng tương tác lẫn nhau. Kênh audio riêng có thể kết hợp với các đối tượng. Audio-Video Engineeringi - i i ri MPEG-7, MPEG21 MPEG-7 Được thừa nhận thành tiêu chuẩn quốc tế vào tháng 7/2001. Đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa phương tiện. Nội dung trực quan. Sử dụng bộ mô tả và các sơ đồ mô tả các mối quan hệ giữa các đối tượng. Giao tiếp mô tả nội dung đa môi trường. MPEG-21 Cơ chế đa môi trường. Cho phép thương mại điện tử của nội dung đa môi trường số.
File đính kèm:
- bai_giang_audio_video_engineering.pdf