Bài giảng Audio Video Engineering

TỔNG QUAN

• TỔNG QUAN VỀ MULTIMEDIA

• KHÁI NIỆM CHUNG VỀ AUDIO VÀ

VIDEO

• HỆ THỐNG AUDIO-VIDEO

• MỘT SỐ VẤN ĐỀ VỀ TÍN HIỆ

pdf122 trang | Chuyên mục: Kỹ Thuật Truyền Thanh | Chia sẻ: yen2110 | Lượt xem: 373 | Lượt tải: 0download
Tóm tắt nội dung Bài giảng Audio Video Engineering, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
263
• Khái niệm
• Tiêu chuẩn cải tiến H.261 cho video tốc độ thấp, có thể truyền trên mạng
điện thoại công cộng PSTN, được công nhận năm 1996.
• Giống như H.261, mã hoá DCT cho các MB trong I Frame và DCT sai biệt
dự đoán trong P Frame.
• Tốc độ tối thiểu
• Ưu điểm:
• Chính xác sai biệt dự đoán với ½ pixels.
• Không hạn chế vector chuyển động.
• Mã hoá số học theo cú pháp.
• Dự đoán thuận lợi với các khung P.
• Ngoài CIF, QCIF, H.263 còn hỗ trợ SQCIF, 4 CIF và 16CIF với độ phân
giải tín hiệu chói tuần tự là 128x96, 704x576, 1408x1152. Độ phân giải tín
hiệu sắc bằng ¼ tín hiệu chói.
Audio-Video Engineeringi - i i ri
MPEG-1
• Khái niệm
• MPEG-1 là một chuẩn được phát triển và thùa nhận năm 1992 để lưu trữ video
dạng CIF và kết hợp với audio khoảng 1.5Mbps trên nhiều môi trường lưu trữ số khác
nhau như CD-ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống
đa môi trường trực tuyến.
• Thuật toán MPEG-1 tương tự như H.261 nhưng với một vài đặc tính bổ sung. Chất
lượng của MPEG-1 nén và giải nén tín hiệu CIF khoảng 1.2Mbps (tốc độ video)
tương đương với chất lượng video tương tự VHS.
• Đặc tính
• Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán bù chuyển
động, DCT, lượng tử và VLC.
• Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hoá linh hoạt.
• Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau.
• Truy cập ngẫu nhiên dựa vào các điểm truy cập độc lập (khung I).
• Tìm nhanh xem như quét dòng bit mã hoá, chỉ hiển thị các khung được chọn.
• Trễ mã hoá và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công.
Audio-Video Engineeringi - i i ri
MPEG-1
• Dạng tín hiệu ngõ vào
• MPEG-1 chỉ xét tín hiệu video luỹ tiến. Để đạt được tốc độ bit 1.5Mbps, video ngõ
vào thường được chuyển đổi trước khi đưa vào dạng ngõ vào chuẩn MPEG SIF
(Standard Input Format).
• Không gian màu (Y, Cr, Cb) đã được thừa nhận theo khuyến nghị CCIR 601. Trong
SIF MPEG, kênh chí là 352 pixel x 240 dòng và 30 khung/s.
 - Số pixel lớn nhất trên một dòng: 720.
 - Số dòng lớn nhất trên một ảnh: 576.
 - Số ảnh trong một giây: 30.
 - Số macroblock trên một ảnh: 396.
 - Số macroblock trên một giây: 9900.
 - Tốc độ bit tối đa: 1.86Mbps.
 - Kích thước bộ đệm giải mã tối đa: 376.832bits.
Chú ý: Ràng buộc trên không có nghĩa là tín hiệu video được nén với tốc độ
tối đa.
Audio-Video Engineeringi - i i ri
MPEG-1
•Cấu trúc dữ liệu và các kiểu nén
• Cấu trúc dữ liệu gồm 6 lớp, cho phép bộ gải mã hiểu được những tín hiệu chưa xác
định.
1) Các chuỗi được định dạng bởi một vài nhóm ảnh GOP.
2) Nhóm ảnh tạo nên ảnh. Nhóm ảnh được xác định bởi hai thông số m và n. Thông
số m xác định số khung hình P và khung hình B xuất hiện giữa hai khung hiềnh I gần
nhau nhất. Số n xác định số khung hình B giữa hai khung P.
3) Ảnh bao gồm các phần (slice). Có 4 dạng ảnh tương ứng với các kiểu nén, đó là
ảnh I, ảnh P, ảnh B và ảnh D.
 Ảnh I là ảnh được mã hoá DCT trong khung sử dụng thuật toán giông như JPEG.
Chúng cho phép các điểm truy cập ngẫu nhiên đến chuỗi. Có hai dạng ảnh được mã
hoá liên khung là ảnh P và ảnh B. Các ảnh này mã hoá DCT bù chuyển động sai biệt
dự đoán. Chỉ có việc dự đoán tới là được sử dụng trong kiểu ảnh P, là các ảnh được
mã hoá liên quan đến ảnh I và P trước đó. Sự dự đoán trong ảnh B có thể là tới hoặc
lùi hoặc liên hệ hai chiều tới các ảnh I hoặc P khác. Các ảnh D chỉ chứa các thành
phần DC trong mỗi khối với mục đích cho các tốc độ bit rất thấp. Số khung I, P và B
trong một GOP được áp dụng một cách phụ thuộc, ví dụ tuỳ thuộc vào thời gian truy
cập và các tốc độ bit yêu cầu.
Audio-Video Engineeringi - i i ri
MPEG-1
• Ví dụ:
• Một GOP như hình vẽ được kết hợp bởi 9 ảnh. Chú ý rằng khung đầu của mỗi
GOP luôn là một ảnh I. Trong MPEG, trật tự trong các ảnh không cần thiết giống
nhau theo thứ tự liên tiếp. Nghĩa là thứ tự truyền ảnh và thứ tự ảnh hiện lên màn hình
là không giống nhau. Ảnh trong hình vẽ có có thể được mã hoá trong một trật tự như
sau: 0, 4, 1, 2, 3, 8, 5, 6, 7 hay 0, 1, 4, 3, 8, 5, 6, 7
Khi dự đoán với các ảnh P và B nên dựa trên các ảnh đã được truyền
I B B B P B B B P
 0 1 2 3 4 5 6 7 8 9 10
Nhóm ảnh
Hình 3-22 Nhóm ảnh trong MPEG-1
Audio-Video Engineeringi - i i ri
MPEG-1
4) Các phần (slice) được tạo bởi các
macroblock. Chúng được đưa ra với mục
đích khôi phục lỗi.
5) Sự kết hợp các macroblock MB là
tương tự như H.261. Một vài tham số nén có
thể được mang trong MB cơ sở. Các dạng
MB như bảng bên.
I: Nội suy(hai hướng); B: Lùi
A: Thích ứng; F: Tới
D: Sai biệt dự đoán.
6) Các khối là các mảng 8x8 pixels.
Chúng là một đơn vị DCT nhỏ nhất.
Các tiêu đề được định nghĩa cho các chuỗi,
GOP, ảnh, phần và các MB để xác định độc
nhất dữ liệu sau nó.
Ảnh I Ảnh P Ảnh B
Intra Intra Intra
Intra-A Intra-A Intra-A
  Inter-D Inter-F
  Inter-DA Inter-FD
  Inter-F Inter-FDA
  Inter-FD Inter-B
  Inter-FDA Inter-BD
  Skipped Inter-BDA
    Inter-I
    Inter-ID
    Inter-IDA
    Skipped
Audio-Video Engineeringi - i i ri
MPEG-1
• Kiểu nén trong khung
• Các giá trị cường độ của điểm ảnh được mã hoá DCT theo cách tương tự như JPEG
và kiểu intra của H.261.
• Việc nén đạt được bằng sự kết hợp của lượng tử hoá và mã hoá chiều dài thay đổi
của các hệ số 0.
• MPEG cho phép lượng tử hoá không gian thích ứng bằng việc đưa ra tỷ lệ lượng tử
MQUANT trong cú pháp.
• Có hai kiểu MB trong các ảnh I:
- MB “Intra” được mã hoá với ma trận lượng tử hoá hiện thời.
- MB “Intra A” thì ma trận lượng tử hoá được tỷ lệ bởi hệ số MQUANT được truyền
trong header.
Chú ý rằng MQUANT có thể thay đổi trong MB cơ bản để điều khiển tốc độ bit
hoặc với mục đích lượng tử.
MPEG đã được chứng minh rằng kiểu nén Intra cung cấp 30% nén tốt hơn so với
JPEG về tính lượng tử thích ứng.
- Mã hoá các hệ số DCT sau lượng tử giống như JPEG.
Audio-Video Engineeringi - i i ri
MPEG-1
•Kiểu nén liên khung
• Trong các kiểu nén liên khung, sự dự đoán thời gian được tiến hành và kết quả sai
biệt dự đoán được mã hoá DCT. Có hai dạng kiểu dự đoán thời gian được cho phép
trong MPEG-1, đó là dự đoán tới (khung P) và dự đoán hai hướng (khung B).
• Khung P (dự đoán bù chuyển động)
•
• Sử dụng các MB thích hợp nhất trong khung trước (tham chiếu) để dự đoán bù
chuyển động trong khung hiện hành. Thích hợp nhất dựa vào trung bình bình phương
tối thiểu hoặc trung bình tuyệt đối tối thiểu.
• Sử dụng thuật toaán ước luượng chuyển động nửa pixel với hai bước thô và tinh.
Hình 3-23 Dự đoán bù chuyển động tới
Audio-Video Engineeringi - i i ri
MPEG-1
• Khung B (dự đoán hai hướng, nội suy)
• Là đặc trưng của MPEG.
• Dự đoán MB cho khung hiện hành dựa vào: Khung trước; khung sau và trung bình
MB của khung trước và khung sau.
• Ưu điểm: Hiệu quả trong việc nén nếu dùng khung B để dự đoán chu khung sau,
trung bình MC qua hai khung cho SNR tốt hơn.
• Nhược: Cần ít nhất hai khug tham chiếu I, P; nếu sử dụng khung B quá nhiều thì
khoảng cách giữa các khung tham chiếu I, P tăng " trễ mã hoá lớn.
Hình 3-24 Dự đoán hai hướng
Audio-Video Engineeringi - i i ri
MPEG-1
• Mã hoá MPEG-1
Hình 3-25 Mã hoá MPEG-1
Audio-Video Engineeringi - i i ri
MPEG-1
• Giải mã MPEG-1
Hình 3-26 Giải mã MPEG-1
Tổng quan, bộ mã hoá MPEG-1 tiến hành các bước sau:
- Quyết định nhãn của các khung I, P và B trong một GOP.
- Đánh giá chuyển động cho mỗi MB trong các ảnh P, B.
- Xác định kiểu nén MTYPE cho mỗi MB.
- Đặt tỷ số lượng tử MQUANT nếu lượng tử thích ứng được chọn.
 Bộ giải mã MPEG-1 hoạt động theo hướng ngược lại.
Audio-Video Engineeringi - i i ri
MPEG-2
• Khái niệm
• Chất lượng MPEG-1 ở tốc độ 1.2Mbps cho thấy không thể chấp nhận được với các
ứng dụng giải trí.
• MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng của
các ứng dụng với các tốc độ bit và các độ phân giải khác nhau (2-20Mbps).
Dạng ảnh trong MPEG-2
Video luỹ tiến Video kết hợp
Khung ảnh
I, P hoặc B
Khung ảnh
I, P hoặc B
Trường ảnh
I, P hoặc B
Hình 3-27 Dạng ảnh trong MPEG-2
•Đặc trưng của MPEG-2:
 - Cho phép ngõ vào kết
hợp (interlace), độ phân giải
cao, lấy mẫu phụ thay đổi của
các kênh sắc.
 - Cung cấp dòng bit co
dãn.
 - Cung cấp các tuỳ chọn
lượng tử hoá và mã hoá.
Audio-Video Engineeringi - i i ri
MPEG-2
• Các hình thái của MPEG-2
 Hình thái đơn giản: Số bước nén thấp nhất, chỉ cho phép mã hoá các
ảnh loại I hoặc P, không cho phép mã hoá các ảnh loại B. Tốc độ tối đa của
hình thái này là 15Mbps.
Hình thái chính: Cho phép sử dụng tất cả các loại ảnh nhưng
không tạo ra các mức bất kỳ. Chất lượng ảnh tốt hơn hình thái đơn giản nhưng
tốc độ bit không đổi.
Hình thái phân cấp theo SNR: Tính phân cấp theo SNR có
nghĩa là có sự thoả hiệp về chất lượng hình ảnh với tỷ số tín hiệu trên tạp âm.
Hỗ trợ cho các tốc độ 4 và 15Mbps.
Hình thái phân cấp theo không gian: Tính phân cấp theo
không gian là có sự thoả hiệp về độ phân giải. Hỗ trợ tốc độ bit 60Mbps.
Hình thái cao: Bao gồm các công cụ của các hình thái trước
cộng với khả năng mã hoá các tín hiệu màu khác nhau cùng một lúc. Là hệ
thống hoàn hảo được thiết kế cho toàn bộ các ứng dụng mà không bị giới hạn
bởi tốc độ cao.
Audio-Video Engineeringi - i i ri
MPEG-4
• Phiên bản 1: 8/1998.
• Phiên bản 2: 12/1999.
• Phát triển cho tốc độ bit rất thấp: 4.8 đến 64kbps, tuy
nhiên, sau đó đã nâng tốc độ lên đáng kể.
• Video: 5kbps đến 10Mbps.
• Audio: 2kbps đến 64 kbps.
• Hỗ trợ nội dung co dãn.
• Hỗ trợ đối tượng tương tác lẫn nhau.
• Kênh audio riêng có thể kết hợp với các đối tượng.
Audio-Video Engineeringi - i i ri
MPEG-7, MPEG21
• MPEG-7
– Được thừa nhận thành tiêu chuẩn quốc tế vào tháng 7/2001.
– Đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa
phương tiện.
– Nội dung trực quan.
– Sử dụng bộ mô tả và các sơ đồ mô tả các mối quan hệ giữa các đối
tượng.
– “Giao tiếp mô tả nội dung đa môi trường”.
• MPEG-21
– “Cơ chế đa môi trường”.
– Cho phép thương mại điện tử của nội dung đa môi trường số.

File đính kèm:

  • pdfbai_giang_audio_video_engineering.pdf