第5章 多媒体基础知识

根据考试大纲,本章要求考生掌握以下知识点∶

(1)多媒体的类型、特点及数据格式。

(2)多媒体数据的压缩编码。

5.1 多媒体基础

多媒体技术主要是指文字、声音和图像等多种表达信息的形式和媒体,它强调多媒体信息的综合和集成处理。多媒体技术依赖于计算机的数字化和交互处理能力,它的关键技术是信息压缩技术和光盘存储技术,它的关键特性包括信息载体的多样性、交互性和集成性三个方面。

5.1.1 多媒体计算机

多媒体计算机的主要硬件除了常规的硬件如主机、软盘驱动器、硬盘驱动器、显示器、网卡之外,还要有音频信息处理硬件、视频信息处理硬件及光盘驱动器等部分。

(1)音频卡用于处理音频信息,它可以把话筒、录音机、电子乐器等输入的声音信息进行模数转换、压缩等处理,也可以把经过计算机处理的数字化的声音信号通过还原(解压缩)、数模转换后用音箱播放出来,或者用录音设备记录下来。

(2)视频卡用来支持视频信号(如电视)的输入与输出。

(3)采集卡能将电视信号转换成计算机的数字信号,便于使用软件对转换后的数字信号进行剪辑处理、加工和色彩控制。还可将处理后的数字信号输出到录像带中。

(4)扫描仪将摄影作品、绘画作品或其他印刷材料上的文字和图像,甚至实物,扫描到计算机中,以便进行加工处理。

(5)光驱分为只读光驱和可读写光驱,可读写光驱又称刻录机。用于读取或存储大容量的多媒体信息。

5.1.2 媒体的分类

媒体可分为感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体。

(1)感觉媒体∶直接作用于人的感官,产生感觉(视、听、嗅、味、触觉)的媒体,例如∶语言、音乐、音响、图形、动画、数据、文字等都是感觉媒体。

(2)表示媒体∶表示媒体是指用来表示感觉媒体的数据编码。如图像编码、文本编码和声音编码等。感觉媒体转换成表示媒体后,能够在计算机中进行加工处理和传输。

(3)表现媒体∶表现媒体是指进行信息输入或输出的媒体。如键盘、鼠标、扫描仪、话筒、数码相机、摄像机为输入表现媒体,显示器、打印机、扬声器、投影仪为输出表现媒体。

(4)存储媒体∶存储媒体是指用于存储表示媒体的物理实体。如硬盘、软盘、光盘等。

(5)传输媒体∶传输媒体是指传输表示媒体(即数据编码)的物理实体。如电缆、光缆等。

5.1.3存储媒体

目前存储多媒体信息的介质除了磁盘外,主要是光盘。光盘存储器利用激光束在记录表面存储信息,根据激光束的反射光来读出信息。光盘存储器主要有CD(Compact Disk,压缩盘)、CD-ROM(Compact Disc Read-Only Memory,只读压缩盘)、DVD(Digital Video Disc,数字视频光盘)以及EOD(Erasable Optical Disk,可擦除光盘)。

CD-ROM的读取目前有三种方式∶恒定角速度、恒定线速度和部分恒定角速度。CD-ROM非常适用于把大批量数据分发给大量的用户。与传统磁盘存储器相比,优点是∶具有更大的容量,可靠性高,光盘的复制更简易,可更换,便于携带;其缺点是只读,存取时间比较长。

DVD-ROM技术类似于CD-ROM技术,但是可以提供更高的存储容量。DVD通过减小读取激光波长,增大光学物镜数值孔径来达到提高存储容量的目的。DVD可以分为单面单层、单面双层、双面单层和双面双层四种物理结构。

目前存储多媒体信息的介质除了磁盘外,主要是光盘。光盘存储器利用激光束在记录表面存储信息,根据激光束的反射光来读出信息。光盘存储器主要有CD(Compact Disk,压缩盘)、CD-ROM(Compact Disc Read-Only Memory,只读压缩盘)、DVD(Digital Video Disc,数字视频光盘)以及EOD(Erasable Optical Disk,可擦除光盘)。

CD-ROM的读取目前有三种方式∶恒定角速度、恒定线速度和部分恒定角速度。CD-ROM非常适用于把大批量数据分发给大量的用户。与传统磁盘存储器相比,优点是∶具有更大的容量,可靠性高,光盘的复制更简易,可更换,便于携带;其缺点是只读,存取时间比较长。

DVD-ROM技术类似于CD-ROM技术,但是可以提供更高的存储容量。DVD通过减小读取激光波长,增大光学物镜数值孔径来达到提高存储容量的目的。DVD可以分为单面单层、单面双层、双面单层和双面双层四种物理结构。

同步化多媒体集成语言(Synchronized Multimedia Integration Language,SMIL)是由W3C(World Wide Web Consortium,万维网联盟)规定的多媒体操纵语言。SMIL与网页上用的 HTML的语法格式非常相似。后者主要针对普通的网络媒体文件进行操纵(文字、图片、声音、动画、视频的机械堆砌),而前者则操纵多媒体片断(对多媒体片断的有机的、智能的组合)。

SMIL 语言是一套已经规定好的而且非常简单的标记。它用来规定多媒体片断在什么时候、在什么地方、以什么样的方式播放。SMIL的主要优点体现在以下几个方面∶

(1)避免使用统一的包容文件格式。因为多媒体文件的格式非常多,如果我们想在本地机器上直接播放或者在网络上用流媒体的方式来播放若干类文件。以前唯一可行的办法就是用多媒体的编辑软件把这些多媒体文件整合成一个文件,这就必须统一使用某种文件格式。如果用SMIL来组织这些多媒体文件,那么可以在不对源文件进行任何修改的情形下,获得我们想要的效果。

(2)同时播放在不同地方(服务器上)的多媒体片断。假如我们现在想把一段电视采访的实况(视频文件)加上解说(包括声音解说(音频文件)和文字解说)。姑且假定例子中的视频文件是甲服务器上的A文件,音频文件是乙服务器上的B文件,而解说文字却是丙服务器上的C文件。传统的方法在这里就束手无策了,而SMIL可以非常轻松地做到这一点。

(3)时间控制。如果我们不想用整个视频文件,而只想用其中的某一部分。传统的方法中唯一可行的就是用剪辑软件来剪辑,而SMIL可以规定播放的任意时间段。

(4)对整个演示进行布局。一般情形下,在一个区域(屏幕的上部)播放视频,在另一个区域显示文字(屏幕的底部)。而使用 SMIL,我们可以随意让文字显示在哪个区域。

(5)多语言选择支持。如果一个视频文件需要让不同国家的人播放,传统的方法就是准备不同语言版本的媒体文件,让用户来选择,然后从服务器上下载相应的版本。如果把这些版本用SMIL 组织起来、规定好,那么SMIL语言将根据具体的语言设置来播放相应版本的视频。

(6)多带宽选择支持。由于各个用户连接到Intemet的方式不尽相同,所以其连接的速度差别也较大。为了让他们都能够看到同一个演示,我们可以制作适应不同传输速度的演示。在传统的方法中,往往要用户自己选择他的机器连接所对应的传输速度,然后播放相应的演示文件。使用SMIL播放器检测出用户的连接速度后,就同服务器协商,要求传输并播放相应的演示文件。

5.2 压缩编码技术

本节主要介绍数据压缩的相关技术和标准。对于多媒体数据压缩算法而言,数据质量代表压缩的效果,数据量代表压缩的能力,计算复杂度代表压缩的代价,这都需要综合考虑。<b>5.2.1 数据压缩的基础

数据之所以能够压缩,是因为基本原始信源的数据存在着很大的冗余度。一般来说,多媒体数据中存在以下种类的数据冗余。

(1)空间冗余(几何冗余)∶一幅图像的背景及其景物中,在某点自身与其相邻的一些区域内,常存在有规则的相关性。例如,一幅蔚蓝的天空中漂浮着白云的图像,其蔚蓝的天空及白云本身都具有较强的相关性,这种相关性的图像部分,在数据中就表现为冗余。空间冗余是视频图像中常见的一种冗余。

(2)时间冗余∶对于电视动画类的图像,其序列中前后相邻的两幅图像之间呈现较强的相关性,这就反映为时间冗余。如某一帧图像经过t时间后,在某下一帧图像中带有较强的相关性(即画面像素相似)。

(3)知觉冗余∶知觉冗余是指那些处于人们听觉和视觉分辨率以下的视、音频信号,若在编码时舍去这种在感知门限以下的信号,虽然这会使恢复原信号产生一定的失真,但并不能为人们所感知,为此,此种超出人们感知能力部分的编码就称为知觉冗余。例如,一般的视频图像采用28的灰度等级,而人们的视觉分辨率仅达26的等级,此差额即为知觉冗余。

(4)信息嫡冗余∶信息嫡是指一组数据所携带的信息量。它一般定义为∶

其中 N为数据类数或码元个数,P为码元Y发生的概率。由定义,为使单数据量d 接近于或等于H,应设∶

其中b(y)是分配给码元Y的比特数,理论上应取b(y)=-log2p,由于在实际应用中很难估计出{p%,p,…,p-1}。因此一般取by%)=by)=…=b(’x-1)。这样所得的d 必然大于H,由此带来的冗余称为信息嫡冗余或编码冗余。

(5)结构冗余∶有些图像从大的区域上看存在着非常强的纹理结构,例如,布纹图像和草席图像,我们说它们在结构上存在冗余。

(6)知识冗余∶有许多图像的理解与某些基础知识有相当大的相关性。例如,人脸的图像有固定的结构,比如,嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正面图像的中线上等。这类规律性的结构可由先验知识和背景知识得到,此类冗余称为知识冗余。

<b>5.2.2 数据压缩技术的分类</b>

数据压缩技术可以分为两大类∶一类是无损压缩编码法,也称为冗余压缩法、嫡编码法∶另一类是有损压缩编码法,也称为嫡压缩法。

无损压缩法去掉或减少了数据的冗余,这些冗余值可以重新插入到数据中,因此是可逆的,也是无失真压缩。它通常使用的是统计编码技术,包括哈夫曼编码、算术编码、行程编码等,它的压缩比较低,通常在2∶1~5∶1 之间。

有损压缩法压缩了嫡,会减少信息量,因此是不可逆的。它通常可以分为特征抽取和量化两大类。特征抽取包括基于模式的编码、分形编码等;量化包括零记忆量化、预测编码、直接映射、变换编码等方法。其中预测编码和变换编码是最常见的方法。有损压缩能够达到较高的压缩比。对于声音可达41~8∶1,对于动态的视频数据更是可高达100∶1~400∶1之多。

<b>5.2.3 数据压缩标准</b>

常用的数据压缩标准如下∶

(1)JPEG(Joint Photographic Experts Group,联合图像专家组)。它采用基于DCT (Discrete Cosine Transform,离散余弦变换)和可变长编码的算法,其关键技术是变换编码、量化、差分编码、哈夫曼编码和行程编码等。JPEG 2000作为JPEG标准的一个更新换代标准,它的目标是进一步改进目前压缩算法的性能,以适应低带宽、高噪声的环境,以及医疗图像、电子图书馆、传真、Intermet网上服务和保安等方面的应用。它与传统JPEG最大的不同是,它放弃了JPEG所采用的以离散余弦变换为主的区块编码方式,而采用以离散小波转换为主的多解析编码方式。

(2)MPEG。MPEG(Moving Pictures Experts Group,动态图像专家组)是 ISO (Intermational Standards Organization,国际标准化组织)制定和发布的视频、音频和数据的压缩标准。它的三大特点是兼容性好;压缩比高,可达200∶1;数据的损失很小。MPEG 采用预测和插补两种帧间编码技术。MPEG视频压缩算法中包含两种基本技术∶一种是基于16×16子块的运动补偿技术,用来减少帧序列的时域冗余;另一种是基于DCT的压缩,用于减少帧序列的空域冗余,在帧内压缩及帧间预测中均使用了DCT 变换。运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之一。常用的MPEG标准如表5-1所示。

(3)DVI(Digital Visual Interface,数字视频接口)。与 MPEG-1相当,可达VHS(Video Home System,家用录像系统)水平,压缩后数据传输速率为1.5Mbps。为了扩大DVI 的应用,Intel公司还推出了DVI算法的软件解码算法,可以将未压缩的数字视频文件压缩为原来的1/5~1/10。

(4)H.261。它主要是针对在ISDN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计的。它的算法类似于MPEG(动态图像专家组),但实时编码时比MPEG 占用CPU小,它在图像质量与运动幅度间进行了折中,即剧烈运动的图像要比相对静止的图像的质量差。它属于恒定码流可变质量编码。它采用CIF(Common Intermediate Format,通用中间格式)和QCIF(四分之一CIF)作为可视电话的视频格式。

(5)H.263。它主要是针对低带宽通信而设计的,它在低带宽下能够提供比H.261 更好的图像效果。不仅支持CIF和QCIF,还支持 SQCIF(八分之一CIF)、4CIF和16CIF。后来又推出了H.263+,增加了在易误码、易丢包、异构网络下的传输效果,现在已基本取代了H.261。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇