我交流的题目是数字多媒体技术及其发展。数字媒体应该比多媒体广泛。数字媒体包括多媒体和非多媒体。今天我交流的内容会涉及到这两个方面。
发言分四个部分。第一部份是多媒体及其发展,第二部分讲数字电视,第三部分讲高清晰度电视,第四部分讲有线电视。我为什么把第后三个部分也作为交流呢?第一个理由,电影和电视的内容,特别是电视的内容,在我们国家现在看起来还是属于广电部门归口管理,而我们电信部门主要还是在于语声数据,以及非电影电视等活动的图像,而广电部门按现在的规定是不能经营电信,是不能经营语言数据业务的。但是从发展的情况看,比如美国若干年前是我们现在的状况,广电部门是经营电视等活动图像,电信部门是经营数据语音,两家不能越鸿沟的。但两三年前界限已经打破了。在美国,电信可以经营电视业务,广电部门也可以经营语声数据业务。我们国家的数字电视这几年会不会有新动向,很难说。现在我们探讨一些发展。第二个理由,数字媒体分为多媒体和非多媒体,目前来看,二、三、四部分都是属于非多媒体部分。但是这个概念相当多的人不是太清楚,而我们是搞信息行业的,是搞电信的,什么是真正的多媒体,什么是非多媒体,我们应该有一个相对科学、比较严格是划分方法,比较清晰的定义。第三个理由,今后几年,数字电影、高清晰度电视在我国会有很大的发展。这些东西,这几年我们工作上还未接触上,但生活上会经常接触。对它的特征、它的技术特点应该有些了解。
第一部分
国际联盟把信息媒体作了分类,原则上分成五类,第一叫感觉媒体,这个很简单,就是人的感官能感觉的信息媒体,比如说数字文本、声音、图片、活动图像。那么,图片、活动图像是我们眼睛能感知的,数字也是眼睛能感知的,而声音是我们耳朵能听到的,这是视觉和听觉,比如说盲人他怎么读书呢?它是靠手来触摸盲文,这也是一种感知、触觉。盲文是凹凸不平,能一行一行摸下来,把这个文读下去,这就是一种对盲文媒体的感知。所以视觉、听觉、触觉都有现实的东西。现在科技没有发展到把味觉、嗅觉各种各样的气味能够变成信息,变成媒体,让它传输。但是从根本上来讲,嗅觉和味觉,原则上也是靠人体前端的感知神经细胞,比如,视觉、视网膜、视觉细胞、耳朵、耳膜,听觉细胞,再通过传输到大脑神经,通过接收和加工,都是这么一个过程。所以我相信,若干年后,几十年后,当然也可能更长,也可能更短,随着生物信息科学,生命信息科学的交叉发展,味觉和嗅觉加入到我们感觉多媒体里,不是不可能的。如果真是那样的话,看电视看电影,通过传输图像,那就更精彩。炒一盘菜除了菜的颜色很好,还闻到它的香味。你去一个花园,除了万紫千红的花,还闻到各种香味。随着生物信息和生命科学的发展,总有一天我们是可以实现的。不管怎么样,这些都属于感觉媒体。别看这个词很别扭,可是它是我们数字媒体,特别是多媒体里非常重要的划分。
第二个叫表示媒体。就是上述的各种感觉媒体,压缩编码后对数字化表示形式。比如说语音,这是模拟信号,被抽样量化为64K的数码。这个数码就是我们这个语音的表示媒体。表示媒体是不能直接被人感知的,只能被数字媒体系统处理,但是它是我们研究的一个重点。
第三个叫呈现媒体。就是把各种自然的或者其他的原始信息源,变成数字化以后,呈送给我们的媒体系统。比如讲麦克风、摄像机、键盘。另外一部分把数字媒体输出还原为人和机器能够识别出来的最终结果,叫展现。把呈送和展现合起来,叫呈现媒体,也就是上面所说的键盘、麦克风、摄像机、打印机、扬声器、显示器,这些东西。
第四个叫传输媒体,指磁带、软盘、硬盘、光盘、半导体集成电路存储器等。
第五个是传输媒体,如光纤、铜缆、天线。这是关于媒体的划分。
第二个问题,多媒体。根据国际电联定义,有两点。第一点,“多媒体技术是一种能够综合处理多种信息媒体的技术(其中主要指的是表示媒体)”,因为感知媒体如果不经过编码、量化,变成表示媒体,能不能在这些媒体间建立内在联系就很重要。第二点,就是在各种表示媒体,语音的、数据的、文本的、图片的、视频的,“各种表示媒体之间,要能建立一种内在的联系,使其集中为一个交互式系统的技术”。这句话也很重要,集成和交互,这两个的重要的东西,我们才能叫多媒体技术,按这个定义,常常有人说,又传数据又传声音,传了视频,传了照片,所以我说多媒体。按这个定义我就会有一个问题,我们看电视,电视里面有画面有声音,必要情况下配字幕,既然电视我们看了几十年,为什么没出多媒体?他有图像、又有声音、又有文本、又有字幕,很长时间商业媒体都具备,然而它不符合我们刚才所述的。把上面这句话再具体一点。
多媒体技术应该有下面的特点,才能叫多媒体。
第一叫集成性。所谓集成性它采用了多种媒体,比如说图像的、视频的、语音的、数据的、文本的,至少要有两种以上。
第二要有约束性。时间上的约束性有同步关系,空间上的约束性有位置关系。必然要求有时间上的约束性,不能够你还没有张嘴,那个话就出来了,那这个时间就不匹配了。再说位置上的关系,你不能说你驾一艘船在树顶上游,这种位置关系,是不对的。
第三种叫交互性。这很重要,就是能够让用户主动参与多媒体的控制,而不是被动地接受,所以不能把电视叫多媒体,因为电视是广播给你看,给你看什么就只能看什么,你无权去选择前面我没看过的,再倒回去看那一段。换句话说,用户不能参与对电视广播的这种节目控制,也就叫交互,没有这个交互就不能叫多媒体。
因此有了这三方面,我们才叫多媒体。当然有些多媒体不在我今天介绍的范围,比如DVD,你可以控制DVD光盘的内容,你可以来回倒来回看。我们把这种媒体的交互称为没有误差的环境交互,不会出错,没甚么错。DVD只是跟显示器、电视机连接了起来的,没甚么网络问题。我今天介绍数字媒体、单媒体、多媒体,里面有一些内容可以交流。那些跟通信网络无关的多媒体、数字媒体今天不介绍。
讲新发展,一个核心的问题是活动图像的压缩、编码。
大家知道人眼所接收的信息包括静止的和活动的图像。万千世界,我们所感知信息的五官,人眼要接受的信息占60%,而声音只占20%,其他触摸的和味觉嗅觉大概占20%。因此对于图像和图片的处理,它的压缩、传输、解压缩,就显得非常重要,一个原始彩色的活动图像数据量是很大的,是6MC带宽,按照国际规定,6MC带宽应该是12MC,为了更保险更便于恢复,13.5MC作为抽样频率,抽样彩电的亮度频率,两个色度色差频率,只要用它的二分之一就够了,因为人眼睛对图像亮度的变化更敏感,而对于色度的变化相对来讲就没有亮度变化那么明显,所以,抽样频率可以更低一点,而给我们感觉会达到跟亮度一样的效果。
因此为了更好地发展数字媒体和多媒体,对于活动图像,多年来集中研究的就是图像的压缩和编码,在推动着整个多媒体和数字媒体的发展。拿静止图像的压缩来讲,按照标准它的带宽是216Mbit,但是我们实际上,一个电视图像有4Mbit,就达到我们在家里能政正常收看的效果。从216M减到4Mbit,可以压缩到他的零头6MC,这个变化我们眼睛是感觉不到的。
为什么能够做到这么大的压缩?利用的原理是什么?新的发展又是什么?我们简单的讲一个概念上的问题。
第一个叫做变换,变换的方法实际上很多人都学习过接触过,比如一个语音信号,打电话的信号,它的时间函数是一个随机和准随机的没有规则变动的过程。你把话筒接到示波器输入端,波形是非常没有规则。没有规则变动的波形很难摸得准。它是个时间信号,语声信号的频谱很杂乱,是没有规则的波形。对说话信号来讲,它的频谱也不过在四千赫及其以下,是重要的语声能量集中的地方。这就是一个变换的观点。就是把一个时间的信号,反射到频谱域,我们就看得很清楚,而以前我们的载波就是这么搞的,而一个音乐的信号,中等质量的音乐,可以把各种音乐的高频低频加上去,唱的乐声加上去六、七KHZ的范围。但是要欣赏更好的音乐呢,你要把小提琴高频的泛音甚至于打釵的泛音都听出来,那恐怕要20KHZ以上了,而你要听更低的大鼓,甚至于比大鼓更低的大提琴、大贝斯,那可能要20HZ,那就不是我们讲的300HZ。那么这些观点,实际上把时间信号映射到频率域,我们就可以看得很清楚。代表这个声音的频率信号反映了一对一的关系,主要的能量集中在什么地方?同样的道理,在图像压缩方面,首先要用的就是把图像的空间域映射到频率域来.因为一个图像的空间域跟语音信号、音乐信号时间域的波形是很难分的。
大家看我们这是一个空间域的平面图像,假如说是两维,比如说,后面这个背景图(整理人注:指报告厅舞台背景,下同。)做得很漂亮。我们能从这里分析出什么规律?把它通过变换,也像声音那样,变到两维的频率域,我们就会发现,跟声音一样。不同的图像,处在频率的空间范围不一样,但是更多是低端来集中,这就是一个变换。最著名的也是我们用的最多的变换,到现在还在用的叫BCTE变换,就是离散变换。
现在我们基于图像变换的标准静止图像的标准,叫JPEG活动图像变换。会议电视的H.261、H.262、H.263,广播现在用的BCT、MPEG1以及广播用高质量的MPEG2,它们中间所用的变换,毫无例外地由空域变到频域,不是像语音由时间变到频域。因为图像是空间概念,通过变换以后能量向低端集中,我们就可以采用类似于语音和声乐同样处理的办法,把能量集中的主要部分保留下来,把高频不太重要的部分去掉,这是过程变换的观点。
变换以后,我们就可以保留这些敏感的低频和中频部分,高频部分往往能量很小,实际上人眼感觉不出来,可以去掉。那么这就是压缩了,DCT变换的压缩可以压缩到十多倍,这是第一点。
第二点就是活动图像,大家看电影都知道,本来拿一个单独照片完全是静止的,但是连续二十四幅照片,二十四幅照不同时间连续播出来,就是活动图像,中国的活动电视每秒25帧。也就是说两帧图像之间隔40毫秒。压缩原理对活动图像来讲,由于两帧之间隔40毫秒,隔得很近。比如我现在跟大家交流,实际上我真正动的部分是我的手,还有我的嘴,多数部分是没有动的。因此就有一个问题,这一帧和上一帧只差40毫秒,有没有必要把上一帧传完之后百分之百地再重新编码下一帧,百分之百地传过去,应该说没有必要。我们把第一帧送过去以后,40毫秒的那一帧里面只要把变化的那部分送到对方就够了,而变化的部分在40毫秒里面,如果不是非常非常快,就算是非常非常快,你说背景相对也是静止的,所以这里面有很多多余的部分,不必要。
根据这个概念,很简单,比如说这是进来的当前这一帧,原始的上一帧图像通过延时这是上一帧,那么这两帧一减是什么含义,就表示这两帧当中不变化的部分,减掉了输出是两帧之间的变化部分,相同的部分就减掉了,新来的这一帧的变化部分就从这输出了,然后我就把你变化的这一部分进行量化编码传过去。这一下压缩也是非常大,可以压缩到90%以上。40毫秒里面就算是活动图像,其中绝大部分是不会动,这是压缩的第二个概念。
第三个概念叫运动补偿。对这个概念稍微难接受一些,技术干部可能更感兴趣,所以我还是说一下。我刚才说了,为了压缩两帧之间的活动图像,把新一帧和上一帧相减,只把变化部分送过去,第二帧编码的内容就很少了。举一个最简单的例子,假定说背景里面都是静止的,就有一个乒乓球是白的,上一帧在这个地方我打过去时,乒乓球跑到这个地方,两帧相减会出现什么问题呢?上一帧的地方有乒乓球,你要编码,下一帧乒乓球移动了以后再一减,中间又出现了一个相反的东西。因为乒乓球在移动,在这种情况下,编码两帧的时候,绞尽脑汁觉得效率仍然不是最高的,编码新的一帧,能不能把上一帧估算一下,乒乓球无非是移动吗,移动当然可能会旋转,你打弧旋球,但是短时间内,我们可以认为它是直线运动,编码新一帧的时候,把上一帧乒乓球的位置,根据直线的估算,把乒乓球位置移动到估算是位置,然后再把这两个相减。相减以后,得到变化的部分就更少。这就叫图像的运动估算的运动补偿,这个名词稍微专业一点。这样压缩以后,活动图像就更进一步压缩,这是第三点。
图像推动数字多媒体技术的发展,它是运用了前人很多压缩技术的成果,决不是只用了帧压缩技术。一个216MC的彩电,用4MC5MC传过去,差了200多兆,是用了很多压缩方法的综合结果。
第四个方法,就跟我们刚才说的,与概率有关。就是在图像前三个压缩以后,比如空域到频域变化压缩,两个运动图像两帧相减压缩,只差活动变化部分,不活动变化部分,上一帧已经传到对方,不需要重新传,这又进行了压缩。运动补偿只不过在差分相减的情况下,进一步提高质量。然后,可以看到,变到频域以后的系数,它的概率并不见得是相等的,有的东西出现的
比较多。还拿我们这个背景来说,蓝色的电平和幕基白色的电平,这一块东西一定出现的很多,这种频谱出现的概率多。这个系数,用最短的一到两位码来编这些出现很多概率分量,而对出现很少的那一些,可以用多一些码来编,因为你要区别开嘛,如果都用得很少,这些分量就区别不出来了。这样,出现概率多的频率分量我们用很短的码位来编,数码率不就压缩了吗。很少出现的分量,可以用长一点的码位来编,不等概率的编码来比PCU。PCU都是八位,不管你是语音也好,高频低频中频全是八位,这叫等概率编码,等长编码。刚才说的应用概率是不等长编码,比等概率又有了压缩。
综合上面这些办法,变换、差分,加上不等概率编码,运动补偿等等,能把几百兆的图像压缩到几兆,在人眼看到的范围内,质量仍然得以保证。现在手机发发彩照,用的基本的编码方式就是JPEG。联合图片专家组制定的一个标准,1992年发布。它用的方式就是刚才说的BCT加变长编码,就是空域变频域,静止图像不是活动图像,所以不存在两帧之间隔40毫秒相减的问题,所以就没有运动补偿,也没有差分。
再看MPEG1,这就是VCD图像标准。大家看VCD光盘,就是这个标准,他用的就是BVT变换加变长编码,加差分编码,光盘就是标准。它是在1.5MC左右。现在用得很多的高质量图像MPEG2,1994年通过的,它的范围在2MC-50MC,方法虽然一样,但是它搜索的精度,补偿精度提高了。另外也有分层编码内容,还分了很多级。
下面先介绍一下MPEG度的级和类。分级,主级、高级,1440就指它的行扫,还有更高级;类就分简单类、主类。现在看的普通电视是主级主类,级以英文字母L表示,类用P表示, M、I、PJIU是主级和主类。当前我们接触的发展视频标准,会议电话系统,我们接触过的是H.261,后来又发展到H.263,他们的编码是运动补偿、差分编码加离散余炫变换,综合使用。
另外还有一种MPEG7编码。这种编码与其说是压缩编码,不如说它是一种编码特征的描述。举一个例子,如果你要搜索几个文件,可以输入这个文件的文件号,可以输入这个文件里面的关键词,如果要从一万多篇库里搜索一个图像编码,把图像编码的关键词输进去,有关图像编码的文章就出来了。文本的搜索很简单,现在出现一个新问题,数字媒体和多媒体技术的发展,不但有文本,还有声音和音乐、很多活动图像、静止图像。假如说,从一万个电视片里面,或者几万个图片里面,搜索出有关毛主席的段落,那你怎么搜?毛主席是一个伟大的形象,照片并没有写几个字让你搜索,不能用文字来描述,也不能用数字来描述。音乐也是这样,我喜欢听交响乐,希望从几百个交响乐中,凡是小提琴短段落搜索出来,那怎么搜索呢?现在原始的描述还不能实现这种搜索。
讲多媒体包括声音、音乐、图像。因此就要发展一种MPEG7,它是用来对媒体的存储和检索。原则上不是用来压缩,这个标准还在制定当中。如果制定出来以后,那就好办了。多媒体搜索要搜索文本,根据关键词、作者、题目、文章的内容或摘要。我喜欢京戏,我可以根据京戏里面旦角的情况,按MPEG7的描述,把所有旦角的唱段、录像这一段都搜出来。没有一个描述的东西,就无法搜索,MPEG7就是图像描述的新发展。
另外,我们知道在H.263基础上开发H.264。世界图像编码有两大主流。一大主流是国际电联HU、H系列;还有一大主流,就是JPEG、MPEG。这个主流是著名的图像公司和企业联合组成的,他们推出的他们都在用,你就得跟着他用。但是他们之间的互通就有问题,所以最近这两家正在联合搞一个既有H系列的优点又有MPEG系列的优点。这个组合叫作JVG,他们搞一个H.264这个编码。这是讲编码的原有标准,新标准的发展情况。
我刚才讲了,图像编码压缩的几个主要方法,第一个我就讲到变换法。近几年来,很多人在研究离散变换、余弦变换,这个东西你不能突破,多少年一直在用,所有标准都在用,经过这么多年的发展,现在看起来,已经在突破,其中最著名最重要的一个由空域变频域的变换的就叫做小波变换,而且已经用了。什么叫小波变换呢?我们知道傅立叶变换,把时间信号变换到频率。通过傅立叶积分、傅立叶变换。它所依据的变换积分是什么呢?是正弦或者是余弦函数。把一个时间波形各种形状以及不规则,用若干不同系数不同项目的余弦或者正弦分量来综合它。这就是复式变换。基于正弦或余弦函数有两个特点,第一,它在时间轴上是无限的,sin、cos函数在横轴上不是无限的吗?第二,它是稳态的,它大幅度振荡都一样。我们用一个稳态的函数变换一个图像,可是图像在多数情况下是不稳态的,也就是说,能够描述图像的一些太极端的数字指标,它并不是随着时间位置和时间间隔的不同,它不是固定不变的,不是稳态的。那你用一个稳态的余弦正弦来变换不稳态的图像,当然不能说他是最佳。但是要说一点,这么多年DCT变换、离散余弦变换、数字信号,我们用离散余弦变换,这已经很不错了,但是没有达到最佳。
而什么叫小波呢?小波是满足这么一个定义的,这么一个HH波形,在这个余弦上它的积分等于零。而这个波形在X轴或者在时间轴上,空间图像在X方向Y方向是有限的,所以我们叫它小波。因为它不是无限的,它是有限的。这个变换,满足这个数率条件可以找出好多种好多类。
第一,小波变换本身是有限的,它不像正弦信号从时间轴上到无穷都有。我们都学过这种信号叫稳态信号,如果一个信号在横轴是从零变到有,叫过渡信号,而小波信号就是这样一种过渡信号,暂态信号。所以可以用若干这样的信号小波综合到一块,可以用它来分析不平稳的图像信号,而正弦余弦信号就不行。这一个图像信号在哪一个地方变化特别快,用小波变换针对这个地方来进行变换,它本身是有限的,有局限性的,就快来变换,而且变换过来以后,可以看得很清楚。第二个小波变换,比离散余弦变换有更强的把频率往低端集中的优点,把空间的图像信号,往低端集中,更利于我们压缩高频,丢掉高频,必然的压缩比更大,压缩效果更好。第三点小波变换有一个非常有利于图像的地方。广播也一样,比如这是一个圆,图像是空间图像,我们用小波变换,后面就是频域,频域就会出现什么呢?把这个图像一变换,显著地出现了四块,这是个正方形,变成四个小正方形,这四块里面其中左上角部分叫LL1,这块是占整个图像最集中的能量和频谱的部分,都集中在这一小块,而沿这个方向,是水平的,高频细节少一点,沿这个方向是垂直的高频细节,沿这个方向是斜的高频细节。他们三块加起来,也只占原图像的能量的百分之几、百分之十几。但有一个特点,变换之后只有四分之一频谱的地方集中了原图像频谱的大部分。当然离散余弦也可以做到。问题不在于这,进一步往下看。如果我们把能量集中的这一块再拿出来,进行第二次变换,原来的这三块放着不管,把LL1拿出来同样进行第二次小波变换,出现跟第一次一样的现象,集中绝大部分能量的这一块,又集中在十六分之一这一小块里,而相对于这三块,是从这LL1里面的各个方向的高频细节。如果我们再把十六分之一这一块再进行第三次变换呢,那就变成这一小块。这就说明小波变换有一个非常优秀的性质,它是渐进的,把图像质量逐渐地集中。
这话还要反过来看,如果我们经过三次变换,这一小块只占原图频谱数的六十四分之一,传过去那你可能看到的是最初图像的轮廓,但是你可以看出来,如果信道比较窄,我就传这六十四分之一就够了,可以看到轮廓,这非常有用啊。比如说有时候,要传一个彩信,如果没有这个性质,必须要等所有的图像都传过来之后,要等几分钟,甚至几个小时。DCT变换就是这样。小波变换不需要,你可以先传第三次甚至是第四次变换,这六十四分之一小块已经可以看出轮廓。比如,本来我是想找一部汽车,可是我一看这个轮廓不象汽车,这是房子呀,但是它只传输时间的六十四分之一,你一看像个汽车,可是,是不是我要的那个型号呢?如果信道容许,把高频的这三小块加进去,成了原来的十六分之一,那细节就更多一点了,一看很像。比如我希望搜索的汽车是桑塔纳,有点象桑塔纳,但是还不太准确,到底是桑塔纳还是帕萨特?好了,我们再把这个传过去,它就传得更细。这就给我们图像传输提供了一个手段,当信道很窄的时候,我可以把原始图像的骨干轮廓送过去,让你能够认识,能够看,如果信道带宽容许的时候,或者时间容许的时候,再陆续接收后面的细节,第三次、第二次、第一次的细节,把它叠加上去。所以小波变换图像压缩是一个顺序改变质量的过程,也是逐步要求认可的过程。这个优点对我们非常有用。
小波变换研究好多年了,实用却是在最近。比如说,这个图像2000年以前都是离散余弦变换,从2000年开始,JPEG2正式把小波变换取代了离散余弦变换。构成了JPEG变换的新标准,叫JPEG2000。就是因为它有那些优点;可以分析图像的非平稳过程,可以循序渐进地提高图像的质量,这是第二个优点;第三个优点,小波变换没有DCT变换那么多马赛克效应。因为DCT更换是按照图像分成8×8的块,一块一块来变换的,块和块的边缘尽管采取了措施,但是由于传输误码就出现了马赛克效应。小波变换是从整个图像考虑的,没有马赛克效应,这是个很大的优点。因此得到了非常大的重视。当然,这个过程,刚使用到静止图像,现在要发展到活动图像。小波变换还在进一步研究和开发。 
另外讲一下用得很多的MPEG4。这个编码要比MPEG2、MPEG质量高得多,都是4兆,它的图像质量却比MPEG2图像清晰得多,因为是采用了精度更高的一些算法。但是, MPEG2里面跟原来H.261图像不同的地方,概念上有一个很大的区别。就是基于视频图像来进行编码。这个话这么理解,比如说,MPEG2以前的编码,出了一帧静止图像或者活动图像的某一帧,不管你这帧图像包含的内容是背景也好,是前景也好,你说运动也好不运动也好,我都是一视同仁地对处理,不分这个图像里边的内容,而MPEG4在这一点作了很大的改进。对于同一个图像,首先把图像的背景或前景的静止和活动的中重要和不重要分隔开来,然后进行编码,这样重要的活动内容,重要的图像内容,编码效率高,编得更好一些,给它的码率更多一些。而不太重要的内容,比如大家看足球赛,你是盯着足球场上的运动员,很少盯着看台上成千上万的观众,对看台上的人感兴趣,再说你也看不清楚。可是以前的编码是前面跑的足球运动员、带球运动员、背景看台上的观众,都一视同仁,采用同样的办法来编码。MPEG4首先把运动场上前景打球的运动员分出来,然后把足球和带球的运动员再提出来,把看台的背景留在第三层,背景的编码完全可以压缩,看球的不是太注意。我集中精力给那些运动员,给那个带球运动员,给那个足球,在码率同样的情况下,图像质量必然要比以前编码的质量高。因为他不是同样对待,只对你感兴趣的那部分给你高质量,你不感兴趣的那些部分低质量。
这样要把视频对象先要分割,按照对象不同的重视程度来编码,然后混合送过去。这种编码也给我们今后提供了很多用武之地。比如说你有一个电影编码机,编码完了以后,比如说男主角、女主角还有其他的一般配角。多媒体是交互,你说我想参与这个演出,男主角和女主角合演,把男主角这个视频对象换掉,换成你自己插进去,那整个过程可能就是你跟所有那些演员在演。今后有可能就要做到这些。这就是MPEG4的优点。当然现在国际国内MPEG4编码版本已经用得很多了,但还处在初级阶段,真正实现了按视频对象分割以后来进行编码的版本还没有看到。现在MPEC4还在发展,它的潜力极限还远远没有发挥,但是已经看出来,它的算法要比原来MPEG2好得多。
第一个大问题最后讲一下,多媒体应用实例。
第一种就是会议电视,就这个大家知道,会议电视需要把图像数据、语声集中到一块而且是可以控制,主席可以控制远方,参与会场的也可以控制主席,是多点之间人与人的通信。这一点我要说一下,刚才杨教授讲了现在软件工程发展得很快,视频会议近来国际和国内已经出现了软件视频会议系统。以前我们视频会议系统质量很好,但是对老百姓推广起来比较难,为什么?一个视频会议终端很贵,它是用硬件来做,比如多点控制单元MPU,来控制语声数据图像的切换,终端一般也是专用的,当然你也可以插一块硬卡,这种终端起码都一两万、几万的价格。这种情况要普及到老百姓家就比较困难。最近,国外包括国内北京,已经开发出了全套的软件会议电视系统。那我们电信部门这种业务可以考虑,它是基于一个普通的服务器接口,叠加上去就是MPV,叫多点控制板。用户端就是通过PC机,给你一个软件加上去就可以开通。这软件很便宜,甚至于电信部门可以送给他。现在很多家庭是一个孩子,到了中学大学以后,都有计算机。这种情况,我们推广这种软件视频会议系统,那就可能有很多老百姓能用。因为现在宽带接入,容易普及。
第二个业务就是谈话业务,可视电话点对点人和人之间。
第三个04 分配业务,比如说多媒体组和NBUD。
第四个叫采集业务,比如说交通管制,各个交通路口都要采集样点,管理中心要集中这些样点来看,然后返回去控制交通路口的红绿灯,哪些地方该亮,哪些地方放行。
第五是检索系统,比如网上商店、VOD系统。
第六个叫消息系统,比如说存储转发的多媒体电视,这是国际电联所定义的。
第二部分
讲数字电影。大家可能很奇怪,数字电影跟我们图像有什么关系呢?有关系,我只讲新发展,不是讲老的。在1999年,美国的好莱坞跟纽约之间做了一个试验,他把电影数字化以后,通过卫星用50兆带宽直接发送到纽约,那边通过存储器接收下来以后,直接播放,效果很好,引起了全美的轰动,世界也引起注意。
我不是要讲数字电影怎么制作,什么星球大战、侏罗纪呀。今天讲跟我们传输通信有关的,换句话说,就是这个电影的播放,不需要电影胶片,完全是把数字电影通过通信信道传到对方,对方接受下来存储以后,像存储转发一样,我想什么时候播放就什么时候播放,质量非常好。从99年开始,我们国家上海、北京都在做这个试验。而且广电部门说这种电影传输要在近几年优先发展,达到100部电影。这里就有很多好处了,第一它不用电影胶片,节省了胶片的发行和运输费用,而严格说胶片容易起火,一个电影要好几盘,存起来要占很大的空间,安全也是问题。第二用光纤传输方式在实际上非常快,理论上讲,只要你有接收和播放系统,在世界上任何一个角落接收播放。第三个优点非常重要,胶片电影是每秒钟跳24下,它是靠胶片靠机械,你听那个嗒嗒嗒就是磨损。因此,首播电影非常好非常新,播了一百场以后,可能你就看到一道一道白的东西都出来了。数字电影就没有这个问题,那是存在存储器里头,或者存在光盘里头,你把他读出来就完了嘛。所以首播的电影和若干场后的电影质量是完全一样的。
如果数字电影将来要发展,可能会成为一种多媒体形式,因为它可以交互,它是全数字来处理的,它依据的频带是服务器、计算机、存储器等全数字化的一套东西。现在美国已经在试验一种同一部数字电影有好多个情节,这个情节的发展可能是悲剧情节,可能是喜剧情节,或者是幽默情节,你可以选择。你的性格比较喜欢看喜剧,那行,那可以选择喜剧情节,另一个人多愁善感,就喜欢什么林黛玉的哪些悲剧情节,那你就通过你的指令控制选择悲剧情节。这个已经在试验当中了。这一点胶片做不到。数字电影的原理就很简单,发端就是一个播放机,数据量很大,采用我们刚才所说的技术来压缩、加密、发送,通过卫星或地面传输系统。当然它还有网管中心。终端是电影院或者你家里,有这套系统授权,你把它接收下来,然后存起来,你先解压缩再播出。这一点对数字电影很重要,把解密设备和播放设备是嵌入到一块的。中间不能取出他的东西来,否则你就可以盗版。

这是系统的大框图。一个数字电影要保持质量大概要30-50兆带宽,我们国家已经在搞,几年以后,要发展100部电影,甚至更多,那会不会用到我们电信部门的网络,很难说就不用,广电部门有没有能力来传输几千上万个电影呢?能不能承担,后面我还要讲广电部门。
第三部分
下面讲高清晰度电视HDTV。把H去掉叫DTV叫数字电视,前面加H,HD这个D就不是数字意思,是清晰度的意思。HD是高清晰度的意思。还有SDTV,是标准清晰度电视,是把现在的电视数字化。我今天讲的是高清晰度电视,就是有效显示行扫描在1000行以上。我们现在家里看的电视,总共是625行。从底行到头行有逆程要占到50行,有效显示是570多行。高清晰度必须是1000行以上,每行取一个样点,那就得1000多个点。而水平宽度比垂直更宽,所以水平点数更高,可能接近2000 ,1700-1900。1920水平点乘以1080点,这几乎已经成了世界公认的高清晰度电视标准。场频呢?我们国家是50 ,美国可能是60 ,隔行扫描,编码标准MPEG4,音响标准美国用的是AC3,它有六个声道,前面左中右三个喇叭,后面两个环绕喇叭,所以叫五加一,这就基本可以达到35厘米电影的图像质量和音响效果。我们现在说家庭影院,但买的那些东西,都谈不到是很好的家庭影院。如果高清晰度电视出来,它的音响效果又非常逼真,将来在家里接收,那才叫真正的家庭影院,使你的临场感、欣赏感非常好。另外高清晰度电视的电视机,它是1920×1080,显示的点数跟我们现在计算机显示器的显示度是一样的。因此就必然会出现将来高清晰度电视终端可能会成为多用途终端。高清晰度的标准正在发展,美国叫ATSC标准,欧洲的、美国的、日本的、中国的正在制定,2003年年底出台。所有这些标准,它的格式基本都是刚才说的,水平1920,垂直有效显示行是1080 ,不包括逆程消隐的行数。现在标准电视是500多行,加上700多个点,这是现在的标准700多的两倍才1400 ,水平是1900多点,是你现在电视水平清晰度的2.5倍,1080也接近现在电视的两倍。两个加在一块高清晰电视是现在电视清晰度点数的5倍。
反过来,它的数据率,它占用的带宽也是现在的五倍,所以将来高清晰度电视的传输的压缩也很重要。有两条路,一条是把光缆复用,把道路建的宽宽的,你要多少给你多少;另外一条就是不必要的东西人感觉不到的东西,尽量把它去掉,所以还要压缩。美国标准、欧洲标准、日本标准,它们区别在什么地方呢?区别就在传输上,美国传输用的是残余边带,欧洲标准用的是正交调幅,或者是正交频分复用。日本的标准是向欧洲靠。跟着美国走的,现在只有一家就是韩国。我们国家前两三年拿出了五个标准,在几个大学加上广电研究所,准备在2003年年底拿出我们国家自己的标准。因为这个很重要,彩电是进入千家万户的,现在我们国家普通彩电拥有量是3.5亿台,如果将来变成数字电视,甚至高清晰度电视也是3.5亿台。你不换的话,可能制式不一样,你不能看,或者你虽能看,但不能欣赏到最高的图像质量和好的音响效果。就算3000块一台,3.5亿台,是一万多亿的消费,这一点是非常重要的。很多厂家急得要命,我们国家好几年了,自己的标准迟迟出不来。这和3G还不一样,对3G我们已经拿出了自己的标准,我们自己的高清晰度标准没出来。美国、欧洲、日本、韩国已经在局部地区播出了高清晰度电视。美国准备在2010年全部实现数字电视和高清晰度电视,废除模拟电视。我们国家2003年标准出台以后,准备2005年在局部地区播出高清晰度电视。至少有一条后线不能退了,2008年是我们国家举办奥运会。以前几届奥运会,包括澳大利亚播的都是高清晰度电视,如果你中华人民共和国操办的2008年奥运会,拿不出自己的高清晰度电视来播,那你太掉份了。所以2008年必然是高清晰度电视的一条底线。国家必然要播出,你也得播出,所以这个时间表示快的,现在是2003年了,广电部打算2005年试播,2015年全部停止模拟电视的播出,全部实现数字电视,其中主要是高清晰度电视。
第四部分
最后一个问题,有线电视全国有一亿多户,他的同轴线是宽带接入,它的主要缺点是单向而不是双向。由于这个原因,广电部门几年前就曾经提出要改造全国的有线网。有些城市有好几个有线电视台,互不统一,使用的节目,使用的带宽也不一样,所以他要统一全程全网,这么一个思路。由于各个电视网有的是地方投资,有的是公司投资,并不是广电部门国家统一投资的,你现在想把它统一起来,你统一,我的利益到哪去呢?所以广电部首先向国家提出来要1000个亿收购,把所有原有的有线网先收购过来,然后再拿相当的钱来改造。但我从网上看到消息说,国家没有这么多钱,只能给十个亿,相差太远。所以下一步,整顿全国有线电视网。想法很好,但是很难实现,所以广电部去年底提出新的思路,以业务发展带动网络的整合。本来是从网络的整合出发,现在是业务带动。什么业务呢?刚才我说的数字电视,有线电视上播数字电视,而数字电视做的好,它可以交互,可以收费。现在有线电视毫无例外的是模拟电视,就那么几十套节目。其次就是增值业务。我看到广电部门的通知上是这么说的,以业务带动网络整合的思路。四个直辖市一定要启动,还有十几个省会和自治区城市要启动,其中包括我们所在的乌鲁木齐,要走有数字电视加增值业务来带动网络改造的思路。因为数字电视加增值业务要交互,要看你原来有线电视同轴线的带宽情况。现在用的最多的是50兆到500兆,有六十个模拟信道。一个信道6兆,6×8四百八,再加上一些保护带宽约8兆一个,实际上它的带宽可以到750兆。在上面是空的,要求把这一块用起来,首先数字化,传数字电视。比如说VUD数字电视,MUD还有一些游戏节目,是它的增值业务,你要点播,你要操控,你要快进快退怎么办?那你要双向信道,他42兆以下没有用,用的很少,你就把这一块用上。可是用起来也有很多难度。大家知道,有线电视的广播网络,原来只从广播考虑,中心到分中心是树枝型的交叉,每一个分中心到每一个大楼,大楼的点再到每一户,是每一叉每一叉往下分,像棵树一样,从少到多播出去。广播是非常好,中心的节点不需要交换,那个分路就行了。现在反过来又要变成双向。所以用户都要有控制信号反向过来,这就碰到一个问题,很多点的用户,一个个地点击。这一下了不得,因为每个点的用户要进噪音,若干用户的噪音,就拼命往一块叠加。到一个分中心的节点它像漏斗一样叫漏斗效应。这就制约这块用户反向信道使用。所以也在想办法,正在做很多工作。
必须增加反向信道,这也要求彻底改造网络,变成双向信道,加反向光缆或者加反向同轴电缆,那频带跟上行一样。这样投资就多,一亿多用户的带域网,那投资就相当巨大。不管怎么说,广电部门总要进行。
由于时间的限制,介绍这么一些东西,非常感谢大家。