数字演播室高清晰度电视及其测试(下)-襄樊电视台戴延龄--广电加油站

来源:百度文库 编辑:神马文学网 时间:2024/03/29 04:53:15

数字演播室高清晰度电视及其测试(下)-襄樊电视台戴延龄

关键词: 数字高清晰度电视 嵌入音频                                          

数字高清的附属数据区和嵌入音频

  在行、场消隐区,除了定时基准码、行序号字和CRC校验字占用少量空间外,其余大量空间都未被占用,可以用来传送附属数据,该区域称之为附属数据区。利用附属数据区传送数字音频数据,这种方式称为嵌入音频,它是附属数据的最重要的应用。

附属数据区

  附属数据区的容量
  一个亮度行(或色差CB/CR行)的消隐区共有720个取样字,已使用了12个字(定时基准码SAV和EAV各4个字、行序号字LN和CRC校验字各两个字),因而每行还有708个字可用来传送附属数据。但是,视频切换是在场消隐期间进行的,在切换时可能会出现杂波干扰。对于1125/50/2∶1扫描系统,受切换干扰影响的区域为第一场中第7行的正程、第8行的逆程,以及第二场中第569行的正程和第570行的逆程。这些区域均不应插入附属数据。这样,就一帧而言,行消隐区的可用行数为1125-2= 1123行;场消隐区的可用行数为45-2 =43行。
  由此得出行消隐区附属数据区的数据率为:
  708字/行×1123行/帧×25帧/秒×10b/字=198.7Mb/s
  场消隐区附属数据区的数据率为:
  1920字/行×43行/帧×25帧/秒×10b/字=20.6Mb/s
  二者合计为219.3Mb/s。
  亮度行和色差行应一起计入,可用于传送附属信号的数据率则为2×219.3 =438.6Mb/s,占总数据率的百分比为:438.6/1485=29.5%。由此可见,可利用的数据率相当可观。利用这一空间,把附属数据复用到视频数据流中,将使系统设施简化,这对于系统运行和减少投资十分有利。
  
附属数据包的格式
  附属数据必须先格式化为附属数据包,然后经复用进入视频数据码流。附属数据包可划分为三部分:包头、用户数据区及校验和,如图13所示。


  第一部分是附属数据包的包头,共有6个字:
  1.ADF,为附属数据包的识别标志,表示一个附属数据包的开始。它由3个字的序列组成,依次为000h、3FFh、3FFh,即一个全“0”和两个全“1”的数据字,分别对应于最低和最高电平值。
  2.DID,为用户数据标识字,用来表示附属数据包中用户数据的类型或性质。对于嵌入的音频数据,它使用了特定的DID字作为标识。此外,当DID字中的bit7为零时,表示后续的DBN字是它的数据标识补充字,而非数据块序号字。
  3.DBN,为数据块序号字,对具有相同DID字标识的连续附属数据包从1开始按顺序计数,每次增加1,直到255;一旦超过255个,则再次从1至255循环计数。但当DBN字的bit7~bit0均为零时,表示DBN字不用于计数,即不能指示数据包的连续性。
  4.DC,为数据计数字,用来指示本附属数据包中用户数据字的个数。
  第二部分是用户数据字(UDW),它是附属数据包中的主体或载荷,用来放置附属数据,例如音频数据。它不能使用000h、001h、002h、003h及3FCh、3FDh、3FEh、3FFh这8个数值,因为这些数据字是用作保留电平以与8-bit编码格式兼容,其中000h和3FFh已被附属数据包标识字使用。一个附属数据包内最多可以放置255个用户数据字,也可以没有用户数据字。因此,附属数据包的长度是可变的,最短为7个字(可作为填充用的附属数据包),最长为262个字(包括CS字)。
 第三部分是一个字的校验和(CS)字,用于误码检错,检错范围为本附属数据包中自DID字起直至本附属数据包中的全部用户数据字。
  
附属数据包的插入
  附属数据包可以插入到附属数据区中的任意位置。对于行附属数据区,它应紧随行序号字和CRC校验字之后;对于场附属数据区,它应紧随定时基准码SAV字之后。如果CRC字或SAV字之后没有ADF的3个字(000h、3FFh、3FFh),则认为该区域不存在附属数据包。在已插入附属数据包的区域,各包之间应当相邻,不留空隙。插入时,必须保证附属数据包的完整性,不得把它拆开放置。
  在高清数字电视中,亮度行与色差行中的附属数据区是彼此独立的。嵌入音频使用的是色差通道行消隐期中的附属数据区。色差行的行消隐区如果已经嵌入了音频数据,即使还有空闲,也不能再放置其它数据。

嵌入音频

  在广播电视系统中,数字音频的取样频率通常采用48kHz。在25帧/秒的扫描系统中,一个视频帧的音频样值数为48000/25=1920,即一个视频帧内有整数个音频样值,这时音频的取样频率能和视频时钟保持同步,可称为同步音频。在数字音频中,通常将由同一AES/EBU音频源中得到的两个音频通道称为一个通道对,由两个通道对组成一个音频组,因而一个音频组可以有4个音频通道。
  嵌入音频实质上是采用时分复用的方式,将数字音频数据作为附属数据并与数字视频数据合为一路数据信号。为此,须要使用两种用来传送AES/EBU音频信息的附属数据包,即音频数据包和音频控制包(与标清不同,数字高清中不使用音频扩展数据包)。这两种音频包均应符合图13所示的附属数据包的格式,它们之间的差别仅在于用户数据部分和相关的标识符。
  从表4可以看出,利用DID字,既可以识别音频数据包或控制数据包,也可以区分同一类型音频包中的不同音频组。


  音频数据包中携带有数字音频的样值数据,按照标准规定,它放置在CB/CR色差信号并行数据流的行附属数据区。音频控制包中所含数据用于音频数据流的解码处理,每场仅传送一次。它放置在亮度信号并行数据流切换点之后第二行的行附属数据区。对于1250/50/2∶1系统,切换点在第7行或第569行中,因而第9行和第571行就用来放置音频控制包。
  
音频数据包
  图14表示了一个通道对(AES/EBU1为第一通道对)中一个通道(通道2)音频数据的嵌入过程。


  图14(c)为一个音频数据包,可以看出,它完全符合图13附属数据包的格式,其中DC字规定为218h(因UDW部分始终为固定长度,计数已无实际意义)。DID的规定参见表4。用户数据字为24个字,其中CLK两个字,音频样值数据4×4个字,还有6个字为ECC纠错码。校验和字参见附属数据包的规定。整个音频数据包为31个字。
  1.最前面的两个用户数据字为CLK字,称之为音频时钟相位数据,作为接收端再生音频取样时钟的参考。在数字标清的嵌入音频中没有CLK字。CLK由UDW0和UDW1两个字组成,其中每个字的bit 8为该字前8位的偶校验,bit 9是bit 8的逻辑非;UDW1的bit 5、6、7预置为0,还剩余13个比特:从UDW0的bit 0(最低位)开始,前12个比特标记为CK0~CK11,用于指示音频时钟相位数值;第13个比特(UDW1的bit 4)即CK12用于指示复用输出流中音频数据包相对于有关视频数据的位置。当CK12=0时,表示音频数据包紧跟在有音频样值出现的视频行之后;CK12=1时,表示音频数据包位于有音频样值出现的视频行之后的第二行。
  为说明CLK的作用,首先要弄清什么是视频时钟和音频时钟相位数值。视频时钟就是亮度样值或色差CB/CR样值的取样周期T(13.468ns)。数字音频的取样频率为48kHz,一个音频时钟包含74.25MHz/48kHz=1546.875个视频时钟。由于一个亮度行或色差行有2640个视频时钟,对于每一个音频通道而言,一个CB/CR色差行最多只能包含两个音频样值。或者说,在一个色差行的附属数据区,最多只能插入两个音频样值。图15示出了格式化器的输入音频样值(b)与输入视频样值(a)及与复用器输出视频样值(c)的时钟对应关系。


  图中,设t0为输入视频EAV第一个字的出现时间,该行中音频样值A到达格式化器输入端时的对应视频样值时刻为tA,t1=tA-t0就是音频样值A与视频时钟参考点t0之间的视频样值个数或视频时钟个数,该数值即为音频时钟相位数据,并以T来计量。例如,当t1=485.625T时, CK0至CK11这12个比特所代表的数值就是486,即音频样值A的时钟相位数值为486个视频时钟。图中相邻EAV之间的时间为2640T,而相邻音频样值之间的时间为1546.875T。对于音频样值A、B、C、E、G,CK12=0,因为它们各自所在的音频数据包复用在后一行(以音频样值的输入定时为参考)的行附属数据区;对于样值D、F,CK12=1,因为它们所在的音频数据包复用在后两行的行附属数据区。N/A表示视频切换点后的后一行禁止插入附属数据包。

  2.UDW2~UDW17这16个字为音频数据。由图14可见,每个音频数据包内有一个音频组,即两个通道对;每个通道对(例如左右声道)的音频数据来自同一音频源。对于一个音频数据包而言,每个通道的样值数始终为1,对应于一个子帧。每个子帧的32个比特全部透明地成为音频数据包中相应通道的4个字。表5仅给出了一个通道对的比特分配,另一个通道对完全类似。表中“aud”为音频数据字,它的脚标号表示通道号;“反b8”意即bit 8的逻辑非;每个字中的偶校验是该字中前8位的偶校验;P、C、U和V分别为对应子帧中的校验比特、通道状态比特、用户比特和样值有效性比特,Z为AES/EBU块同步比特(192个音频帧为一个音频块)。


  3.ECC为纠错码。这是与数字标清中嵌入音频又一不同之处,数字标清中的嵌入音频只有检错而无纠错。高清数字串行流的数据率高达1.485Gb/s,远高于数字标清,出现误码的几率增大。同时,由于人耳对音频数据中的错误比人眼对视频数据中的错误更为敏感,因而在其音频数据包中加入了纠错码,纠错范围为该包中ECC字之前的所有24个字,采用BCH(31,25)码纠错。
  4.音频数据包的复用和传输。除第8行/570行之外,音频数据包应插入音频样值到达格式化器输入端时视频行之后第一行或第二行(有切换点时)的行附属数据区,参见图15。例如,设音频样值A到达格式化器输入端时为第N个视频行,在第N+1行无切换点时,它应当插入到第N+1行;如果N+1行有切换点,则插入到N+2行。对于任何一个音频通道,能够插入行附属数据区的音频样值数最多为两个,也可以为零。如果是两个,应该首先传输较早到达格式化器输入端的音频样值数据包。如果某一行的行附属数据区有两个音频数据包,两包之间应该相邻,不留空隙。
  
音频控制包


  其作用是为接收端提供必要的解码信息,如音频通道对的取样频率和同步/异步指示、通道的有效性指示及通道对音/视频时延等。
  音频控制包同样应符合附属数据包的格式,DID的规定参见表4。DC固定为10Bh,DBN固定为200h。包头中其它字及校验和字参见附属数据包的规定。
  1.用户数据字中的UDW0是AF,即音频帧号。为说明音频帧序号的作用,首先应当了解音频帧序列及其长度的含义。以29.97帧/秒的扫描系统为例,当音频取样频率为48kHz时,每视频帧的音频样值数是48000/29.97=1601.6,不为整数,这不利于视音频之间的同步。但却有这样的关系:5×1601.6= 8008,即在5个视频帧之后可得到整数个音频样值。于是把5作为音频帧序列的长度。音频帧的序号从1开始、到5结束,从而形成一个音频帧序列。标准规定,奇数号音频帧(1、3、5)有稍多的整数个音频样值(1602个),偶数号音频帧(2、4)也有整数个音频样值,但数量较少(1601个)。这样规定后,每个视频帧均有整数个音频样值,且5帧内的音频样值总数仍为8008个。音频帧序列按5帧一循环。AF字正是用来标识音频帧的序号,以指示音频帧的落入位置。
  对于25帧/秒的扫描系统,有48000/25=1920,即每视频帧的音频样值数为整数,因此音频帧序列的长度就是1,音频帧号也始终为1。
  AF字的比特分配是:bit 9是bit 8的逻辑非,由bit 0(最低位)开始,依次至bit 8共9个比特表示音频帧号。全零的AF值表示无帧编号。另外,在音频同步方式中,一个音频组中的4个通道具有相同的AF值。如果音频组中的通道对工作于异步方式,则不使用AF字,且将bit 0~bit 8均设置为零。
  2.用户数据字中的UDW1为音频取样频率字(RATE),它给出了输入音频通道对的取样频率。RATE字的比特分配见表6,其中bit 9是bit 8的逻辑非,bit 4~bit 8预置为0。


  表中,当asx为1时,表明给定音频组中通道对工作于异步方式;X0、X1和X2组合成取样频率码,总共有8种组合方式,目前只使用了4种,其它4种作为预留。
  3.用户数据字中UDW2为有效通道指示字(ACT),用于指示音频通道的有效性。bit 0~bit 3依次用来指示一个音频组中第1~4通道是否有效。有效则设置为1,否则设置为0。bit 8是该字中前8位的偶校验,bit 9是bit 8的逻辑非,bit 4~bit 7预置为0。
  4.用户字中UDW3~UDW8为通道对的延时指示字,表示以音频样值间隔测得的相对于视频的累积音频处理延时量。其中,UDW3~UDW5表示第一通道对,UDW6~UDW8为第二通道对。现以通道对1为例来说明延时字的比特分配。3个字中bit 9是bit 8的逻辑非,UDW3的bit 0称为e比特,当它为1时表示音频延时数据有效,为0时表示无效。从UDW3的bit 1开始、至UDW5中的bit 8共26个比特表示延时量数据,采用的是2的补码形式,正值表示视频超前于音频。


  5.用户字中最后两个字UDW9和UDW10作为预留字,供将来使用。