H.264,也称为高级视频编码(Advanced Video coding,简称AVC)或MPEG-4第10部分(MPEG-4 Part 10)。是一种视频压缩的编码标准,由ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(MPEG-2)的联合视频组(JVT,Joint Video Team)共同维护2003年7月由ITU正式批准发布。
H.264是一种视频编码标准,旨在实现高效的视频压缩和传输。它的基本框架建立在块匹配的混合编码框架之上,通过运动估计/运动补偿的帧间预测、DCT变换消除时间和空间冗余,并通过编码消除统计冗余。其基本功能模块包括预测、变换、量化和熵编码。H.264标准还根据不同的应用需求分为多个档次:基本档次、主要档次和扩展档次和高端档次。基本档次是简化版本的标准,应用广泛;主要档次采用了更多提高图像质量和压缩比的算法和技术,如算术编码等,并应用了专利技术;扩展档次则是更高压缩比、更好性能和更复杂算法的高级压缩编码方法。
H.264被广泛应用于各种领域的音视频传输和存储场景。例如H.264就是蓝光电视机的标准之一。为了方便用户处理CD-R的各种工作,开发了一款名为Blu-ray Creator for 麦金塔的应用程序,通过它,用户可以将H.264视频转换为Mac上的蓝光和DVD光盘,也可以作为其他类型文件的输入;在手机电视领域,使用H.264可以改善视频的压缩效率,同时避免了MPEG-4所涉及的高昂专利费用问题。通过将基于H.264的编码结构嵌入到手机电视中,可以提高压缩效率、传输速率,并降低功耗的消耗;H.264还被广泛应用于视频监控领域。由于H.264提供了高效的编码方式,可以实现较低的带宽需求和存储空间,因此被广泛用于安防摄像头和视频监控系统中。通过H.264编码,监控视频可以高效地传输和存储,并且可以实时监控,以满足安全性要求。
发展历程
H.264是由ITU-T和ISO/IEC共同制定的一项新的数字视频编码标准。ITU-T中称为H.264,而在ISO/IEC中被称为MPEG-4的第10部分,即高级视频编码(AVC)。
H.264标准起源于1996年,当时ITU-T的视频编码专家组在制定H.263标准后进行了两个方面的研究。一方面是短期研究计划,旨在在H.263基础上增加选项,并产生了H.263+和H.263++。另一方面是长期研究计划,旨在制定一种新标准以支持低码率的视频通信。长期研究计划产生了H.26L标准草案,该草案在压缩效率方面优于先进的ITU-T视频压缩标准。
H.264的草案征集始于1998年1月。随后,于1999年10月,H.26L编码建议被提出,并在2001年5月制定了测试模式TML-8。为进一步推动视频编码标准的发展,于2001年11月,VCEG和MPEG组成了JVT联合视频组。该组的目标是研究新的视频编码算法,并使性能比以往标准提高很多。JVT组织于2002年6月通过了H.264的FCD版。而在2003年5月,在日内瓦举行的JVT会议上,JVT通过了H.264视频编码标准的最终版本。因此,该标准被正式命名为AVC(Advanced Video coding),作为MPEG-4标准的第10个选项,在ITU-T中则正式命名为H.264标准。最终,该国际标准于经ITU-T通过并正式颁布。
随着2004年的FRExt项目的推进,H.264标准进一步扩展了功能,引入了一些新特性,如更高的视频分辨率、更高的帧率和更好的编码性能。这使得H.264能够更好地支持高清视频和流媒体应用。
2007年,可扩展视频编码(SVC)作为H.264的另一个扩展,在视频编码和传输方面提供了更大的灵活性。SVC允许视频数据根据不同的网络带宽和设备能力进行逐层编码和传输。这意味着视频可以根据用户的需求和设备的能力进行灵活的解码和播放。此外,SVC还支持误差恢复和故障容许度功能,提高了视频传输的可靠性。
2009年,多视图视频编码(MVC)作为一种用于多视角或立体图像的编码和传输技术得到引入。该技术能够同时编码和传输多个视角的视频,从而使观众可以以不同的角度或视点观看同一场景。MVC利用基于视点的选择性解码来提供不同视角的视频。
H.264是在充分利用现有视频编码标准的基础上,引入了一系列新的编码技术,从而大幅提升了其编码性能。与传统视频编码标准相似,H.264采用了DPCM+变换编码的混合编码模式。除此之外,H.264还应用了许多新的技术,使其能够适应当前和未来网络的需求,并在网络和广播传输中实现高效传输和接收。在数字电视领域,H.264已成为高清晰度电视的主要编码方案,因此在数字电视和高清晰度电视的普及和发展中扮演着重要的角色。
版本迭代
技术
功能和算法的分层设计
H.264是一种用于视频编码的标准,它采用了功能和算法分层设计来适应网络传输特性。H.264的编码结构主要分为视频编码层(Video Coding Layer,VCL)和网络抽象层(Network Abstraction Layer,NAL)。这两层分别负责提供高质量的视频编码和在不同媒介上的数据表现形式。
视频编码层(VCL)是H.264的核心,它使用了基于块的运动补偿预测、变换编码和熵编码等技术来实现高效的视频压缩。VCL的处理对象是视频中的块和宏块数据,它结合了多种视频编码技术来提高编码率。VCL还包含了一些差错恢复的工具,以确保视频的传输和播放质量。
网络抽象层(NAL)负责将经过VCL层编码的视频流进行分割和打包封装。NAL具有强大的自适应处理能力,可以适应不同性能的网络环境。它的主要任务是将视频流的头部信息和数据映射到传输协议上,以提供适当的映射方法。
为了增强H.264在不同网络环境下定制VCL数据格式的能力,NAL定义了基于分组的接口、打包和相应的信令。这些能力使得H.264可以在数字电视、视频会议、视频点播和流媒体等各种视频应用中广泛使用。
帧内预测编码
为了提高视频编码的效率,H.264标准引入了帧内预测的技术。这种方法通过对图像中的宏块进行预测来减小编码所需的数据量。具体而言,H.264采用了全向运动预测和帧内预测的策略。对于每个宏块,系统会根据其周围的宏块来预测它的数值,然后将实际数值与预测值之间的差异进行编码。相比于直接进行变换编码的方法,帧内预测大大提高了编码的效率。其中H.264的帧内预测是在图像的空间域中进行的,而H.263+MPEC-4的帧内变换是在变换域中进行的。
帧间预测编码
帧间预测编码是一种精确的视频编码技术,被广泛应用于H.264标准中以提高编码率。该技术的改进主要表现在增加了运动估计中的预测精确度。例如,H.264使用了不同大小和形状的图像块进行运动估计,共有7种形状可供选择,从而可以得到更好的预测效果。此外,H.264还引入了1/4像素精度的运动矢量,以进一步提升编码效果。H.264还采用了不同大小和形状的宏块分割方式。亮度分量可以被分割成四种方式:一个16*16块、两个16*8块、两个8*16块和四个8*8块。每种分割方式对应一种前向预测模式。如果选择了8*8模式,则每个8*8块可以进一步细分成一个8*8块、两个8*4块、两个4*8块和四个4*4块。这种树状结构的块分割方式使得宏块内部具有多种块尺寸和组合方式。每个小块都有独立的运动矢量,因此能够更准确地描述宏块内部像素的运动情况,减少了运动补偿预测的误差。通过以上技术手段的应用,H.264在帧间预测编码中取得了较高的效率和精度。
整数变换
整数变换是一种基于离散余弦变换(DCT)的近似方法,用于对4×4大小的整数数组进行变换,支持所有Baseline profile的特性。该方法利用了类似于DCT的变换原理,但输出结果是经过近似处理的DCT变换的值。在计算过程中,只考虑移位和相加操作,因此运算量大大降低,从而提高了数据压缩效果。这种方法的变换系数仅为±1和±2,因此能够更好地实现数据的压缩,不支持基于宏块的自适应帧场编码。
量化
H.264是一种视频编码标准,其中定义了52个不同的量化步长,对应着52个量化参数。当量化参数增加6时,量化步长集团会增加一倍。这种增加量化步长范围的设计使得主轴编码器能够更加准确地在比特率和图像质量之间取得均衡。在H.264中,变换系数的读取方式有两种,一种是简单的“之”字形扫描,另一种是双扫描。通常情况下,会使用简单的“之”字形扫描。只有在使用较小量化级的块内时,才会使用双扫描,这有助于提高编码率。
冗余处理
视频压缩的主要目标是消除视频数据中存在的冗余。为了实现这一目标,常用的压缩技术可以分为三类:变换编码压缩用于去除空间冗余,运动估计和运动补偿用于压缩时间冗余,熵编码用于去除统计冗余。
变换编码
变换编码是一种用于数据压缩的方法,其基本原理是利用像素之间的相关性,通过变换编码技术来减少冗余数据。常用的变换编码方法包括K-L变换、离散余弦变换(DCT)和小波变换。K-L变换是一种理论上最佳的变换方法,因为它能够最小化均方误差。然而,由于其较高的复杂性,实际应用时较为困难。离散余弦变换通过将像素矩阵转换为频域系数,从而去除了空间上的冗余信息。小波变换能够全局地消除冗余,但在压缩视频时,通常需要对预测图像进行预处理,以去除块之间的相关性。因此,最常用的变换方法是离散余弦变换。
运动估计/运动补偿
运动估计和运动补偿是用于消除视频数据中的时间冗余的技术。运动估计的目标是确定图像中物体的运动相对于参考帧的位移,并将这个位移应用于参考帧,以预测当前帧的内容。相比于仅考虑整像素的运动,使用1/2像素级别的运动估计能够更准确地描述物体的运动,从而提高视频压缩的效果。此外,重叠块运动补偿和全局运动补偿技术也有效地提高编码率。全局运动补偿能够有效地描述整个帧的运动情况。
熵编码
根据H.264视频编码标准,它采用了两种不同的熵编码方法:上下文自适应的可变长编码(CAVLC)和上下文自适应的二进制算术编码(CABAC)。CAVLC算法根据已传输的变换系数的统计规律,动态地切换多个预定义码表,以提高变长编码的压缩效率。CABAC则通过充分利用算术编码的高压缩效率以及上下文信息,充分利用不同视频流的统计特性和符号之间的相关性,适应不同符号的出现概率。相较于CAVLC,CABAC编码电视信号可以减少10%-15%的比特率,同时CAVLC编码更简单、更快速,更容易实现。
特点
编码效率高,数据压缩比大
根据实验测试,在相同图像质量的条件下,H.264的编码率比MPEG-2和H.263基本配置提高了49.2%。比H.263CHC配置提高了25.4%。这就是说,图像的码率降低了,数据的压缩比大大提高。
编解码的复杂程度高
试验结果表明,H.264在编码复杂度熵要比MPEG-4提高了1个量级,在解码复杂度熵要比MPEG-4高出了3倍多。于MOEG-2相比,解码器的软硬件的复杂度几乎要高出1倍。
占用资源较多
在资源占用方面,H.264比MPEG-4高得多。
采用混合编码结构
H.264仍采用基于块的运动补偿预测编码、变换编码以及熵编码相结合的混合编码框架。还增加了多模式运动估计、帧内预测、多帧预测、基于内容的变长编码、4x4整数变换等新的编码技术,提高了编码率。
抗误码特性
H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的信道中的视频传输。
分级编码传输
H.264支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。
网络亲和性强
H.264能适应不同网络中的视频传输,网络亲和性强。
具有开放性
H.264的基本系统具有开放的性质,能很好地适应IP和无线网络的使用,这对目前的因特网传输多媒体信息、移动网中传输宽带信息等都具有重要的意义。
适应性强
H.264对信道时延的适应性强,即可工作于低时延模式以满足实施业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。同时提高了网络适应性,加强对误码和丢包的处理,提高解码器的差错恢复能力。
H.264的档次
H.264规定了三种不同的档次,每个档次支持一组特定的编码功能,并支持一类特定的应用。
基本档次(Baseline Profile)
基线配置文件 (BP) 主要是为需要额外的数据损失鲁棒性的低成本应用程序,支持帧内和帧间编码,支持利用基于上下文自适应的可变长编码(CAVLC)。主要应用在可视电话、会议电视和交互式通信等低成本视频通讯领域。
主要档次(Main Profile)
采用了多项提高图像质量和增加压缩比的措施。主要面向数字标清、高清电视和DVD等较高画质应用。
扩展档次(Extension Profile)
支持流码间的有效切换,改进误码性能,不支持隔行视频和CABAC,主要面向各种网络的流媒体传输。
应用领域
HDTV广播
在HDTV广播领域,美国DIRECTV的卫星直播数字电视业务也采用了H.264编码标准。在音频压缩编码方面,全球存在三种不同的数字电视标准体系,它们采用了不同的音频压缩方式。美国开展地面数字电视广播时,主要关注高清晰度视频业务的提升,并且需要与之相匹配的高质量声音,因此美国ATSC(Advanced Television System Committee,高级电视制式委员会)采用了5.1声道的环绕声压缩Dolby AC-3作为音频压缩标准。日本地面广播主要采用HDTV播出业务,并采用了MPEG-2 AAC(Advanced Audio Coding,高级音频编码)标准来满足高质量电视广播的需求,该标准支持多声道环绕声。
光盘
光盘是一种利用激光技术存储信息的介质,具有可靠、大容量和价格低廉的特点。CD和DVD是两种常见的光盘格式,CD刻录盘和DVD刻录盘在盘面上清晰标注了刻录盘类型、容量和最大刻录速度等信息。而蓝光电视机(Blu-ray Disc)和HDDVD是下一DVD光盘标准,用于存储高画质的高清数字影视和大容量资料。蓝光光盘采用H.264格式编码,单层容量为25G,最高可达8层200G;HDDVD采用VC-1格式编码,单层容量为15G,最高可达3层45G。其中,H.264也被称为蓝光光盘的标准之一。为了方便用户处理CD-R的各种工作,开发了一款名为Blu-ray Creator for 麦金塔的应用程序,通过它,用户可以将H.264视频转换为Mac上的蓝光和DVD光盘,也可以作为其他类型文件的输入。该应用程序还提供了预构建的菜单模板,可快速制作高质量的光盘。
手机电视
在手机电视领域,使用H.264可以改善视频的压缩效率,同时避免了MPEG-4所涉及的高昂专利费用问题。通过将基于H.264的编码结构嵌入到手机电视中,可以提高压缩效率、传输速率,并降低功耗的消耗。H.264是由ITU提出的一种标准视频压缩编码格式。相比于以往标准,H.264具有更高的压缩性能,能有效提高存储空间利用率,并且能够更好地适应不同的网络环境。面向数据包的编码使得H.264更适用于流媒体应用,具有较强的抗干扰能力,能够提高视频传输的可靠性。同时,H.264还能够灵活适应不同的传输环境,进一步提高信道利用率。在H.264中,宏块和子宏块的运动补偿得到了改进,采用了帧间和帧内两种不同的预测模式,以获得更准确的预测结果。H.264还提供了多种宏块划分方式,如16x16、16x8、8x16和8x8,同时还可以将8x8宏块进一步划分成8x4、4x8和4x4的子宏块,每个分块都具有对应的运动向量。基于这种树状结构运动补偿的设计,可以提高压缩效率并降低功耗。
视频监控领域
H.264在远程数字监控领域方面,提供了比MPEG-4和H.263两倍更高的压缩比,同时保持较高的图像质量。H.264还克服了之前压缩标准对网络适用性不佳的问题,具备优秀的QoS(服务质量)。利用H.264的这些特点,可以解决传统远程数字监控系统中压缩比低、数据量大、对网络带宽要求高的不足。基于H.264视频压缩算法的数字监控系统可以提高近30%的压缩比,同时抑制图像失真和背景流动现象,从而使图像质量更加清晰。在压缩处理过程中,H.264采用了帧内预测、帧间预测技术和4x4块的整数变换,提高了压缩效率。在非报警状态下,利用分级运动估算技术传输较低分辨率的图像层,以满足对图像质量要求不高的需求。而在报警状态下,传输高分辨率的图像层,以满足对图像质量要求高的特点,并进一步降低码流和节省存储容量。H.264还利用高精度、多模式技术有效提高了运动目标的检测能力,降低了系统的误报率。在网络传输方面,H.264支持PSTN/DDN/LAN/WAN等远程传输与控制,并且每个服务器支持32路TCP/UDP传输,提高了网络适用性。
专利
专利池许可
MPEG LA专利池主要负责管理H.264标准的相关标准必要专利,这是消费电子领域最具影响力的专利池之一。通过简化复杂的专利许可流程,MPEG LA专利池旨在提高行业效率,加速技术应用,创造持续价值,并降低风险。
MPEG LA的H.264许可计划确立了现代专利池行业的基础,并推动了消费电子史上应用最广泛的标准之一 。得益于Via Licensing Corporation(Via)在专利池管理方面的专业知识和经验,H.264专利池的参与者可以享受到更高效、透明和公平的知识产权解决方案。新的Via LA合作许可组织将进一步整合涵盖广泛技术的专利池,使H.264专利池的参与者能够更便捷地获取所需知识产权。通用电气(NYSE:GE)、Koninklijke 飞利浦 N.V.(NYSE:PHG)和三菱电机公司(TSE:6503)等知名企业的参与将为Via LA带来深厚的行业经验和连续性,助力其发展壮大。Via LA的成立标志着知识产权许可领域的一个重要里程碑,为全球创新者和技术实施者提供了更简便、高效的标准必要专利许可解决方案。
专利所有
专利收费
专利授予
参考资料
如何在Mac和PC上将H.264视频刻录到蓝光/ DVD.Digiber.2024-01-04
Summary.ITU.2023-12-30
ITU-T建议书.ITU.2023-12-30
H.264.ITU.2023-12-30
VIA LICENSING 和 MPEG LA 联合成立 VIA LICENSING ALLIANCE,这是消费电子行业最大的专利池管理机构.Via LA.2024-01-21
AVC/H.264型 许可方.vial la.2024-01-21
AVC/H.264型 许可费.via-la.2024-01-21
AVC/H.264型 持 牌 人.vial la.2024-01-21