视频压缩编码是通过算法降低视频数据量并保持视觉质量的技术,其核心指标为压缩前后数据量比值。该技术基于时空冗余特性,采用有损/无损压缩、帧内/帧间预测等方法,通过变换编码、运动补偿和熵编码实现高效压缩。
标准采用DCT变换与DPCM差分编码,运动估计精度提升至1/4像素,支持多宏块划分和多参数预测,具备高压缩效率和抗误码能力,适配互联网及无线网络传输。
。H.264通过亚像素运动补偿、6阶FIR滤波等技术成为主流,H.265/HEVC优化4K/8K编码单元,H.266/VVC引入多树划分。开放标准
视频压缩编码是指通过压缩技术,将原始视频格式的文件转换成另一种视频格式文件的方式,其本质是去除视频中的冗余信息以减少数据量,从而便于存储和传输。
视频压缩至关重要。若不进行压缩,原始视频数据量极为庞大,例如一个未经压缩的4K分辨率视频每秒可占用约1260MB(约1.26GB)的存储空间,这对存储和传输构成巨大挑战。
由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处,但是运动的视频还有其自身的特性,因此在压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用到以下的一些基本概念:
(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越大,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
二、帧内和帧间压缩:帧内(Intraframe)压缩也称为空间压缩(Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporal compression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
三、对称和不对称编码:对称性(symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
有多种视频压缩编码方法,但其中最有代表性的是MPEG数字视频格式和AVI数字视频格式。
视频压缩编码是指通过压缩技术,将原始视频格式的文件转换成另一种视频格式文件的方式
。其目标是在尽可能保持视频质量的同时,最大限度地减小文件大小或降低比特率
。有损压缩通过去除视频中的冗余信息和不可察觉的细节,以牺牲一定的画质来换取更高的压缩率;无损压缩则通过保留视频的所有信息,但使用更高效的编码方式来减小文件大小
的内插获得1/2像素位置的值,1/4像素值可通过线性内插获得。编码单元划分也更加灵活,H.264支持从16x16到4x4的多种宏块划分模式
对量化后的系数和运动矢量等辅助信息进行无损压缩编码,生成最终的压缩码流
。客观质量评估通过量化指标进行,常见指标包括峰值信噪比、结构相似性指数和视频多方法评估融合
等人工智能技术优化传统编码各环节的选择与效率,并在编码过程中兼顾后续的机器视觉分析任务
2003年,H.264/AVC诞生,引入了更灵活的宏块划分方法、数量更多的参考帧、更先进的帧内预测和压缩比更高的数据压缩算法,亚像素精度的运动补偿细化到1/4像素
。H.264凭借其良好的压缩效率和前所未有的兼容性,成为了过去十多年来视频领域事实上的标准
2013年,H.265/HEVC诞生,针对高清及超清分辨率视频,使用编码树单元(CTU)替代宏块,在H.264的基础上,将压缩效率提高约一倍
。2015年,AV1由开放媒体视频联盟(AOMedia)推出,开放且免费,编码效率相比H.264平均提升40%,目标是创建性能超越HEVC和VP9、完全免版税的下一代编解码器
2020年,H.266/VVC推出,可以节省50%的数据流量,保证视频传输清晰度不变,相比
的神经网络视频编码(NNVC)、IEEE 1857.11和JPEG AI(端到端图像压缩标准,JPEG AI于2025年中正式发布)、AVS的端到端探索模型(EEM),以及面向机器视觉的编码标准VCM和DCM
。以H.264为基准,H.265/HEVC在4K与8K分辨率下可将比特率降低约44~53%,AV1在FHD分辨率下可节约43%的带宽,在4K/8K分辨率下可节约61~63%的带宽,H.266/VCC对比HEVC进一步把压缩效率提升50~59%
。计算复杂度排序基本为VVC AV1 HEVC ≈ VP9 AVC,VP9和HEVC的编码复杂度可能是H.264的2到15倍,而AV1与VVC的编码复杂度则是HEVC的10倍甚至更高
原生支持4:2:0,后续扩展支持4:2:2和4:4:4,而VP9、AV1和VVC都是原生支持4:2:0、4:2:2和4:4:4
。HEVC、VP9、AV1和VVC都明确设计用于支持现代HDR标准和宽色域空间,而H.264对HDR的支持则较为有限且非标准化
。H.265/HEVC的硬件解码支持非常广泛,覆盖了自2015年左右起的大部分设备,但存在Access Advance和Via LA等专利池带来的许可复杂问题
。H.264将在未来5到10年内仍占主导地位,尤其在新兴市场和低功耗设备中
。AV1凭借其免版税优势和接近HEVC的压缩效率,正快速渗透到流媒体生态
。预计到2027年,全球视频流媒体市场规模将高达1843亿美元,AV1和VVC有望成为主流编码标准
智能视频编码同时面向人眼视觉和机器视觉,运用神经网络等人工智能技术,一方面执行信号压缩任务,即“AI for Coding”;另一方面在编码过程中兼顾后续的智能分析过程,即“Coding for AI”
。智能视频编码打破了传统编码模式下压缩编码与智能分析相割裂的“1+1”分布式模式,整合了编码、重组、解码及智能应用等视频链环节
2021年中国智能视频编码整体市场规模为237亿元,预计2025年智能视频编码市场规模有望突破600亿元
。中国智能视频编码应用场景分析包括互联网视频场景、广电超高清视频场景、虚拟终端场景、城市安防场景、工业制造场景
伴随服务于机器视觉的视频编码技术日趋完善,编码标准的发力方向将向第二阶段面向人机混合视觉的视频编码技术倾斜,即同一码流同时满足人眼视觉对视频质量的要求,并兼顾机器视觉需求
。未来视频行业需满足泛化要求,前置应用场景,视频生产根据实际需求进行编码,适配所有类型的视觉任务,因此对结合AI算法并服务于各种应用场景的智能编码技术的研究成为趋势
Copyright © 2002-2024 U8国际电子监控有限公司 版权所有 Powered by EyouCms TEL: 025-83700868
地址:南京市鼓楼区三步两桥145号 邮箱:chuiniubi@126.com