开启辅助访问
 找回密码
 立即注册

如何看待最新的国际视频编解码标准H.266?

chensongkensan 回答数5 浏览数1769
H.266/VVC是由ISO/IEC MPEG和ITU-T VCEG联合制定,代表目前业界最先进成熟的视频压缩编码技术。全球范围内包括腾讯、高通、HHI、华为、三星、索尼、Intel、诺基亚、爱立信等企业均有参与其中。相对于上一代视频编解码标准H.265/HEVC,新一代国际视频编解码标准(H.266/VVC)能够在不影响画质的情况下,将视频码率降低到原来的一半,主要面向4K、8K服务,整个超超清视频应用的发展将有望迎来全面爆发。
wilsonlim | 未知
H.266多功能视频编码编解码器标准,新的H.266 /VCC编解码器在保持清晰度不变的情况下,数据压缩效率获得极大提高,数据量减少了50%。
新标准的公告中指出,由于改进了压缩技术,H.266将减少约50%的数据需求。使用之前的HEVC编解码器,传输一段90分钟的超高清(UHD)视频需要大约10GB的数据,而H.266只需5GB就可以做到这一点。
据了解,该编解码器为全新设计,主要用于4K和8K流媒体视频,它将允许用户存储更多的高清视频,并减少移动网络的数据量。
音视频流媒体技术:做音视频开发要掌握哪些理论上的知识?


H.265/EVC编解码器是高效率视频编解码,而H.266/VVC编解码器为多功能视频编解码。
弗劳恩霍夫研究所视频编码系统负责人本杰明·布鲁斯(Benjamin Bross)表示,由于H.266/VVC提供了编码效率的飞跃,视频的使用量将在全球范围内进一步增加。此外,H.266/VVC的通用性增强,使其在与视频传输和存储相关的更广泛的应用中更具吸引力。

不过根据此前普及的速度来看,H.266的应用恐怕还需要些时间,2013年H.265标准制定,2017年才被苹果所支持。时至今日,有着将近20年历史的H.264仍被广泛应用。
有业内专家分析称,新H.266预计在2027年才会被广泛接受和使用。
作为国际标准,H.266/VVC的制定得到了世界知名公司的支持与参与。
1、Microsoft(JVET的主席之一Gary J.Sullivan就职于微软,还有微软亚研的李斌博士)
2、Qualcomm(高通的提案最多)
3、Samsung(三星是H.264的赢家,提案很多)
4、MediaTek(联发科提出来的QTBT编码结构做的很好)
5、Intel(据说Intel的H.265硬编码器是世界上最好的硬编码器)
6、Hisilicon
7、Huawei(跟海思不是同一个部门)
8、KDDI
9、Broadcom(博通)
10、Sharp(夏普)
11、Technicolor
12、DJI(大疆关心航拍方面的议题)
13、Sony
14、LGE
15、Ericsson(爱立信)
当然,除了产业界还有一些高校与同样做出了巨大贡献。
国内参与的高校有北京大学(高文院士团队)、清华大学、上海交大、浙江大学、成都电子科技大学等。
国外的有RWTH Aachen University的大神Jens-Rainer Ohm。
而且,这个领域华人做得很出色,无论产业界还是学界都有很多都是华人作为代表来参与H.266/VVC标准制定。
对新标准的主要要求如下:
在相同的体验质量下,提供比现有HEVC标准好30%至50%的压缩算法,支持无损和主观无损压缩
支持4K至16K分辨率以及VR 360°视频
支持具有4:4:4、4:2:2和4:2:0量化的YCbCr色彩空间
每个分量的色深为8位至16位
BT.2100和16级以上的高动态范围(HDR)。
辅助通道,如深度通道、阿尔法通道等
从0到120赫兹的可变和分数帧率
具有时间上(帧率变化)和空间上(分辨率变化)可扩展性的编码
SNR、立体/多视角编码、全景格式和静态图像编码。
与HEVC相比,预计编码复杂度将增加10倍,解码复杂度将增加2倍。
VVC压缩标准也被称为H.266、ISO/IEC 23090-3、MPEG-I part3和未来视频编码(FVC),于2020年7月6日定稿。本文讨论了已成为VVC标准一部分的最有趣的视频编码技术。

编码结构
slices、tiles、subpictures
CTU(编码树单元)的大小已经从64х64增加到128х128像素。tiles、slices和subpictures现在在比特流中被逻辑地分开。每个视频帧被分割成一个有规律的网格块。几个块可以组合成逻辑区域,定义为tiles、slices和subpictures。这些方法在早期的编解码器中已经是众所周知的,但VVC采用了一种新的方式来组合它们。这些区域的关键特征是它们在比特流中被逻辑地分开,并提供多样化的选择:

编码器和解码器可以实现并发处理
解码器可以选择只对它需要的视频区域进行解码(一个可能的应用是传输全景视频,用户可能只看到完整视频的一部分)
比特流的编码方式可以在不重新编码的情况下即时提取视频流的一部分。
【先搞明白H264编码原理吧~】
H264编码原理-视频压缩原理|YUV格式 I、P、B帧|GOP图像序列 /FFmpeg/webRTC/rtmp/hls/rtsp/ffplay/srs_哔哩哔哩_bilibili块划分
在HEVC中只有单一的树状结构,允许将每个方形块递归地分割成4个方形子块。现在,VVC在一个多树结构中提供了几种可能的分割操作。第一个分割是进入一个四叉树,就像HEVC中一样。此外,每个块还可以被水平和垂直地分割成2(BT分割)或3(TT分割)个部分。


这一步又是递归进行的,所以每个矩形块可以进一步被分成水平或垂直的2或3部分。这种方法能使编码器更好地适应输入,但也大大增加了视频编码的复杂性。


此外,亮度编码块和色度编码块可以是不同的,形成一个双树结构。换句话说,在同一CTU内,色度样本可以有一个独立于亮度样本的编码树结构。这使得对色度样本使用比对亮度样本更大的编码块成为可能。


块预测

空域预测
对于帧内预测,现有的Planar、DC、PCM和Angular Prediction模式仍然可用。角度预测的方向数已从HEVC中的33个增加到65个。


由于VVC中的预测块可能不是方形的,一些传统的模式被广角方向(广角帧内预测 Wide Angle Intra Prediction)所适应性地取代。因此,更多的参考像素可以被用于预测。从本质上讲,这将预测方向的角度拓宽到超过一般的45°和-135°。

VVC增加了一个新的依赖位置的预测组合(Position-dependent prediction combination)模式,在这种模式下可以进行方向性插值。它将空域(帧内)预测与一些主要样本和参考样本的位置依赖性加权相结合。

此外,在许多情况下,亮度和色度分量携带非常相似的信息,因此为这些情况增加了一种新的预测模式,称为跨分量预测(Cross-component Prediction)。在这种模式下,可以从重建的亮度块中直接预测色度分量,使用重建像素的线性组合。这种模式有两个参数,系数和偏移量,其中系数是由帧内参考像素计算出来的。如果有必要,该块也会被缩放。

在VVC中,现在可以使用与当前块不直接相邻的两条线进行预测;这被称为多参考线预测(Multi Reference Line Prediction)。


帧间预测

从一张或两张参考图片进行单向和双向运动补偿的基本概念大多没有变化。然而,有一些新的工具,没有在之前的视频编码标准中使用过

传统的运动补偿表示二维平面运动。然而,这种运动在实际视频中很少遇到,因为物体的移动更加自由并且可能同时改变形状。对于这些情况,在VVC中实现了仿射运动(Affine motion)模型,它使用两个或三个矢量来实现四或六个自由度的运动。


最大的亮度运动矢量精度从1/4增加到1/16像素,而相应的色度运动矢量精度从1/16增加到1/32像素。

现在可以使用自适应运动矢量分辨率(Adaptive motion vector resolution)进行编码。这有助于降低运动矢量中较大值的编码消耗,对高分辨率(4K及以上)来说尤其重要。

现在有了一种补偿重叠块运动的方法。这种方法被称为重叠块运动补偿(Overlapped Block Motion Compensation),对相邻块的边缘进行重叠,然后对其进行平滑处理,以避免通常在帧间预测中出现的尖锐过渡。

如果块使用双向预测,新的BDOF(双向光流 Bi-directional optical flow)方法可用于细化预测块的运动。这种算法不需要解码器信号,可以节省2%到6%的比特率。

解码器侧的运动矢量细化(Decoder side motion vector refinement)使得在解码器中细化运动矢量成为可能,而无需传输额外的运动数据。这个过程包括三个阶段:首先,进行双向预测,并将数据加权到一个初步预测块。然后,围绕原始块的位置进行固定数量的搜索。如果找到一个更好的位置,则对原始运动矢量进行相应的更新。最后,用更新后的运动矢量进行新的双向预测,得到最终的预测结果。

矩形块通常不能很好地预测真实视频。为了更有效地进行预测,VVC中加入了几何划分(Geometric Partitioning)。这个选项允许将一个块被非水平地划分成两部分,并对每一部分进行单独的运动补偿。目前的实现包括82种不同的几何划分模式。


变换和量化
在VVC中,最大的变换块大小已经增加到64×64。这些变换在涉及到高清和超清内容时特别有用。
与HEVC只有一个DCT(DCT-II)变换不同,VVC有4个可分离的变换。
DCT(DCT-VIII):一种VIII型离散余弦变换
DST-VII:一个离散正弦变换。
编码器可以根据预测模式选择不同的变换。
VVC标准中的自适应环路滤波有以下特点:
7x7的菱形滤波器(13个不同的系数)用于亮度分量,5х5的菱形滤波器(7个不同的系数)用于色度分量。
每个4х4的亮度块使用一个垂直、一个水平和两个对角线梯度被分到到25个不同的类别中。
根据计算出的梯度,滤波器系数在应用前可以进行这三种变换之一:
对角线反射、垂直反射或旋转。

HEVC VS VVC
下图展示了使用HEVC HM 16.15和VVC VTM-12.0参考编码器编码两个测试序列的结果。在这两种情况下,都是使用标准配置文件(randomaccess.cfg)和同样优化的编码器进行编码。
从图中可以看出,VVC的编码效率在所有比特率下都超过了以前的标准。考虑BQMall序列和其中间部分达到的码率,HEVC的比特率为1002 kbps,APSNR为38.58 dB。使用VVC编码达到类似的质量只需要696 kbps的比特率(APSNR为38.50 dB),获得了30%的比特率节省。HEVC的编码时间约为17分钟,而VVC的编码时间为2.5小时,是其9.3倍。


图1 BQMall序列


图2 Basketball Drill序列
原文链接:https://blog.csdn.net/m0_68918744/article/details/123879042?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166756322816800186563104%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=166756322816800186563104&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~times_rank-7-123879042-null-null.142^v63^control,201^v3^add_ask,213^v1^t3_esquery_v3&utm_term=%E8%A7%86%E9%A2%91%E7%BC%96%E8%A7%A3%E7%A0%81%E6%96%B9%E5%90%91%E4%BB%80%E4%B9%88%E5%B7%A5%E4%BD%9C%E5%A5%BD%E5%95%8A%EF%BC%9F&spm=1018.2226.3001.4187
用Deepseek满血版问问看
回复
使用道具 举报
ruanxihai | 未知
好问题
首先要回顾H265得回顾这个问题。
HEVC/H.265什么时候能普及开呢?如今是2022年了,为啥大量关键应用中,H265还没普及呢?
那还不是H265的专利费用,简直是金牛,直接逼着厂商另起炉灶。
所以你看到的,H265硬解在CHROME的支持,都到现在了
Chrome (Chromium) HEVC硬解来了!内附下载链接因为制作端需要付费,更多厂商直接减少在H265上投入。
期待H.266改变吧,不然除开H.266还会有其他竞争对手,
话说,H264的支持,几乎在8年前就普及起来了,直到今天。在未来4k内容更多的时代下,新的编码格式是极重要的资产!
回复
使用道具 举报
fuxdpvfifu | 来自北京
H.266 编码
H.266,也被称为多功能视频编码(Versatile Video Coding,简称 VVC)是最新一代视频编码标准,2020 年 7 月定稿,ITU 第一版于当年 11 月正式发布,ISO/IEC 第一版于 2021 年 2 月正式发布。伴随 VVC 的 VSEI 标准的第一版的定稿和发布时间与 VVC 相同。
相对于之前的 H.265/HEVC 和 H.264/AVC 视频编码标准,VVC 对 8K 超高清、屏幕、高动态和 360 度全景视频等新的视频类型以及自适应带宽和分辨率的流媒体和实时通信等应用有了更好的支持。VSEI(Versatile Supplemental Enhancement Information),主要规定用于 VVC 视频码流的视频可用性信息(Video Useability Information, VUI)和一些承载辅助增强信息(SEI)的消息的格式。在 H.265 和 H.264 标准中,这些 VUI 和 SEI 格式是放在编码标准主文本中的,而在制定 H.266 是被分开放在两个不同的标准文本中。
相对于 H.265,根据官方主观测试结果,H.266 的平均编码性能提高了 49%。H.266 的新编码工具和对已有编码工具的技术改进主要包括以下几类:

  • 块划分
  • 帧内预测
  • 帧间预测
  • 变换和量化
  • 熵编码
  • 环路滤波
  • 屏幕内容编码
  • 360 度视频编码
3.1、编码工具

3.1.1、块划分

H.266 中增加了四叉树分块之外的新分块方法:MTT(Multiple-Type Tree)。H.266 采用了四叉树加多类型树(QT+MTT)的分块法。在 QT+MTT 分块中,一个方块可以均匀分成左右或上下两个矩形块,也称为 BT 划分(Binary-Tree Split);或者也可以从左到右或从上到下按 1:2:1 的比例分成三个矩形块,也称为 TT 划分(Ternary-Tree Split),如下图所示。同时,BT 或者 TT 划分得到的子块还允许继续使用 BT 或者 TT 划分,但是不能再使用 QT 划分。


H.266 中还允许对色度分量采用不同的分块树结构 CST(Chroma Separate Tree)。CST 有两种实现方式:

  • 作用在帧内编码条带级别,这种编码方式也称为双树(Dual-Tree)编码,对于每个支持的最大编码树单元(Coding Tree Unit, CTU),亮度和色度采用不同的分块树结构;
  • 对于使用单编码树(Single-Tree,CTU 级别的亮度和色度采用相同分块树)的条带,当亮度块大小满足某种条件时,亮度和色度也会采用不同的分块树划分,这种编码方式也称为局部双树(Local Dual-Tree)编码,主要用于防止分块结果中有很多小色度块。
另外,H.265 支持的最大 CTU 是 64×64,而在 H.266 中的最大 CTU 增加到 128×128,最小 CTU 可支持 32×32
3.1.2、帧内预测

H.266 的帧内预测技术改进如下:

  • H.266 支持 67 种帧内预测模式(H.265 是 35)。
  • 对非方形块的角度预测方向做了调整,预测像素插值采用两类四抽头插值滤波器(H.265 是低精度的线性插值)。
  • 基于位置的预测组合技术(Position Dependent intra Prediction Combination, PDPC)将滤波前后的预测信号合并在一起以进一步提高帧内预测精度。
  • 多参考行帧内预测技术不仅可以利用最近相邻的重建像素值,还可以采用更远的重建像素值进行帧内预测。
  • 基于矩阵的帧内预测技术中利用了矩阵向量的乘法来进行帧内预测。
  • 跨分量线性模型帧内预测技术利用亮度图像分量的像素值来预测同一图像中色度分量的像素值。
  • 在子分块模式中,一个亮度编码单元的不同子块采用相同的编码模式信息
3.1.3、帧间预测

H.266 的帧间预测技术改进如下:

  • H.266 继承了 H.265 的基于整个编码单元的运动矢量差值(Motion Vector Difference, MMVD)编码及运动信息继承模式,即:AMVP(Adaptive Motion Vector Prediction)和 Skip/Merge 模式,并分别做了扩展:

    • 对 AMVP 模式,H.266 引入了块级的自适应运动矢量精度,以及对称编码模式(Symmetric Motion Vector Differences Signalling)用于双向预测但只需要编码其中一个参考图像的 MVD。
    • 对于 Skip/Merge 模式,H.266 引入基于历史信息的运动矢量预测(HMVP, History-based Motion Vector Prediction)配对平均运动矢量预测(Pair-wise Average Merge Candidate)

  • H.266 还引入了基于子块的时域运动推导模式(Subblock-based Temporal Motion Vector Prediction, SbTMVP),即当前编码单元分为大小相同的子块(8×8 亮度子块),每个子块的运动矢量单独进行推导。
  • H.266 还引进一个仿射运动模型来更精确地表示像缩放和旋转这样的高阶运动从而提高运动信息的编码效率。
  • 运动矢量的精度提高到了 1/16 亮度像素(H.265 是 1/4 亮度像素)。
  • H.266 还引入多个新的帧间预测编码工具,如:

    • 将 AMVP 和 merge 模式结合起来的合并模式(Merge mode with MVD, MMVD),通过对 merge 模式增加额外的运动矢量差值得到了进一步提高。
    • 几何分块模式的分块结果可以更加切合视频内容中的实体对象边界的运动轨迹
    • 帧间预测和帧内预测合并在一起的预测模式可以同时减少时域冗余和空域冗余以取得更高的压缩性能。

  • H.266 的另一个重要改进是引入解码端运动细化双向光流这两个工具,在不增加码率开销的情况下进一步提升运动补偿效率。
3.1.4、变换和量化

H.266 在变换方面的优化:

  • H.266 的最大变换维度提高到了 64×64(H.265 是 32×32)。
  • 引入了非正方形变换,非正方形变换用于对非正方形的分块进行变换操作。这种变换在水平方向和垂直方向使用不同长度的变换内核。
  • 引入了多变换(主变换)选择,有了多变换选择,编码器可以从一组预定义的整数正弦、余弦、跳过变换并在码流中标明所用变换。
  • 引入了低频不可分变换,低频不可分变换对帧内预测残差的主变换结果中的低频分量进行再进行二次变换,以更好地利用编码块内容的方向性进一步提高压缩性能。
  • 引入了子块变换,子块变换用于当对一个帧间预测残差块的一部分进行编码而其它部分的值全部设为零的时候。
H.266 在量化方面的优化:

  • 引入了自适应色度量化参数偏差。采用自适应色度量化参数偏差这个工具时,对于特定的量化组,色度量化参数不直接编码,而是通过亮度量化参数和预定义并传输的查找表推导得出。
  • 引入了依赖量化。在依赖量化中,一个变换系数的重建值范围依赖于扫描顺序在它前面的几个变换系数的重建值,从而减少输入向量和最接近的重建向量之间的平均失真。
  • 引入了量化残差联合编码。量化残差联合编码指的是对两个色度分量的残差一起编码,而不是分别编码,这样当两个色度分量的残差相似时编码效率会更高。
3.1.5、熵编码

与 H.265 相同,H.266 采用的熵编码也是上下文自适应的二进制算术编码(Context-Adaptive Binary Arithmetic Coding, CABAC),但是在 CABAC 引擎和变换系数编码两方面做了改进:

  • 在 CABAC 引擎方面的改进:多重假设概率更新模型和上下文模型绑定的自适应率(即概率更新速度依赖于上下文模型),其中采用了和每个上下文模型耦合的两个概率估计 P0 和 P1,而 P0 和 P1 相互独立地根据各自的自适应率进行更新。用于二进制算术编码器中进行区间细分的概率估计 P 设为 P0 和 P1 的均值。
  • 在变换系数编码方面的改进:

    • 除了 4×4 的系数组之外,H.266 还允许 1×16、16×1、2×8、8×2、2×4 和 4×2 这六种系数组
    • 增加了一个标志位用于依赖量化的状态过渡。
    • 一个改进的概率模型选择机制用于和变换系数绝对值相关的语法元素的编码。

3.1.6、环路滤波

H.266 中环路滤波方面的改进:

  • 支持 H.265 中也有的去块效应滤波器(Deblocking Filter, DBF)。增加了更长的滤波器和一个专门为高动态视频设计的亮度自适应滤波模式。
  • 支持 H.265 中也有的样本自适应偏差(Sample Adaptive Offset, SAO)。与 H.265 相同。
  • 新增支持带色度缩放的亮度映射(Luma Mapping with Chroma Scaling, LMCS)。编码器可以利用 LMCS 在编码前分段线性地改变输入视频信号幅度分布的动态范围从而提高编码效率,在解码端逆向复原。
  • 新增支持自适应环路滤波器(adaptive loop filter, ALF)。H.266 中的 ALF 包括两种模式:

    • 亮度和色度样本基于块的 ALF。在 ALF 中,亮度和色度分别采用 7×7 和 5×5 的菱形滤波器;对于每个 4×4 块,根据其方向性和梯度活动性分成 25 类和 4 个转置状态的一种,从所传递的多组滤波器中选择一个采用。
    • 色度样本夸分量自适应滤波器(Cross-Component Adaptive Loop Filter, CC-ALF)。CC-ALF 采用一个菱形线性高通滤波器利用 ALF 滤波后的亮度样本来进一步细化色度样本。

3.1.7、屏幕内容编码

H.266 中屏幕内容编码方面的优化:

  • H.266 保留了 H.265 中的基于块的差分脉冲编码调制,但仅限于帧内预测的编码单元。
  • 变换跳过残差编码在 H.265 基础上作了以下改进:

    • 第一个非零值的位置不再编码,扫描方向改为相反方向;
    • 利用上下文模型提高了正负号指示的编码效率;
    • 绝对值的编码改进。

  • 保留了 H.265 帧内块拷贝(Intra Block Copy, IBC)并改进。在 H.265 中,IBC 被定义为一种帧间预测模式,其参考帧是当前帧本身并且运动向量必须指向当前帧已解码且未进行环路滤波的区域。在 H.266 中,IBC 与帧间预测解耦,并对参考缓冲的管理相对于 H.265 进行了简化,参考样本存储在一个局部的小缓冲器中。
  • 保留了 H.265 调色板模式并改进。调色板的编码方式在 H.266 中取决于亮度色度是否使用单个编码树。如果使用单个编码树,三个色度分量的调色板联合在一起编码;否则亮度和色度调色板分开编码。对于采用调色板的编码单元,个别像素还可以不使用调色板中的内容,而是直接编码其量化值。
  • H.266 中的自适应颜色变换这个屏幕内容编码工具与 H.265 中相同,未作改进。
3.1.8、360 度视频编码

360 度视频是在 2014、2015 年左右逐渐开始流行起来的,而 H.265 的第一版是在 2013 年年初定稿的,所以 H.266 顺利成章地成为第一个包含 360 度视频编码工具的国际视频编码标准。
由于传统视频编码技术基本上都能用于 360 度视频编码,H.266 中包含的 360 度视频压缩工具只有两个,更多的对 360 度视频的支持是在系统和传输接口的设计中。

  • H.266 中的一个 360 度视频压缩工具叫做运动矢量环绕。就是当运动矢量指向图像右(左)边界之外的位置时,运动补偿中实际用的参考像素是图像左(右)边界内的像素(或通过插值滤波得到的子像素)。这是因为 360 度视频中常用的一种叫做等矩形映射(Equirectangular Projection, ERP)图像的左右边界实际上是物理世界的球形表面的连续位置,类似于世界地图的左右边界实际上是地球上的连接南北极的同一条经线。所以这样的运动矢量环绕可以提高采用 ERP 的 360 度视频的编码效率。
  • 另外一个 360 度视频压缩工具叫做环路滤波虚拟边界。如果采用,则环路滤波的适用效果不会跨过图像中某些水平或垂直线(这些线就是这里说的所谓的虚拟边界)。这个工具适用于 360 度视频中常用的另一种映射,叫做立方体贴图映射(Cube Map Projection, CMP)。
3.2、系统和传输接口

视频编码标准的系统和传输接口通常也叫做高层语法(High-Level Syntax, HLS),是编解码器中压缩工具和视频应用和传输系统之间的联系纽带。HLS 涉及视频编码标准中的众多课题,包括:码流的基本结构、编码数据的基本结构、序列层和图像层的参数编码、随机访问、视频流自适应、解码图像管理(这里包括参考图像管理)、档次(Profile)和级别(Level)的定义和编码、码流缓冲模型、高层图像分割(比如条带划分和瓦片划分)、时域伸缩性、可扩展性、后向兼容性、容错、增强信息编码,等等。
H.266 继承了 H.264 和 H.265 的 HLS 设计中很多方面,包括基于网络抽象层(Network Abstraction Layer, NAL)单元的语法结构、分等级的语法和数据单元结构、VUI 和 SEI 机制、基于虚拟参考解码器(Hypothetical Reference Decoder, HRD)的视频缓冲模型。
与 H.264 和 H.265 相比,H.266 的 HLS 中的新的或有显著改进的设计主要包括以下这些方面:

  • 矩形条带(Slice)和子图像(Subpicture)
  • 自适应图像分辨率更新
  • 自适应参数集(Adaptation Parameter Set, APS)
  • 图像头
  • 逐渐解码刷新(Gradual Decoding Refresh, GDR)
  • 参考图像列表(Reference Picture List, RPL)的直接编码
  • 多层可伸缩编码设计大大简化
3.2.1、条带和子图像

相对于 H.264 和 H.265,H.266 在条带支持方面有一个重大的变化,那就是用基于瓦片(Tile)或瓦片中的 CTU 行的条带机制取代了基于分块单元(H.264 中的宏块或 H.265 中的 CTU)的条带机制。这个变化的原因是网络技术和视频编码及传输技术的发展让过去常用的视频错误隐藏技术基本上不再被需要,人们看到的视频基本上不再包含采用错误隐藏技术得到的视频帧了。
H.266 条带有两种模式:

  • 矩形条带。矩形条带的形状总是一个矩形。每个矩形条带可以包含一个或多个完整的瓦片(如下面第一幅图所示),也可以包含一个瓦片中的一个或多个 CTU 行(如下面第二幅图中右上角的那个矩形条带)。
包含 18×12 CTUs 的图像被划分为 24 个瓦片和 9 个矩形条带:


一个图像被划分为 4 个瓦片和 4 个矩形条带(注:左边两个瓦片合为一个条带,而右上角的瓦片被划分为 2 个矩形条带):



  • 光栅扫描条带。每个光栅扫描条带也包含一个或多个完整的瓦片,但是这些瓦片的顺序必须是光栅扫描顺序,所以其形状通常不是矩形的(如下图所示)。
包含 18×12 CTUs 的图像被划分为 12 个瓦片和 3 个光栅扫描条带:


H.266 是第一个引入子图像这个设计的视频编码标准。概念上子图像与 H.265 中的运动受限的瓦片集(Motion-Constrained Tile Set, MCTS)相同,但是在设计上做了改进以提高编码压缩效率和应用系统友好性。每个子图像的形状也必须是矩形的,包含一个或多个矩形条带(如下图所示)。
一个图像被划分为 18 个瓦片、24 个条带和 24 个子图像(这个例子中每个子图像正好包含一个矩形条带):


子图像可以独立编码从而可以被提取出来单独解码,所以可以用于感兴趣区域(Region Of Interest, ROI)编码,也可以用于 360 度视频的传输优化,如下图所示。360 度视频与传统视频应用的最关键区别之一是用户在任何瞬间都只会看到整个 360 度球面的一小部分,这个传输方案就是利用这个关键点进行优化,目标是让用户看到的部分具有高画质,而看不到的部分的画质可以比较低。看不到的部分也不能完全不传,因为那样的话,如果用户突然转头就只能看到黑屏,那样就离侵入式体验想去太远了。
基于子图像的 360 度视频传输方案:


H.266 子图像设计相对于 MCTS 的改进主要有以下五点:

  • 可抽取子图像中的运动矢量可以指向子图像边界之外,如果发生则运动补偿时采用像素填充技术,就像运动矢量指向图像边界之外时一样,从而提高编码效率。
  • 对合并模式和解码端运动矢量细化中的运动矢量选择和推导作了针对子图像的改进。
  • 抽取子图像时不需要改动条带头。
  • 包含不同类型条带(比如支持随机访问的和不支持随机访问的)的子图像可以被简单合并为一个图像,合并时也不需要改动条带头。
  • 定义了子图像序列的 HRD 和类别,从而编码器可以保证每个可抽取子码流的一致性
3.2.2、自适应图像分辨率更新

在 H.264 和 H.265 中,改变图像分辨率有在编码视频序列(Coded Video Sequence, CVS)的起始帧并开始使用一个新的序列参数集的时候才可能。而在 H.266 中图像分辨率可以在一个 CVS 中的任何帧改变,而且改变时还可以继续用帧间预测。这就需要允许在不同分辨率的两个图像之间进行帧间预测,因此需要能够进行参考图像重采样(Reference Picture Resampling, RPR)。这里的重采样既可能是上采样,也可能是下采样,取决于参考帧的分辨更大还是当前帧的分辨率更大。
3.2.3、自适应参数集(APS)

H.266 中增加了一种新的参数集:APS,用来传输符合以下三个条件的图像层或条底层信息:

  • 可以被一个图像的多个条带和/或不同图像的多个条带共享的;
  • 可能在图像之间频繁变化;
  • 可能取值的个数比较大,如果放到图像参数集(Picture Parameter Set, PPS)中去的话会导致 PPS 在一个码流中需要更新从而无法进行 PPS 的带外传输。
在 H.266 中 APS 被用来传输三种参数:

  • ALF 参数
  • LMCS 参数
  • 缩放列表(Scaling List)参数
3.2.4、图像头

图像头并不是一个新概念,在 MPEG-2 等 H.264 之前的编码标准里面就有,但是在采用基于 NAL 单元的码流结构的 H.264 和 H.265 中没有。H.266 中重新引入图像头的主要目的是为了减少图像层信息在一个图像的不同条带中的重复,所以包含的信息基本上就是同一图像中各个条带必须或很可能共享的信息。
3.2.5、逐渐解码刷新(GDR)

GDR 指的是可以从一个帧间编码的图像进行随机访问,虽然不能立即得到正确解码的图像,但是随着更多帧的解码,视频内容中正确解码的区域逐渐增大直至到某一帧所有的区域都能正确解码。由于采用帧内编码的块可以相对均匀地分布在多个连续的图像中,编码器就可能使码率很平滑,从而降低点到点延时。
GDR 也不是新概念,在 H.264 和 H.265 中可以支持,并可以用恢复点(Recovery Point)SEI 消息表明对 GDR 的支持和给出 GDR 恢复点的位置。在 H.266 中,GDR 通过一个新的 NAL 单元类型来表明,GDR 恢复点的位置信息放在图像头里,一个码流或 CVS 的首帧就可以是采用帧间编码的 GDR 帧,甚至整个合法码流里面可以没有任何一帧是瞬时解码刷新(Instantaneous Decoding Refresh, IDR)或干净随机访问(Clean Random Access, CRA)帧,也可以整个合法码流没有一个帧内编码帧。
3.2.6、参考图像列表(RPL)的直接编码

参考图像管理负责解码图像存入到解码图像缓冲区(Decoded Picture Buffer, DPB)、从 DPB 中删除、以及将参考帧按合理顺序放到 RPL 中去这些操作,是视频编码标准中的核心功能之一。在 H.265 中,参考帧管理通过一个叫做参考图像集(Reference Picture Set, RPS)的机制,包括 RPL 的建立过程。H.266 对 RPL 信息直接编码,而不是间接地通过 RPS。
3.2.7、多层可伸缩编码设计

因为有了上面提到的 RPR,H.266 中支持多层可伸缩编码就变得简单了。因为相对于单层编码不需要任何其它『低层』编码工具了,只需要增加 HLS 的支持即可。这也正式 H.266 第一版中就会支持多层可伸缩编码的主要原因(H.264 和 H.265 都是在第一版之后才加入对多层可伸缩编码的支持的)。相对于 H.264 和 H.265 后期版本中的多层可伸缩编码,H.266 中的多层可伸缩编码设计从一开始就聚焦于对单层解码器设计的友好性。首先,对解码多层码流的能力的规定与单层码流一致,从而一个单层解码器只需要少量的改变就可以解码多层码流,比如级别中对最小 DPB 能力的规定与码流中有几层无关。另外,多层可伸缩编码的 HLS 的设计大大简化,代价是牺牲了一些灵活性,比如在每个随机访问点要求每层的图像都必须存在。
H.266 中的多层可伸缩编码设计虽然相对简单,但是仍然不仅支持了传统的空间可伸缩性、质量可伸缩性、以及多视角可伸缩性,还支持了一些可伸缩性和子图像的组合。比如,前面图所示的基于子图像的 360 度视频传输方案可以通过允许层间预测进一步改进,如下图所示:
基于子图像并允许层间预测的 360 度视频传输方案:


本文参考


1)H.266/VVC 视频编码标准概述

https://juejin.cn/post/6940078108787769357
2)新一代视频压缩编码标准 H.264/AVC
https://book.douban.com/subject/1314942/
3)新一代高效视频编解码 H265/HEVC 原理、标准与实现
https://book.douban.com/subject/26828613/
4)率失真优化
https://blog.csdn.net/weixin_42979679/article/details/104534543
5)ITU 第一版
https://www.itu.int/rec/T-REC-H.266/en
6)ISO/IEC 第一版
https://www.iso.org/standard/73022.html
7)VSEI 标准的第一版
https://www.itu.int/rec/T-REC-H.274/en


(通过上文的介绍,我们了解了 H.266 的编码工具及相对 H.265 的改进。关于视频编码基础知识的探讨暂时告一段落。后续我们将在继续探讨音视频封装格式相关的内容,敬请期待)
更多文章请微信搜索公众号:关键帧keyframe
回复
使用道具 举报
哈飞路宝 | 来自吉林
不请自来,因为这事儿值得我们自豪!先说结果啊,在新一代国际视频编解码标准(H.266/VVC)制定过程中,腾讯有超过100项技术提案获得标准采纳,在国际视频压缩标准研究制定领域处于第一阵营!

进入正题

这个标准(H.266/VVC)之所以备受关注,是因为是由ISO/IEC MPEG和ITU-T VCEG联合制定,并且,据官方说明,能够在不影响画质的情况下,将视频码率降低到原来的一半。毫无疑问,代表了目前业界最先进成熟的视频压缩编码技术。

说下这次参与制定的企业,可以说,汇聚了全球在音视频领域最具影响力的企业,包括腾讯、高通、HHI、华为、三星、索尼、Intel、诺基亚、爱立信等企业均有参与其中。

那么,这个标准对于我们的影响是啥呢?

简单来说,所有和视频有关的行业将迎来巨大变革,整个超高清视频应用的发展将有望迎来全面爆发,这项标准尤其适合用来传输4K甚至8K的视频,因为这能够为内容提供商节约大量的带宽

比如,现在一部要1GB的电影,以后下载只需要500MB的流量可能就够了,智能终端播放的时候,画质却保持不变,高清在线视频不再是流量吞噬者,对我们普通用户的影响是不是很大?

接下里说下腾讯的贡献。

在本次标准制定过程中,腾讯也是投入了很多的精力参与其中,并且为标准制定贡献很多。

根据我们多媒体实验室资深标准专家,H.266/VVC标准负责人李翔博士介绍,这次腾讯累计技术提案335篇,超过100篇专家小组报告、核心实验报告、专题讨论组报告以及标准会议输出决议文稿,100多个提案获得采纳。这一成果在所有标准制定厂商中名列前茅。

此外,腾讯多媒体实验室刘杉博士担任标准文本联合主编,李翔博士任参考软件联合主席,实验室数十人次担任专家小组主席,核心实验负责人,专题讨论组主席,为标准的研究制定做出了积极的贡献。

还有一点需要夸夸的是,这次国际视频编解码标准联合专家组采纳了腾讯多媒体实验室的提议,将王者荣耀视频片段纳入了标准测试序列,这也是手游第一次进入测试序列。

把王者荣耀被纳入视频编解码标准测试序列,将进一步促进全世界相关领域最好的公司和研究机构致力于提升电子竞技场景的编解码效率,也将极大地促进电竞产业核心技术发展。

此外,据腾讯杰出科学家,多媒体实验室总经理刘杉博士介绍,除了在新一代国际视频编解码标准中的贡献之外,腾讯多媒体实验室近年来在沉浸式媒体、多媒体系统、5G和多媒体AI等标准领域均有深度参与,并为腾讯云、腾讯会议、腾讯互娱、腾讯视频、腾讯文旅、腾讯影业、QQ、全民K歌等业务提供核心技术和产品实现支持。

所以,视频行业新的时代已经正式来临啦,你准备好了吗?
回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影