1、YUV格式详解1. 什么是 RGB?RGB是红绿蓝三原色的意思,R=Red、G=Green、B=Blue。2.什么是 YUV/YCbCr/YPbPr?亮 度信号经常被称作 Y,色度信号是由两个互相独立的信号组成。视颜色系统和格式不同,两种色度信号经常被称作 U和 V或 Pb和 Pr或 Cb和 Cr。这些都是由不 同的编码格式所产生的,但是实际上,他们的概念基本相同。在 DVD中,色度信号被存储成 Cb和 Cr(C 代表颜色,b 代表蓝色,r 代表红色)。3.什么是 4:4:4、4:2:2、4:2:0?在 最近十年中,视频工程师发 现人眼对色度的敏感程度要低于对亮度的敏感程度。在生理学中,有一条
2、规律,那就是人类视网膜上的视网膜杆细胞要多于视网膜锥细 胞,说得通俗一些,视网膜杆细胞的作用就是识别亮度,而视网膜锥细胞的作用就是识别色度。所以,你的眼睛对于亮和暗的分辨要比对颜色的分辨精细一些。正是 因为这个,在我们的视频存储中,没有必要存储全部颜色信号。既然眼睛看不见,那为什么要浪费存储空间(或者说是金钱)来存储它们呢?像 Beta或 VHS之类的消费用录像带就得益于将录像带上的更多带宽留给黑白信号(被称作“亮度”),将稍少的带宽留给彩色信号(被称作“色度”)。在 MPEG2(也就是 DVD使用的压缩格式)当中,Y、Cb、Cr 信号是分开储存的(这就是为什么分量视频传输需要三条电缆)。其中
3、 Y信号是黑白信号,是以全分辨率存储的。但是,由于人眼对于彩色信息的敏感度较低,色度信号并不是用全分辨率存储的。色 度信号分辨率最高的格式是 4:4:4,也就是说,每 4点 Y采样,就有相对应的 4点 Cb和 4点 Cr。换句话说,在这种格式中,色度信号的分辨率和亮度信号的 分辨率是相同的。这种格式主要应用在视频处理设备内部,避免画面质量在处理过程中降低。当图像被存储到 Master Tape,比如 D1或者 D5,的时候,颜色信号通常被削减为 4:2:2。在图中,你可以看到 4:4:4格式的亮度、色度采样分布。就像图中所表示的,画面中每个象素都有与之对应的色度和亮度采样信息。/center其
4、 次就是 4:2:2,就是说,每 4点 Y采样,就有 2点 Cb和 2点 Cr。在这种格式中,色度信号的扫描线数量和亮度信号一样多,但是每条扫描线上的色度采样点 数却只有亮度信号的一半。当 4:2:2信号被解码的时候,“缺失”的色度采样,通常由一定的内插补点算法通过它两侧的色度信息运算补充。看 4:2:2格式亮度、色度采样的分布情况。在这里,每个象素都有与之对应的亮度采样,同时一半的色度采样被丢弃,所以我们看到,色度采样信号每隔 一个采样点才有一个。当着张画面显示的时候,缺少的色度信息会由两侧的颜色通过内插补点的方式运算得到。就像上面提到的那样,人眼对色度的敏感程度不如亮 度,大多数人并不能分
5、辨出 4:2:2和 4:4:4颜色构成的画面之间的不同。色度信号分辨率最低的格式,也就是 DVD所使用的 格式,就是 4:2:0了。事实上 4:2:0是一个混乱的称呼,按照字面上理解,4:2:0 应该是每 4点 Y采样,就有 2点 Cb和 0点 Cr,但事实上完全不是 这样。事实上,4:2:0 的意思是,色度采样在每条横向扫描线上只有亮度采样的一半,扫描线的条数上,也只有亮度的一半!换句话说,无论是横向还是纵向, 色度信号的分辨率都只有亮度信号的一半。举个例子,如果整张画面的尺寸是 720*480,那么亮度信号是 720*480,色度信号只有 360*240。在 4:2:0 中,“缺失”的色度
6、采样不单单要由左右相邻的采样通过内插补点计算补充,整行的色度采样也要通过它上下两行的色度采样通过内插补点运算获得。这 样做的原因是为了最经济有效地利用 DVD的存储空间。诚然,4:4:4 的效果很棒,但是如果要用 4:4:4存储一部电影,我们的 DVD盘的直径至少要有两 英尺(六十多厘米)!上图表示了概念上 4:2:0颜色格式,非交错画面中亮度、色度采样信号的排列情况。同 4:2:2格式 一样,每条扫描线中,只有一半的色度采样信息。与 4:2:2不同的是,不光是横向的色度信息被“扔掉”了一半,纵向的色度信息也被“扔掉”了一半,整个屏 幕中色度采样只有亮度采样的四分之一。请注意,在 4:2:0颜
7、色格式中,色度采样被放在了两条扫描线中间。为什么会这样呢?很简单:DVD 盘上的颜色采样 是由其上下两条扫描线的颜色信息“平均”而来的。比如,图三中,第一行颜色采样(Line 1 和 Line 2中间夹着的那行)是由 Line 1和 Line 2“平均”得到的,第二行颜色采样(Line 3 和 Line 4中间夹着的那行)也是同样的道理,是由 Line 3和Line 4得到的。虽然文章中多次提到“平均”这个概念,但是这个“平均”可不是我们通常意义上的(a+B)/2 的平均。颜色的处理有极其复杂的算法保证其最大限度地减少失真,接近原始质量。/center4.什么是 YV12,什么是 YUY2?Y
8、UV格式通常有两大类:打包(packed)格式和平面(planar)格式。前者将 YUV分量存放在同一个数组中,通常是几个相邻的像素组成一个宏像 素(macro-pixel);而后者使用三个数组分开存放 YUV三个分量,就像是一个三维平面一样。表 2.3中的 YUY2到 Y211都是打包格式,而 IF09 到 YVU9都是平面格式。(注意:在介绍各种具体格式时,YUV 各分量都会带有下标,如 Y0、U0、V0 表示第一个像素的 YUV分量,Y1、 U1、V1 表示第二个像素的 YUV分量,以此类推。) YUY2(和 YUYV)格式为每个像素保留 Y分量,而 UV分量在水平方向上每两个像素采样一
9、次。一个宏像素为 4个字节,实际表示 2个像素。(4:2:2 的意思为一个宏像素中有 4个 Y分量、2 个 U分量和 2个 V分量。)图像数据中 YUV2分量排列顺序如下:Y0 U0 Y1 V0 Y2 U2 Y3 V2 YVYU格式跟 YUY2类似,只是图像数据中 YUV分量的排列顺序有所不同:Y0 V0 Y1 U0 Y2 V2 Y3 U2 UYVY格式跟 YUY2类似,只是图像数据中 YUV分量的排列顺序有所不同:U0 Y0 V0 Y1 U2 Y2 V2 Y3 AYUV格式带有一个 Alpha通道,并且为每个像素都提取 YUV分量,图像数据格式如下:A0 Y0 U0 V0 A1 Y1 U1
10、V1 Y41P(和 Y411)格式为每个像素保留 Y分量,而 UV分量在水平方向上每 4个像素采样一次。一个宏像素为 12个字节,实际表示 8个像素。图像数据中 YUV分量排列顺序如下:U0 Y0 V0 Y1 U4 Y2 V4 Y3 Y4 Y5 Y6 Y8 Y211格式在水平方向上 Y分量每 2个像素采样一次,而 UV分量每 4个像素采样一次。一个宏像素为 4个字节,实际表示 4个像素。图像数据中YUV分量排列顺序如下:Y0 U0 Y2 V0 Y4 U4 Y6 V4 YVU9格式为每个像素都提取 Y分量,而在 UV分量的提取时,首先将图像分成若干个 4 x 4的宏块,然后每个宏块提取一个 U分
11、量和一个 V分量。图像数据存储时,首先是整幅图像的 Y分量数组,然后就跟着 U分量数组,以及 V分量数组。IF09 格式与 YVU9类似。 IYUV格式为每个像素都提取 Y分量,而在 UV分量的提取时,首先将图像分成若干个 2 x 2的宏块,然后每个宏块提取一个 U分量和一个 V分量。YV12格式与 IYUV类似。 YUV411、YUV420 格式多见于 DV数据中,前者用于 NTSC制,后者用于PAL制。YUV411 为每个像素都提取 Y分量,而 UV分量在水平方向上 每 4个像素采样一次。YUV420 并非 V分量采样为 0,而是跟 YUV411相比,在水平方向上提高一倍色差采样频率,在垂
12、直方向上以 U/V间隔的方式减小 一半色差采样5.为什么影片在 VDM处理的过程中要选 Fast recompress?选择 Fast recompress的原因,现得从 Avisynth 2.5讲起。Avisynth 2.5最大的特色,就是支持 YV12直接处理。我们知道原始 MPEG数据是 YUV4:2:0,也就是 YV12的格式,以前我们在做 DivX/XviD压缩的时候,处理流程是:DVD/VCD(YUV 4:2:0) - DVD2AVI(YUV 4:2:0 -YUV4:2:2 -YUV4:4:4 - RGB24) - VFAPI(RGB24) - TMPGEnc/AviUtl/Vir
13、tualDub(RGB24) - DivX/XviD Codec(RGB24 -YUV4:2:0) - MPEG-4(YUV 4:2:0)ps. VFAPI 内部只能以 RGB24 传递数据,所以会转成 RGB24 输出或是DVD/VCD(YUV 4:2:0) - MPG2DEC.DLL(YUV 4:2:0 -YUV4:2:2) - Avisynth 2.0.x(只能用支援 YUV4:2:2 的滤镜,不能用 RGB24/32 的 filter) - VirtualDub(YUV 4:2:2,不能使用 VD 的 filter,因为 VD 的 filetr 都是在 RGB32 上处理,压缩时要选
14、Fast recompress,才会直接原封不动的送 YUV4:2:2,也就是 YUY2 的数据给 Codec 压缩) - DivX/XviD Codec(YUV 4:2:2 -YUV4:2:0) - MPEG-4(YUV 4:2:0)所以以前的处理流程中间要经过好几次 YUV RGB 的转换。这个转换是有损的,做得越多次,原始的色彩信息就损失的越严重。而且这个转换的计算又耗时(这就可以解释为什么我们将 YV12转为 RGB输出时会卡的多,不过,RGB的品质真的更高的多)。那么有人(Marc FD)就想到,反正最后转成 MPEG 都要存成 YUV4:2:0 的格式,那么为什么不干脆一路到底,全
15、程都以 YV12处理,也就是所有的 filter 都改写成 YV12的版本,直接在 YV12上做调整色彩、滤噪讯、IVTC 等工作,这样:1. 处理的数据量少。(YV12 的资料,UV 比 YUY2少一半,比 RGB 24/32少更多)2. 不用转换计算所以速度快。再加上又可以避免 YUV RGB 转换的损失,岂不是一举两得?所以支持 YV12的 Avisynth 2.5 就诞生了。但 是目前 VirtualDub还是不支持 YV12,即使选 Fast recompress,VD 还是会将 YV12的输入转为 YUY2。所以要得到全程 YV12处理的好处,必须使用 VirtualDubMod才
16、行,这个改版才有支持 YV12。只有在选择 Fast recompress的时候,VDM 才不会进行任何处理,直接将数据丢给编码器压缩,这样就能保留 YV12,实现了全程 YV12。关于 RGB 跟 YUV 的转换:计 算机彩色显示器显示色彩的原理与彩色电视机一样,都是采用 R(Red)、G(Green)、B(Blue)相加混色的原理:通过发射出三种不同强度的电子 束,使屏幕内侧覆盖的红、绿、蓝磷光材料发光而产生色彩。这种色彩的表示方法称为 RGB色彩空间表示(它也是多媒体计算机技术中用得最多的一种色彩空间表 示方法)。根据三基色原理,任意一种色光 F都可以用不同分量的 R、G、B 三色相加混
17、合而成。F = r R + g G + b B 其中,r、g、b 分别为三基色参与混合的系数。当三基色分量都为 0(最弱)时混合为黑色光;而当三基色分量都为 k(最强)时混合为白色光。调整r、g、b 三个系数的值,可以混合出介于黑色光和白色光之间的各种各样的色光。那 么 YUV又从何而来呢?在现代彩色电视系统中,通常采用三管彩色摄像机或彩色 CCD摄像机进行摄像,然后把摄得的彩色图像信号经分色、分别放大校正后得到 RGB,再经过矩阵变换电路得到亮度信号 Y和两个色差信号 RY(即 U)、BY(即 V),最后发送端将亮度和色差三个信号分别进行编码,用同一信道发送 出去。这种色彩的表示方法就是所谓
18、的 YUV色彩空间表示。采用 YUV色彩空间的重要性是它的亮度信号 Y和色度信号 U、V 是分离的。如果只有 Y信号分量而没有 U、V 分量,那么这样表示的图像就是黑白灰度图像。彩色电视采用 YUV空间正是为了用亮度信号 Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色电视信号。YUV与 RGB相互转换的公式如下(RGB 取值范围均为 0-255):Y = 0.299R + 0.587G + 0.114BU = -0.147R - 0.289G + 0.436BV = 0.615R - 0.515G - 0.100BR = Y + 1.14VG = Y - 0.39U - 0.
19、58VB = Y + 2.03U在 DirectShow 中,常见的 RGB格式有RGB1、RGB4、RGB8、RGB565、RGB555、RGB24、RGB32、ARGB32 等;常见的YUV格式有 YUY2、YUYV、YVYU、UYVY、AYUV、Y41P、Y411、Y211、IF09、IYUV、YV12、YVU9、YUV411、 YUV420 等。作为视频媒体类型的辅助说明类型(Subtype),它们对应的 GUID见表 2.3。表 2.3 常见的 RGB和 YUV格式GUID 格式描述MEDIASUBTYPE_RGB1 2色,每个像素用 1位表示,需要调色板MEDIASUBTYPE_R
20、GB4 16色,每个像素用 4位表示,需要调色板MEDIASUBTYPE_RGB8 256色,每个像素用 8位表示,需要调色板MEDIASUBTYPE_RGB565 每个像素用 16位表示,RGB 分量分别使用 5位、6 位、5位MEDIASUBTYPE_RGB555 每个像素用 16位表示,RGB 分量都使用 5位(剩下的 1位不用)MEDIASUBTYPE_RGB24 每个像素用 24位表示,RGB 分量各使用 8位MEDIASUBTYPE_RGB32 每个像素用 32位表示,RGB 分量各使用 8位(剩下的8位不用)MEDIASUBTYPE_ARGB32 每个像素用 32位表示,RGB
21、分量各使用 8位(剩下的 8位用于表示 Alpha通道值)MEDIASUBTYPE_YUY2 YUY2格式,以 4:2:2方式打包MEDIASUBTYPE_YUYV YUYV格式(实际格式与 YUY2相同)MEDIASUBTYPE_YVYU YVYU格式,以 4:2:2方式打包MEDIASUBTYPE_UYVY UYVY格式,以 4:2:2方式打包MEDIASUBTYPE_AYUV 带 Alpha通道的 4:4:4 YUV格式MEDIASUBTYPE_Y41P Y41P格式,以 4:1:1方式打包MEDIASUBTYPE_Y411 Y411格式(实际格式与 Y41P相同)MEDIASUBTYP
22、E_Y211 Y211格式MEDIASUBTYPE_IF09 IF09格式MEDIASUBTYPE_IYUV IYUV格式MEDIASUBTYPE_YV12 YV12格式MEDIASUBTYPE_YVU9 YVU9格式下面分别介绍各种 RGB格式。 RGB1、RGB4、RGB8 都是调色板类型的 RGB格式,在描述这些媒体类型的格式细节时,通常会在 BITMAPINFOHEADER数据结构后面跟着 一个调色板(定义一系列颜色)。它们的图像数据并不是真正的颜色值,而是当前像素颜色值在调色板中的索引。以 RGB1(2 色位图)为例,比如它的调色板中 定义的两种颜色值依次为 0x000000(黑色)
23、和 0xFFFFFF(白色),那么图像数据 001101010111(每个像素用 1位表示)表示对应各 像素的颜色为:黑黑白白黑白黑白黑白白白。 RGB565使用 16位表示一个像素,这 16位中的 5位用于 R,6 位用于G,5 位用于 B。程序中通常使用一个字(WORD,一个字等于两个字节)来操作一个像素。当读出一个像素后,这个字的各个位意义如下:高字节 低字节R R R R R G G G G G G B B B B B可以组合使用屏蔽字和移位操作来得到 RGB各分量的值:#define RGB565_MASK_RED 0xF800#define RGB565_MASK_GREEN 0x
24、07E0#define RGB565_MASK_BLUE 0x001FR = (wPixel / 取值范围 0-31G = (wPixel / 取值范围 0-63B = wPixel / 取值范围 0-31 RGB555是另一种 16位的 RGB格式,RGB 分量都用 5位表示(剩下的 1位不用)。使用一个字读出一个像素后,这个字的各个位意义如下:高字节 低字节X R R R R G G G G G B B B B B (X 表示不用,可以忽略)可以组合使用屏蔽字和移位操作来得到 RGB各分量的值:#define RGB555_MASK_RED 0x7C00#define RGB555_MAS
25、K_GREEN 0x03E0#define RGB555_MASK_BLUE 0x001FR = (wPixel / 取值范围 0-31G = (wPixel / 取值范围 0-31B = wPixel / 取值范围 0-31 RGB24使用 24位来表示一个像素,RGB 分量都用 8位表示,取值范围为0-255。注意在内存中 RGB各分量的排列顺序为:BGR BGR BGR。通常可以使用 RGBTRIPLE数据结构来操作一个像素,它的定义为:typedef struct tagRGBTRIPLE BYTE rgbtBlue; / 蓝色分量BYTE rgbtGreen; / 绿色分量BYTE
26、rgbtRed; / 红色分量 RGBTRIPLE; RGB32使用 32位来表示一个像素,RGB 分量各用去 8位,剩下的 8位用作 Alpha通道或者不用。(ARGB32 就是带 Alpha通道的 RGB32。)注意在内存中 RGB各分量的排列顺序为:BGRA BGRA BGRA。通常可以使用RGBQUAD数据结构来操作一个像素,它的定义为:typedef struct tagRGBQUAD BYTE rgbBlue; / 蓝色分量BYTE rgbGreen; / 绿色分量BYTE rgbRed; / 红色分量BYTE rgbReserved; / 保留字节(用作 Alpha通道或忽略)
27、RGBQUAD;PS:贴上两个网上找到的 sourcecode:RGB-YUVY = 0.299R + 0.587G + 0.114BCb = 0.564(B Y ) Cr = 0.713(R Y )代码:uint8_t COL_RgbToYuv(uint8_t R,uint8_t G,uint8_t B, uint8_t *y,int8_t *u,int8_t *v)float rr=R,bb=B,gg=G;float yy,uu,vv;yy=0.299*rr+ 0.587*gg+ 0.114*bb;uu=-0.169*rr+ -0.331*gg+ 0.5*bb;vv=0.5*rr+ -0.
28、419*gg+ -0.081*bb;if(uu127) uu=127;if(uu-127) uu=-127;*u=(int8_t)floor(uu);if(vv127) vv=127;if(vv-127) vv=-127;*v=(int8_t)floor(vv);if(yy255) yy=255;if(yy0) yy=0;*y=(uint8_t)floor(yy);return 1;YUV-RGBR = Y + 1.402CrG = Y 0.344Cb 0.714Cr B = Y + 1.772Cb代码:uint8_t COL_YuvToRgb( uint8_t y,int8_t u,int8_t v,uint8_t *r,uint8_t *g,uint8_t *b)float rr,bb,gg;float yy=y,uu=u,vv=v;rr= yy+ 1.402*vv;gg= yy+ -0.344*uu+ -0.714*vv;bb= yy+ 1.772*uu ;#define CLIP(x) if(x255) x=255; else if (x0) x=0;x=x+0.49;#define CVT(x,y) CLIP(x);*y=(uint8_t)floor(x);CVT(rr,r);CVT(gg,g);CVT(bb,b);return 1;