论文——网络视频之星—FLV.doc-资源下载-文客久久网

论文——网络视频之星—FLV.doc

1、网络视频之星 FLV 摘要：本文主要分析了在网络视频大发展背景下， FLV 视频格式的工作原理和其得到广泛应用的原因，并通过自压制视频实验确认 FLV 在主流视频格式中的优缺点，最后提及了基于 FLV 的新 3D 视频技术雏形。关键词： FLV， FLV 生成算法，移动端视频播放中图分类号：当代因为移动设备特别是智能手机的高速发展，人们对这些设备的需求越来越大，同时也对移动设备的功能提出了更复杂的要求。研究数据表明，绝大多数的 90后人拥有智能手机，同时几乎所有人都使用手机观看视频。考虑到手机本身存储容量受到技术因素限制同时网络带宽也有限，如何将体积巨大的视频文件尽可能的压缩

2、储存就成为了当今移动端技术最重要的问题之一。我们到底对视频做什么样的处理，才能达到最优的观看体验？ 1：移动端网络视频的发展从智能手机的普及以来，人们便不断对其提出更高的多媒体方面需求，而视频就是其中的一个大头。智能手机最初因为传接了 mp4的功能，初始便支持 MPEG-4也就是我们常说的 .mp4文件在其上播放。最初，这个功能是智能手机的一大亮点，同时兼具通讯与多媒体双重能力，使其市场热度飞快提高。但是渐渐地人们开始不满足于传统的“导入再观看”，而是希望借新兴的移动网络，在手机端就进行下载来代替电脑。因为刚开始时， 3G 网络的流量还很昂贵而缓慢，所以大家也只是说着玩玩。但是通信

3、业的先驱并没有漏掉这个机会，提前发展了网络视频技术，于是在便宜快捷的 4G 网刚上线时，人们还没来的及重新思考原来那个视频下载的梦，这个梦就已经实现了。大型的视频网站都开始支持视频的移动端下载播放，人们的生活也逐渐得与其密不可分。 2： FLV 格式的出道在移动端网络视频技术发展的初期，工程师们最一开始想到的当然是最老也是当时最普及的 mp4格式文件，毕竟其对所以机型的兼容性和较高的视频质量都是难以拒绝的优点。但是随着技术攻坚的推进，先驱们发现了 mp4文件对于网络传播的最大问题：他太大了。为了保证视频的质量， mp4文件在大小上并不优秀，而当时人们面对的还是低速的3G 网络，这就意味着用

4、户若是想要从网站下载一个视频，他就必须看着进度条龟爬几个小时。注意，mp4文件的格式可是不支持边下载边播放的，你要是想看，就得下完，这还不计算在这几个小时中间很有可能发生的信号丢失等等导致视频下载到一半而卡死的问题（毕竟当时断点传输技术也没有普及）。在这种种因素的搞事下，用户还不如用安全稳定快速的固定电脑下载然后导入手机。于是问题便转移到了如何制作一种新的视频存储格式，要求其体积小而且对于中断适应性强。很机缘巧合的是，当时新兴的 flash 技术刚刚好就可以满足这些需求。 flash 视频文件本身采用了关键帧计算方法，随着帧小节的增多，是完全不害怕中断的（每次错误只会错极短的一小段），而其跟

5、随帧的图形化变换算法本身就比原来的色点算法体积小出数倍，就同时达成了多个需要， FLV 视频格式应运而生。 3： FLV 格式功能分析 FLV 文件全名 Flash Video，通字面意思就是利用 flash 技术压缩和播放的视频。为了理解其原理，就必须先了解 flash 技术是如何处理连续的图片集合的。一个视频其实就是一个 CPU快速扫画更新的图片集合，按照一定的更新顺序在屏幕的每一个色点录入新的颜色，然后不断循环来数字化模拟图像的变化。而对于人，人眼就如同一个高频的摄像机，看视频就是对这个视频进行再采样。举个例子，放慢一点来说，视频就是一个一秒换数页的 PPT，而为了让我们的观众感官上

6、认为“哦这不是间断的PPT 而是一个连续的视频”，我们换页的速度就要超过人眼的扫描频率来骗过眼镜。一般认为，人的视力是 12帧每秒，一秒之内可以分辨得过来 12个不同画面（见注 1），那么 flash 动画就必须高于这个频率，这也是为什么我们通常使用的视频都是20fps-24fps 的原因。通过对同一视频用格式工厂压到不同帧数，在三位志愿者的帮助下实验了人眼大概对“连续”的判断阈值，其结果为 15fps（见表 1）。受试者 A B C 60fps 源好好好 30fps 好好好 20fps 好中好 15fps 中中中 12fps 卡顿中中 6fps 不可接受不可

7、接受不可接受表一下来，我们对 FLV格式的数据结构进行分析（如图 1）。为了兼容性， FLV 当然是一个二进制的文件，主体构成为“文件头 header” +“文件体 body”。其中，文件头中定义了这个 FLV 的版本号、文件大小、帧数标准、总长等视频主要的宏参数；而文件体就是我们真正的数据区，由大量的标签 Tag 组成，不同标签有不同的含义。每个标签也分为标签头和标签体（数据体），标签头同样是关于这个标签的宏信息比如数据区域大小，所处视频的哪个位置，是什么类别（视频 video/音频 audio/脚本 script）等等；而数据体则是按照前面标签头的定义而可翻译的数据，例如几分几秒

8、（一个关键帧）在屏幕哪个坐标是什么颜色，或是在什么时间点音乐的频率是多少。而关于关键帧技术， FLV 并不直接体现在video 区宏定义里，而是在一段 video data 中就是数个关键帧带上其跟随帧，只不过跟随帧中只有关于关键帧的变化量而已（而这意味着在连续动画中跟随帧其实是非常小的）。另外，就如同操作系统中的分页， FLV 中因为帧文件都比较小而多，一个块和另一个块之间没有直接联系，就完全可以做到“按片播放”与“断点续传”甚至是“拖动视频进度条的快速加载”（这个才是 mp4最大的问题所在：拖一下等一年。关于 mp4分析见注 2）等更人性化的功能。对于视频质量方面， FLV 格式其实必然

9、是不如体积更大的 mp4的（更不用说视频源文件 AVI）。缩减体积必然带来的是内部信息总量的减少，这是不可避免的。但是正如当年 mp3文件击败 wav 文件一样，“就算信息真的少了，能瞒过观众不就可以了么？”， mp3就是将人耳更难辨别的高频信号和远低于语音的超低频信号直接删去，主要保留人声和主流乐器的频率范围内信号，体积就极大的缩减，而一般人却并不能听出太大的差别（当然码率还是有用的， 320k 和 192k 两个世界）。 FLV 本质上也是采用了同样的做法，其音频流直接使用小体积 192k的 mp3（或者 Nero的 AAC 格式，也很小），视频流主要保留关键帧内容，利用人的视觉暂留和习

10、惯性估计（俗称脑补），略去高频人眼分辨不能的部分，用多个静态的图片和其间的变换来代替每帧都扫画全屏的低效率方法，往往体积会比原有的 AVI 源小上 10-20倍（如图 2，压制前与压制后）。图二这也是为什么现在各大视频平台（包含直播平台）都支持并鼓励 up 主自己压制并使用 FLV 格式进行上传。 4： FLV 格式文件的优缺点正如我们之前提到的， FLV 文件最大的优势就是其文件体积在同等的视频清晰度前提下较小，同时其数据结构导致文件可以同时播放和下载。这就意味着用户在看视频时，第一可以减低移动设备的带宽要求，也就更符合我们对移动多媒体的要求；同时，通过不断更新 /去除页，可以在手机

11、内存比较低下的时候支持正常播放，可以下载体积远大于已有空间的文件（当然你要是需要保存收藏的话这个就不是问题了）。相对于物理地址不连续导致不能人性化的 mp4和物理上虽然连续但是本身大小无法衡量也不好保存的 WMV， FLV 在数据方面是占据绝对优势的。当然 FLV 也拥有自己的短板。从大众的口风来说最大的诟病位置在于其“不够清晰”，然而所谓不清晰的问题，是因为人们总是观看 mp4，当然就体现了 FLV 的弱势。事实上，对于屏幕大小有限的智能手机，搞得解析度其实根本是看不出来的，在pc 上可能的确很明显的问题放在仅仅几寸的手机上就是另一回事了。对于自己制作过 FLV 视频的人来

12、说，他真正的问题大概在于关键帧到底如何提取，和跟随帧的确定计算法。首先我们说关于关键帧的提取。一个过渡十分平滑的视频，你是可以随意选择关键帧的，比如任性的一秒平均 2个这样，完全 ok。但是一个真正的电影，你根本不知道下一秒是不是就突然切换了镜头或是突然出现字幕块，这样的一帧被作为跟随帧的话，其包含的变化量信息就会极大化，完全可以将其作为一个关键帧来节约资源（关于字幕问题见注 3）。所以， FLV 压制器其实包含了一些很高级的判断算法，关于算法详细请参考相关文献。另一个，关于跟随帧的算法其实就相对前面那个简单的多了，就是一种类似于相减/求导的做法，单独的一个跟踪帧直接画在 flash编辑器里面

13、就是一片黑（ PNG 的透明）外加极少的变化点（加入颜色 /加入反色作为颜色的消除）。跟随帧的问题是，每个关键帧中间应该留有多少跟随帧。正如刚刚说的，关键帧之间并未固定长度，那么跟随帧的数量就也需要随之变化，在处理高频画面时加入高密度跟随帧（局部提高帧数可以通过script 部分实现）还是提高关键帧的数量也是一种必要的权衡（当然要是不太介意画质的话，固定帧率就可以了）。所以说 FLV 的数据优势其实是建立在算法的复杂之上的。不过，既然得到了普及，那么总体上来说就是人们普遍认为其优点完全可以掩盖缺点，就好像各位并不会对微信发送的小视频做过多的抱怨一样。值得一提的是，微信作为手机到手机的平台，

14、因为人们普遍手机摄像的保存格式就是 mp4，所以他是支持 mp4-mp4的直接传输的，前提是大小不超过其上限。很多时候，一旦用户发送的视频大小过大，他就会将其转换为 FLV 存至云端（是临时的，微信才不会给你预留那么多空间）并给其生成一个链接发给接收用户。对于接收者而言看到的就是一个和网页分享一样的东西（这方面的先驱是 Gmail，微信这些功能其实都算是借鉴的）。 5： FLV 等视频格式文件的对比实验使用工具软件： adobe pr/media coder/格式工厂 /bandicam(视频录制器 )/goldwave（音乐编辑器）如表 2所示可以清晰的看出 FLV能在体积和画质中

15、间达到平衡，但是编码要求时间较大的问题。另外，除了 pr 其他几个软件都没有识别出静态图像，依然按照默认的每隔数帧加入例行关键帧，导致静态图压缩比率相对极低。视频静态游戏新闻体积平均画质色彩动态效果编码时间音乐保真 AVI(源 ) 2.27m 7.05G 177m 最大最大最大最大最大最大 / 最大最大 / / / /无声高高 FLV 1.76m* (在 pr中是 0.3m) 631m 22.0m 优中优优优人边缘有误 / 帧数下降可以接受没有可视问题中高中 / 中中 MP4 1.81m 1.31G 37.3m 优优优优饱满

16、优 / 有效观看有效观看中高高 / 高中 WMV 2.01m 870m 38.9m 优中中优有偏差人物色调不正常 / 丢帧没有可视问题中低低杂音出现低中表 2 6：关于新时代视频 /影像文件的参考新时代对视频的定义正在扩展，人们希望在VR/AR 技术的支持下，享受 3D 化的画面。注意到我们现有的 VR 技术本质上还是 2D 的画面，只是通过与人眼相同的双 2D 组合的方法加上运动判别器调整，“欺骗”了大脑。 3D 化真正的目标当然不止于此。目前在这方面做尝试的软件不少，例如 blender系列，基本是基于框架式构建来搭积木（如图 3），最后就可以生成真

17、实 3D 建模的物体。但是这是生成端的问题，对于接收端，你不可能要求他拥有和发送端相同的库来重构建这个物体，所以必须要有一种记录三维信息的新算法。目前人们暂定的答案还不够完美，就是基于 FLV 的关键帧算法，记录三维坐标下的数据。但是，因为三维导致了数据总量的激增和变化运动的复杂化，这个类 FLV 的格式在算法上遇到了极大的挑战。最新的研究寄希望于不在利用点作为单位，而是采取一部分基础形状比如球来模拟运动，减少计算量，然而形式也并不乐观。附注：注 1：根据医学研究，这个 12画面是有水分的，人脑自己也用到了一种类似关键帧的记忆方法，对连续变化的自然世界就好像是 12fps 的高频率，

18、其实真的不断突变的视频，人类连 6fps 都看不清。关于这个问题曾经还出现过著名的“ 3d 龙事件”，一个过高频的强色调突变视频对人体造成的直接伤害的例子（原视频理论已被封杀，且不建议观看）。注 2： mp4是个很丰富的视频格式，他支持的媒体类别其实远大于 FLV，但是也同时导致他需要预加载各种各样的库文件来对其进行支持，即被称为mp4文件头部的巨大数据，这会严重影响即时下载的网络视频的观看感。另一个， mp4文件本身数据结构为“头部 +段大小 +偏移指针”的类型，与普通的电脑文件为同样的分段存储方式。但是，因为这是视频文件，数据独占，其实根本不能发挥分段结构的数据区分享扩大的功能，反倒是

19、物理上不连续而且长度不定的数据段导致了断点续传 /边读取边使用都是几乎不可能的，只能将所有需要的文件一起配好才能正常的播放，这是极大的劣势。所以这个格式最终被网络视频站完全停用，只留作 FLV 的生成源 /视频下载保存源等用途。注 3：常常字幕被认为是一种剧烈突变，这个是没有问题的。在你压制一个自带字幕的视频的时候，一定会发现字幕出现位置被编辑成了关键帧，同时体积偏大，因为这些字也是被当成图形来处理的。但是，在你自己去用 ass 等文件生成字幕的时候，他就知道这个是字幕而非图形，会被编辑入script 部分，从而不产生额外的图形数据。参考文献：【 1】 MP4共享 FLV 数据研究与实现李兴华，杨天奇【 2】浅谈 FLV 视频格式刘智国【 3】网络视频格式比较研究董从斌

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？