1、基于局域网的视频聊天室系统的设计与实现摘 要视频聊天系统作为一种新型的通信和交流工具,突破了地域的限制,可以提供更为便捷、灵活、全面的音、视频信息的传递和服务,具有极其广泛的发展前景。本文介绍了采用 Microsoft Visual C+ 6.0 编程开发视频聊天系统的一套比较常用的解决方案。文字聊天采用 TCP 模式;语音视频聊天采用 UDP 模式,在客户端之间点对点的进行。在该方案中,通过函数库 VFW 来实现视频捕获、影像压缩以及影像播放。微软公司提供的专门用于视频捕获开发的工具包VFW,为在 Windows 操作系统中实现视频捕获提供了标准的接口,从而大大降低了程序的开发难度。在视频传
2、输方面,则通过组建视频帧,将位图形式的视频帧压缩成帧格式的 Mpeg4 流,传输到客户端后,解压并显示影像。同时,在本方案中,采用了线程来实现语音录制和语音回放,最终实现了通过服务器中转的文字聊天、点对点的语音视频聊天。关键词:文字聊天;VFW;视频捕获;视频传输;语音录制;语音回放The Design and Realization of LAN-Based Video Chat Room SystemAbstractAs a new tool about communication, video chatting system has broken through geographical
3、 restrictions, has provides more convenient, flexible and complete transmission and service. Furthermore, it has a very bright future.The common solution about how to develop a video chatting system is introduced by the Microsoft Visual C + + 6.0 programming. TCP model is used in the text chatting a
4、nd UDP for the point-to-point video chats between the Clients. In this plan, Video Capture, Video Compression Manager and DrawDib are realized by the functions of VFW Library. The special kit VFW (Video for Windows) in video capture offered by Microsoft Corporation, has provided a standard interface
5、 for video capture in Windows Operating System and thus greatly reduced the hardship of programming. In video transmission aspect, it requires a video frame which is compressed the video frame of bitmap into Mpeg4 steam of frame form. Then it will be decompressed into images since it has been arrive
6、d the Client. Meanwhile, the thread is used to achieve audio recording and replaying. Finally, it has realized the text chatting through a server to transit, the point-to-point audio and video chats.Key words: text chatting; VFW; Video Capture; video transmission; audio recording; audio playing目 录论文
7、总页数:24 页1 引言 .11.1 课题背景 .11.2 国内外研究现状 .12 理论知识介绍 .12.1 VFW 简介 .12.2 线程的实现方法 .43 需求分析 .53.1 软硬件环境 .53.2 需求分析 .54 系统结构 .74.1 硬件结构 .74.2 软件结构 .74.2.1 功能需求 .74.2.2 系统功能模块图 .84.3 系统各模块流程图 .85 系统的详细设计 .105.1 文字聊天 .105.1.1 TCP 套接字的运用 .105.1.2 文字聊天实现 .115.2 语音视频聊天 .135.2.1 UDP 套接字 的运用 .135.2.2 视频的捕获 .145.2.
8、3 捕获窗口 .165.2.4 视频捕获驱动 .185.2.5 语音录制 .185.2.6 语音回放 .195.2.7 视音频的传输 .20结 论 .21参考文献 .22致 谢 .23声 明 .24第 1 页 共 24 页1 引言1.1 课题背景随着 Internet 的不断发展普及,网络通讯越来越被千家万户所接受,成为人们生活中的一部分。网络聊天已和手机等一样,成为人们运用最为广泛的通信工具之一。本毕业设计的目的主要是为了满足人们通讯交流的便捷,实现灵活、全面的音、视频信息的传递和服务。模拟腾讯公司的 QQ 聊天软件,开发一个多功能的聊天系统软件,本毕业设计主要实现视频语音聊天、文字聊天等功
9、能。1.2 国内外研究现状随着网络宽带业务的推广与普及,加之视频产品设备(如摄像头、耳机、麦克风等)的成熟,普通用户可以轻松地借助网络视频通讯软件,实现“面对面”的网络交流。信息的无限量扩大,交通工具的便捷,视频技术的充分应用等导致了行业间竞争的全球化,这就要求现代部门、企业要具备更加灵敏的神经,更扁平化的管理,更快速的反应和决策,更贴切的市场宣传和服务。所有这一切是由信息技术的发展所带来的,同样也要求有先进的信息技术来提高部门、企业的竞争力。现代通讯已经是越来越普及了,必须有效合理的运用视频产品类设备来提高信息的传递和交流。在同一个局域网中,充分、合理的运用摄像头、耳机、麦克风等设备来实现文
10、字聊天和语音视频聊天更是我们生活、学习、工作的便利所在。2 理论知识介绍2.1 VFW 简介VFW 是 Microsoft 1992 年推出的关于数字视频的一个软件包,它能使应用程序数字化并播放从传统模拟视频源得到的视频剪辑。VFW 的一个关键思想是播放时不需要专用硬件,为了解决数字视频数据量大的问题,需要对数据进行压缩。它引进了一种叫 AVI 的文件标准,该标准未规定如何对视频进行捕获、压缩及播放,仅规定视频和音频该如何存储在硬盘上,以及在 AVI 文件中交替存储视频帧和与之相匹配的音频数据。VFW 给程序员提供 VBX 和 AVICap 窗口类的高级编程工具,使程序员能通过发送消息或设置属
11、性来捕获、播放和编辑视频剪辑。用户不必专门安装 VFW,在安装 Windows 时,安装程序会自动地安装配置视频所需的组件,如设备驱动程序、视频压缩程序等。VFW 主要由以下六个模块组成:(1) AVICAP.DLL:包含了执行视频捕获的函数,它给 AVI 文件、I/O 和视频音频设备驱动程序提供一个高级接口;(2) MSVIDEO.DLL:用一套特殊的 DrawDib 函数来处理屏幕上的视频操第 2 页 共 24 页作;(3) MCIAVI.DRV:此驱动程序包括对 VFW 的 MCI 命令的解释器;(4) AVIFILE.DLL:支持由标准多媒体 I/O(mmio)函数提供的更高的命令来访
12、问 AVI 文件;(5) 压缩管理器(ICM):管理用于视频压缩/解压缩的编解码器(CODEC) ;(6) 音频压缩管理器 ACM:提供与 ICM 相似的服务,不同的是它适于波形音频。Visual C+在支持 VFW 方面提供有 vfw32.lib、msacm32.lib、winmm.lib等库。特别是它提供了功能强大、简单易行、类似于 MCIWnd 的窗口类AVICap。AVICap 为应用程序提供了一个简单的、基于消息的接口,使之能访问视频和波形音频硬件,并能在将视频流捕获到硬盘上的过程中进行控制。AVICap 支持实时的视频流捕获和单帧捕获,并提供对视频源的控制。虽然MCI 也提供数字视
13、频服务,比如,它为显示 AVI 文件的视频提供了 AVIVideo 命令集,为视频叠加提供了 overlay 命令集,但这些命令主要是基于文件的操作,不能满足实时地直接从视频缓存中获取数据的要求。对于使用没有视频叠加能力的捕获卡的 PC 机来说,用 MCI 提供的命令集是无法捕获视频流的。而AVICap 在捕获视频方面具有一定的优势,它能直接访问视频缓冲区,不需要生成中间文件,实时性很强,效率很高。同时,它也可将数字视频捕获到文件。在视频捕获之前需要创建一个捕获窗,所有的捕获操作及其设置都以它为基础。用 AVICap 窗口类创建的窗口(通过 capCreateCaptureWindow 函数创
14、建)被称为“捕获窗” ,其窗口风格一般为 WS_CHILD 和 WS_VISIBLE。实际上,捕获窗类似于标准控制(如按钮、列表框等) 。捕获窗具有下列功能:(1) 将视频流和音频流捕获到一个 AVI 文件中;(2) 动态地同视频和音频输入器件连接或断开;(3) 以 Overlay 或 Preview 模式对输入的视频流进行实时显示;(4) 在捕获时可指定所用的文件名并能将捕获文件的内容拷贝到另一个文件;(5) 设置捕获速率;(6) 显示控制视频源、视频格式、视频压缩的对话框;(7) 创建、保存或载入调色板;(8) 将图像和相关的调色板拷贝到剪贴板;(9) 将捕获的一个单帧图像保存为 DIB
15、格式的文件。AVICap 在显示视频时提供的两种模式:第 3 页 共 24 页(A)预览(Preview)模式:该模式使用 CPU 资源,视频帧先从捕获硬件传到系统内存,接着采用 GDI 函数在捕获窗中显示。在物理上,这种模式需要通过 VGA 卡在监视器上显示。(B)叠加(Overlay)模式:该模式使用硬件叠加进行视频显示,叠加视频的显示不经过 VGA 卡,叠加视频的硬件将 VGA 的输出信号与其自身的输出信号合并,形成组合信号显示在计算机的监视器上。只有部分视频捕获卡才具有视频叠加能力。灵活编写 AVICap 提供的回调函数还可满足一些特殊需求。比如,将宏capCaptureSequenc
16、eNoFile 同用 capSetCallbackOnVideoStream 登记的回调函数一起使用,可使应用程序直接使用视频和音频数据。在视频聊天的应用程序中可利用这一点来获得视频帧,回调函数将捕获的图像传到远端的计算机。应用程序可用捕获窗来登记回调函数(由用户编写,而由系统调用) ,以便在发生下列情况时,它能通知应用程序,作出相应的反应:捕获窗状态改变;出错;视频帧和音频缓存可以使用;在捕获过程中,其它应用程序处于让步(Yield)地位。视频捕获编程也要用到涉及视频捕获的结构、宏、消息和函数。令人高兴的是,发送 AVICap 窗口消息所能完成的功能都能调用相应的宏来完成。例如,SendMe
17、ssage(hWndCap,WM_CAP_DRIVER_CONNECT,0,0L)与capDriverConnect(hWndCap,0)的作用相同,都是将创建的捕获窗同视频输入器件连接起来。视频部分主要是利用 Video Capture 函数库来获取影像的。Video Capture主要提供下列功能:连接驱动程序;获取影像、声音资料,并显示在屏幕上或者是存成 AVI 文件;获取单张影像显示在屏幕上,拷贝至剪贴簿,或者是存成DIB(Device-Independent Bitmap)文件。Video Capture 的主要结构:结构体 CAPTUREPARAMS 主要包含一些获取图像的参数:D
18、WORD dwRequestMicroSecPerFrame 代表相邻两个 frame 的获取时间间隔;BOOL fYield 值为 TRUE,则表示 Windows 会以另一个 thread 来捕获影像,值为FALSE,程序会在捕捉影像后显示忙碌状态;BOOL fCaptureAudio 其值表示是否需要同时获取声音资料。结构体 BITMAPINFO 和点阵图有关,主要定义了影像获取之后显示在屏幕上、存储在文件中的格式,它包含两个成员:BITMAPINFOHEADER bmiHeader 描述影像性质的结构,其成员记载了影像的大小、颜色深度和压缩的方式,该成员在Video Capture、V
19、ideo Compression Manager 和 DrawDib 函数库中,以及有关第 4 页 共 24 页于点阵图的应用中;RGBQUAD bmiColors 指向 color table 第一个元素的位置。结构体 COMPVARS 主要是记录所有和压缩相关的信息,重要的成员:DWORD fccHandler 为 compressor 句柄;LPBITMAPINFO lpbiIn 指向待压缩影像BITMAPINFO 的指标;LPBITMAPINFO lpbitOut:指向压缩完影像 BITMAPINFO 的指标;LONG lKey 代表 key-frame rate,而所谓 key fr
20、ame 是指此 frame 在解压缩时不需要依赖前面的 frame;LONG lQ 代表影像压缩后的品质,取值为110000 的整数。Video Compression Functions 主要记录压缩功能相关的信息,其包含的比较重要的成员:ICLocate 输入指向压缩前后 BITMAPINFO 的指标,以及欲使用的 codecs;ICCompressorChoose 呼叫一个系统内建的对话,其中包含所有可能使用的 codes 以及其相关参数;ICCompressQuery 询问 compressor 是否支持某种压缩方式,输入参数为 compressor handle 及指向压缩前后 BI
21、TMAPINFO 的指标,此函数会传回询问结果;ICCompressBegin 要求系统准备相关资源以供压缩之用;ICCompress 压缩某个 frame;ICCompressEnd 归还相关资源给系统;ICDompressQuery 询问 decompressor 是否支持某种解压缩方式;ICDompressBegin 要求系统准备相关资源以供解压缩之用;ICDompress 解压缩某一个 frame;ICDompressEnd 归还相关资源给系统;ICDompressFree 归还COMPVARS 所占用的资源。2.2 线程的实现方法线程是一个独立的执行流,是进程内部的一个独立的执行单元
22、,相当于一个子程序,它对应于 Visual C+中的 CWinThread 类对象。单独一个执行程序运行时,缺省地包含了一个主线程,主线程以函数地址的形式出现,提供程序的启动点,当主线程终止时,进程也随之终止。根据实际需要,应用程序可以分解成许多独立执行的线程,每个线程并行的运行在同一进程中。一个进程中的所有线程都在该进程的虚拟地址空间中,使用该进程的全局变量和系统资源。操作系统给每个线程分配不同的 CPU 时间片,在某一个时刻,CPU 只执行一个时间片内的线程,多个时间片中的相应线程在 CPU 内轮流执行,由于每个时间片时间很短,所以对用户来说,仿佛各个线程在计算机中是并行处理的。操作系统是
23、根据线程的优先级来安排 CPU 的时间,优先级高的线程优先运行,优先级低的线程则继续等待。Windows 提供了两种线程:用户界面线程和工作线程(又称为后台线程) 。用户界面线程通常用来处理用户的输入并响应各种事件和消息,其实,应用程序的主执行线程 CWinApp 对象就是一个用户界面线程,当应用程序启动时自动第 5 页 共 24 页创建和启动,同样它的终止也意味着该程序的结束,进程终止。工作线程用来执行程序的后台处理任务,比如计算、调度、对串口的读写操作等,它和用户界面线程的区别是它不用从 CWinThread 类派生来创建,对它来说最重要的是如何实现工作线程任务的运行控制函数。工作线程和用
24、户界面线程启动时要调用同一个函数的不同版本;一个进程中的所有线程共享它们父进程的变量,但同时每个线程可以拥有自己的变量。这里主要介绍用户界面线程的运用:(1) 线程的启动创建一个用户界面线程,首先要从类 CwinThread 产生一个派生类,同时必须使 DECLARE_DYNCREATE 和 IMPLEMENT_DYNCREATE 来声明和实现这个CwinThread 派生类。第二步是根据需要重载该派生类的一些成员函数如:ExitInstance() 、InitInstance() 、OnIdle() 、PreTranslateMessage()等函数。最后调用 AfxBeginThread(
25、)函数的一个版本:CWinThread* AfxBeginThread (CRuntimeClass* pThreadClass,int nPriority = THREAD_PRIORITY_NORMAL, UINT nStackSize = 0, DWORD dwCreateFlags = 0, LPSECURITY_ATTRIBUTES lpSecurityAttrs = NULL)启动该用户界面线程,其中第一个参数为指向定义的用户界面线程类指针变量,第二个参数为线程的优先级,第三个参数为线程所对应的堆栈大小,第四个参数为线程创建时的附加标志,缺省为正常状态,如为 CREATE_SUSP
26、ENDED 则线程启动后为挂起状态。(2) 线程的优先级CwinThread 类的成员函数用于线程优先级的操作:int GetThreadPriority() ;BOOL SetThradPriority()(int nPriority);(3) 线程的挂起和恢复CWinThread 类中包含了应用程序挂起和恢复它所创建的线程的函数,其中SuspendThread()用来挂起线程,暂停线程的执行;ResumeThread()用来恢复线程的执行。如果你对一个线程连续若干次执行 SuspendThread() ,则需要连续执行相应次的 ResumeThread()来恢复线程的运行。(4) 结束线程
27、终止线程有三种途径,线程可以在自身内部调用 AfxEndThread()来终止自身的运行;可以在线程的外部调用 BOOL TerminateThread(HANDLE hThread, DWORD dwExitCode)来强行终止一个线程的运行,然后调用 CloseHandle()函数释放线程所占用的堆栈;第三种方法是改变全局变量,使线程的执行函数返回,则该线程终止。第 6 页 共 24 页3 需求分析3.1 软硬件环境电脑两台以上,分别配有摄像头、麦克风、音箱或耳机等外部设备;Windows XP 系统,Microsoft Visual Studio 6.0 编程开发系统等。3.2 需求分析
28、在同一个局域网中,如何根据自身业务的要求,量身定制,对视频设备进行合理搭配,选择一套合理的视频聊天室系统。如何来满足局域网内部用户的通讯要求,在考虑到网络带宽的同时,提高视频清晰度,动态画面的流畅,语音的实时传输等,正是现代社会通讯所必需的。设计本系统时,分析网络承载、整个系统结构的组建等是实现局域网文字聊天和语音视频聊天所必需的。文字、语音视频聊天作为一种广泛的网络应用对其基础的承载网络环境有着较高的网络要求。其中应重点考虑的是网络的带宽情况、端到端的时延、时延抖动、丢包率等问题。(1)网络带宽需求,视频聊天对网络的带宽需求为“视频带宽+IP 包头开销” ,计算方法为:网络带宽 = 视频带宽
29、 1.2。(2)端到端的时延,网络传输不可避免的会发生传输时延,通常建议视频聊天的通用时延小于 150ms。(3)时延抖动,由于音频/视频的传输为实时的交互,因此网络的时延抖动更为重要,一般,视频聊天的时延抖动控制在 50ms 内。(4)丢包率,网络数据传输经常会出现丢包现象,视频传输过程中数据丢包严重的话会影响在线视频聊天质量。因此,在设计上应将网络上的丢包率控制在 1%以内。视频聊天对实时性要求较高的网络应用,作为其基础的承载网络有较高的宽带和对网络中的业务流量有较高的控制能力。而视频聊天系统本身对带宽的要求为 62kbit/s2Mbit/s,但是为了满足流畅的视音频效果,要求带宽不低于3
30、84kbit/s。文字、视频聊天的功能和应用效果体现在客户端,而服务器端则是必不可少的,对于系统的需求分析在系统设计的过程中应该明确、细致:(1) 文字聊天:首先启动服务器端,当用户启动客户端时,用服务器保存的用户名和密码来验证客户是否已经登录到服务器。只有当有两个以上的用户启动客户端时,才可以进行文字聊天,聊天内容要经过服务器中转,分别在服务器端和两个聊天的客户端显示聊天。(2) 语音视频聊天:在有两个客户在线的情况下,才能进行语音视频聊天。两个用户要进行语音视频聊天时,一个用户选中另一个用户的用户名,根第 7 页 共 24 页据该用户名在后台链表中的对应 IP 地址查找用户并请求视频连接。
31、当双方确认视频连接后就进行视频传输,并显示在客户端,同时用线程实现语音录制和回放。这样,两个用户就实现了点对点的语音视频聊天。在进行语音视频聊天的过程中,不能再与其它用户进行语音视频聊天,但能够与其它用户进行文字聊天。4 系统结构4.1 硬件结构该系统采用的是 Server/Client 结构,服务器端是一台 PC 机,而客户端是PC 机和一个数字摄像头、耳机和麦克风。它们进行文字聊天时,要经过服务器进行中转,而当进行语音视频聊天时是客户端与客户端之间直接进行的点对点的连接,它们之间的网络拓扑结构如图 1。在图中,为了简便,没有画出麦克风、音箱或耳机等外部设备。图 1 网络拓扑结构图4.2 软件结构4.2.1 功能需求通过需求调研并分析,确定系统具备的基本功能,包括:文字聊天、语音视频聊天。(1) 文字聊天:文字聊天采用的是 TCP 模式,包括服务器端和客户端。首先启动服务器端,客户端通过用户名和密码登录服务器,服务器响应客户端登录并提示有用户登录,此时两个用户就可以进行文字聊天,在文字聊天时通过服务器中转,而每个用户可以同时与多个用户进行文字聊天。当有用户退出时,服务器做出响应,提示在线用户,用户下线。