1、WindowWindows 环境下的麦克风录音系统简介本文简单介绍了声卡的工作原理、录 音的原理以及数字音频的基本知识并且利用Windows提供的Waveform Aduio APIs以及Multimedia File I/O APIs实现一个Windows环境下的麦克风录音以及将录音文件保存成*.wav文件的简单系统。关键字Waveform Aduio APIs,Multimedia File I/O APIs,waveInXXX,mmioXXX,麦克风,录音,波形文件,VC6+要深入的了解麦克风录音的实现,我们必须了解声卡的工作原理,麦克风录音的原理以及了解相关的编程接口。1.声卡的工作原
2、理麦克风和喇叭所用的都是模拟信号,而电脑所能处理的都是数字信号,两者不能混用,声卡的作用就是实现两者的转换。从结构上分,声卡可分为模数转换电路和数模转换电路两部分,模数转换电路负责将麦克风等声音输入设备采到的模拟声音信号转换为电脑能处理的数字信号,而数模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备能使用的模拟信号。上图就是一块典型的声卡,Mic插口用于连接麦克风,通过它可以录制外界的声音2.数字音频基础知识麦克风录音的过程其实就是将模拟信号转化成数字信号的过程,其中涉及的概念如下:1.采样率 (Sampling Rate)采样率指声卡在一秒之中对声音(波形)作记录的次数,根据研究声音播
3、出时的质量常常只能达到采样率的一半,因此必须采取双倍的采样率才能将声音标准重现,也就是只要采样率大于原始信号频率的两倍以上即可减低错误,达到和原始声音差不多的质量。人的听力大概是20KHZ,所以高品质的采样率应为其两倍以上。当声音来源为音乐时,因为它所横跨的频率变化极为宽广,通常以44.1KHZ的频率为CD音乐采样率的标准,但是若以语言为主由于人说话的语音大概是 10KHZ,因此加倍采样,只取22KHZ即可,采样率越高所记录下来的音质就越清晰,越高的采样所记录下的文件就越大。2.采样位解析度决定了采样的音波是否能保持原来的形状,越接近原型则需解析度越高,若以8位来采样的话其能表达的组合种类是2
4、的8次方,即256,表示用8位的采样大小能分辨出256个层次的声音,若用16位来采样,则能分辨的差异将高 2 的 16次方,为65536,其精度自然大为提高。16位、8位采样的差别在于动态范围的宽窄,动态范围宽广,音量起伏的大小变化就能够更精细的被记录下来,如此一来不论是细微的声音或是强烈的动感震撼,都可以表现的淋漓尽致,而CD音质的采样规格正式16位采样的规格。3.量化误差 (Quantization error) 在采样的过程中,不断连续变化的模拟信号要用数字化的数值来表示,这样的过程就会发生所谓的量化误差(Quantization error)。所谓的量化误差指的是实际的信号的振幅(sm
5、plitude)和数字化之后所的数字之间的差异。如果用将数字信号还原成模拟信号的角度看,量化误差就是失真(Distortion)。我们可以用增加采样大小的方式来降低量化误差,也就是更多的位(bits)来表示一个采样信号,这样可以提高精度。4.量化(Quantization),线性量化法 (Linear quantization)和非线性量化法(Nonlinear quantization)所谓的量化(Quantization)就是将模拟信号所代表的连续范围分成一段一段的区间 (Interval),每一段区间我们定义一个数字化的值。区间的数目是跟采样大小有关,举例来说,有一种最简单的量化法称为“
6、线性量化法”(Linear quantization),这种量化法采用等距离的间隔空间,架设一个讯号它的最大值是5.0,采样大小为3位,则每个量化区间就时5.0/23,也就是0.625单位。另外一种相反的量化方法就是“非线性量化法”(Nonlinear quantization),这种量化法采用不同的间隔空间。以“对数量化法”(Logarithm quantization) 为例。低振幅范围的量化区间就比高振幅的范围的区间较为接近,用这种量化的法产生的结果就是在低振幅时我们会得到佳好的效果。通常如果使用同样的采样大小,非线性量化法会比线性量化法得到更好的声音品质。但是如果是要对声音做滤波(fi
7、ltered)或一些运算的时候,使用线性量化法会比较容易处理。5.声音强度 波形振幅的平方。两个声音强度上的差常以分贝(db)为单位来度量,计算公式如下:20*log(A1/A2)分贝, A1,A2为两个声音的振幅。a.如果采样大小为8位,则采样的动态范围为20*log(256)分贝=48db;b.如果样本大小为16位,则采样动态范围为20*log(65536)大约是96分贝,接近了人听觉极限和痛苦极限,是再现音乐的理想范围,windows同时支持8位和16位的采样大小。6.音频编码方法 目前已经发展了许多音频编码的方法用以减少存储量或是传输的时间,以下所列为两种较普遍的编码方法:a.PCM(
8、Pulse code modulation);脉冲编码调制,即对波形按照固定周期频率采样。为了保证采样后数据质量,采样频率必须是样本声音最高频率的两倍,这就是Nyquist频率。b.ADPCM(Adaptive delta pulse modulation)。3.RIFF文件结构和WAVE文件格式Windows支持两种:RIFF(Resource Interchange File Format,“资源交互文件格式“)格式的音频文件MIDI的RMID文件和波形音频文件格式WAVE文件,其中在计算机领域最常用的数字化声音文件格式是后者,它是微软专门为Windows 系统定义的波形文件格式(Wave
9、form Audio),由于其扩展名为“*.wav“,因而该类文件也被称为WAVE文件。本文涉及到的声音文件所指的就是WAVE文件。常见的WAVE语音文件主要有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。这里的采样率是指声音信号在进行“模数“转换过程中单位时间内采样的次数。采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为八位的短整数(short int 00H-FFH );而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAVE文
10、件数据块包含以脉冲编码调制(PCM)格式表示的样本。在进行声音编程处理以前,首先让我们来了解一下RIFF文件和WAVE文件格式。RIFF文件结构可以看作是树状结构,其基本构成是称为“块“(Chunk)的单元,每个块有“标志符“、“数据大小“及“数据“所组成,块的结构如图2所示:块的标志符(4BYTES)数据大小 (4BYTES)数据图 2从上图可以看出,其中“标志符“为4个字符所组成的代码,如 “RIFF“, “LIST“等,指定块的标志ID;数据大小用来指定块的数据域大小,它的尺寸也为4个字符;数据用来描述具体的声音信号,它可以由若干个子块构成,一般情况下块与块是平行的,不能相互嵌套,但是有
11、两种类型的块可以嵌套子块,他们是“RIFF“或“LIST“标志的块,其中RIFF块的级别最高,它可以包括LIST块。另外,RIFF块和LIS 块与其他块不同,RIFF块的数据总是以一个指定文件中数据存储格式的四个字符码(称为格式类型)开始,如WAVE文件有一个“WAVE“的格式类型。 LIST块的数据总是以一个指定列表内容的4个字符码(称为列表类型)开始,例如扩展名为“.AVI“的视频文件就有一个“strl“ 的列表类型。RIFF 和 LIST 的块结构如下:RIFF/LIST 标志符数据 1 大小格式/ 列表类型 数据 1 数据图 3WAVE文件是非常简单的一种RIFF文件,它的格式类型为“
12、WAVE“。RIFF 块包含两个子块,这两个子块的ID分别是“fmt“和“data“, 其中“fmt“子块由结构PCMWAVEFORMAT所组成,其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。WAVE文件的结构如下图4所示:标志符( RIFF ) 数据大小格式类型(“WAVE“)“fmt“Sizeof(PCMWAVEFORMAT) PCMWAVEFORMAT “data“声音数据大小 声音数据 图 4PCMWAVEFORMAT 结构定义如下:typedef structWAVEFORMAT wf; / 波形格式 , 前面已经
13、提过了;WORD wBitsPerSample;/ WAVE 文件的采样大小;PCMWAVEFORMAT“data“子块包含WAVE文件的数字化波形声音数据,其存放格式依赖于“fmt“子块中wFormatTag成员指定的格式种类,在多声道WAVE文件中,样本是交替出现的。如16bit的单声道WAVE文件和双声道WAVE文件的数据采样格式分别如图5所示:16位单声道:采样一 采样二 低字节 高字节 低字节 高字节 16 位双声道:采样一 左声道 右声道 低字节 高字节 低字节 高字节 图 54.硬件抽象层(HAL,Hardware Abstraction Layer)HAL是一个可加载的核心模块
14、(HAL.dll),它为运行在Windows NT架构(包括 WindowsNT4.0,Windows2000,WindowsXP)上的硬件平台提供低级接口,HAL隐藏各种与硬件有关的细节,例如:I/O接口、中断控制器、声卡如果用户需要访问声卡硬件只能通过该声卡的驱动程序来实现,声卡驱动程序再调用HA 中的相应例程来实现,下图显示了HAL、声卡驱动程序、Waveform Audio APIs、麦克录音程序之间的关系:图 65.Waveform AudioWaveform Audio APIs是Microsoft提供给Win32程序员用来给应用程序添加声音支持的一套强大的API,它提供的功能如下
15、:1.打开/关闭/ 查询声音设备;2.播放波形文件;3.设置播放速度;4.播放进度控制; 5.录音;6.得到当前的播放位置;7.调节音量。API提供的主要函数: 打开录音设备函数MMRESULT waveInOpen(LPHWAVEIN phwi, / 输入设备句柄 UINT uDeviceID, /输入设备 ID LPWAVEFORMATEX pwfx, /录音格式指针DWORD dwCallback, /处理 MM_WIM_* 消息的回调函数或窗 /口句柄,线程 ID DWORD dwCallbackInstance,DWORD fdwOpen /处理消息方式的符号位 ); 为录音设备准备
16、缓存函数MMRESULT waveInPrepareHeader( HWAVEIN hwi,LPWAVEHDR pwh,UINT bwh); 给输入设备增加一个缓存 MMRESULT waveInAddBuffer( HWAVEIN hwi,LPWAVEHDR pwh,UINT cbwh); 开始录音MMRESULT waveInStart( HWAVEIN hwi ); 清除缓存MMRESULT waveInUnprepareHeader(HWAVEIN hwi,LPWAVEHDR pwh,UINT cbwh); 停止录音MMRESULT waveInReset( HWAVEIN hwi )
17、; 关闭录音设备MMRESULT waveInClose( HWAVEIN hwi );Wave_audio 数据格式 typedef struct WORD wFormatTag; /数据格式,一般为 WAVE_FORMAT_PCM/即脉冲编码 WORD nChannels; / 声道 DWORD nSamplesPerSec; / 采样频率 DWORD nAvgBytesPerSec; / 每秒数据量 WORD nBlockAlign; WORD wBitsPerSample; / 样本大小 WORD cbSize; WAVEFORMATEX; waveform-audio 缓存格式typ
18、edef struct LPSTR lpData; / 内存指针 DWORD dwBufferLength; / 长度 DWORD dwBytesRecorded; / 已录音的字节长度 DWORD dwUser; DWORD dwFlags; DWORD dwLoops; / 循环次数 struct wavehdr_tag * lpNext; DWORD reserved; WAVEHDR; 相关消息MM_WIM_OPEN: 打开设备时消息,在此期间我们可以进行一些初始化工作 MM_WIM_DATA:当缓存已满或者停止录音时的消息,处理这个消息可以对缓存进行重新分配,实现不限长度录音MM_W
19、IM_CLOSE:关闭录音设备时的消息。6. Multimedia File I/O Multimedia File I/O APIs是Microsoft提供的另外一套强大的针对媒体文件I/O的 API,像MediaPlay、RealOne这样的多媒体程序对媒体文件的读写性能要求很高,它们几乎要求实时的将磁盘上的媒体文件以流的形式读入,但是对于一般的文件I/O形式如图1:1.文件从磁盘上被读入操作系统的File I/O的buffer;2.然后拷贝到应用程序自己的buffer中; 3.应用程序这时候才能读取文件内容。上述的过程对于多媒体应用程序来说是低效的而且浪费宝贵的内存资源,如果文件过大势必
20、还要采取分段读取等机制,Multimedia File I/O 采取了一种直接存取机制(如图2),使得应用程序可以直接读取操作系统的File I/O buffer,大大提高了效率。后面我们会利用此套API实现录音文件的存储。7. 麦克录音系统简介 本文实现的麦克录音系统将具备以下功能 : 1.录制用户通过麦克风发出的声音;这将利用到 Waveform APIs,流程如下:a.打开录音设备waveInOpen; b.准备wave数据头waveInPrepareHeader; c.准备数据块waveInAddBuffer; d.开始录音waveInStart; e.停止录音(waveInReset
21、); f. 关闭录音设备(waveInClose); g.当开始录音后当buffer已满时,将收到MM_WIM_DATA消息,处理该消息可以保存已录好数据。2.根据用户的声音强弱动态显示声音波形;这主要通过 GDI 函数来实现。3.将用户通过麦克风发出的声音录制成wav文件保存。这将利用到 Multimedia file I/O APIs。a调用mminoOpen函数来打开WAVE文件,获取HMMIO类型的文件句柄;b根据WAVE文件的结构,调 mmioRead、mmioWrite和mmioSeek函数实现文件的读、写和定位操作;c调用mmioClose 函数来关闭WAVE文件。 8. 麦克录
22、音系统的实现 (MicDemo)下面是该系统的界面:对于录音来说最重要的就是CSoundIn类,下面就是该类的定义:namespace perdubug /prevent the name-space pollution class CSoundInpublic :BOOL _initMic(); /get the best wave format supported by your sound card/ and then i will use the format to capture sound.void _closeMic();BOOL _openMic();/open device
23、and begin to capture with the best format(when/ invoke _initMic function then you will get the best format/ supported by hosts sound card/ if your want to capture sound and export into a wav file please invoke this function/ to tell me the full path then i will create the wav file./void _createOutpu
24、tWaveFile( const TCHAR * lpszFileName);/ if you invoke any member function return error/false please/ use this function to get the result DWORD _getLastError();/ when the capture buffer is filled please invoke this function to add buffer(Actually/ you should create two-circular buffers,when 1st buffer is filled then switch to 2st,1st buffer will be wrote into wav file./void AddBuffer();virtual CSoundIn();friend CSoundIn
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。