资源描述
多媒体信息处理,刘 刚
网络搜索教研中心
模式识别与智能系统实验室
liugang@bupt.edu.cn
2019年6月29日星期六,信息工程导论,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,2,信息与通信工程学院 liugang@bupt.edu.cn,1.概述,什么是多媒体
为什么要研究多媒体信息
信息处理流程
多媒体信息处理研究内容,2019年6月29日,3,信息与通信工程学院 liugang@bupt.edu.cn,1.1 什么是多媒体,媒体(Media)就是人与人之间实现信息交流的中介,简单地说,就是信息的载体,也称为媒介。
多媒体就是多重媒体的意思
可以理解为直接作用于人感官的文字、图形、图像、动画、声音和视频等各种媒体的统称,即多种信息载体的表现形式和传递方式。,2019年6月29日,4,信息与通信工程学院 liugang@bupt.edu.cn,,信息来源统计
根据美国哈佛商学院有关研究人员的分析资料表明,人的大脑每天通过五种感官接受外部信息的比例分别为:味觉1%,触觉1.5%,嗅觉3.5%,听觉11%,以及视觉83%。
主要的三个媒体
声音: 语音(语言的表达形式之一),音乐,音效(一般音频)
图像: 图形,图像,动画,视频
文本(抽象): 文本(语言的表达形式之一),数据等,2019年6月29日,5,信息与通信工程学院 liugang@bupt.edu.cn,1.2 为什么要研究多媒体信息,多媒体是信息载体的总称,是信息的承载形式或表现形式。
多媒体信息处理,实际上就是信息处理。
信息及其处理是当前时代的标志
信息处理是信息工程专业的使命
多媒体信息处理又有自身的特点,2019年6月29日,6,信息与通信工程学院 liugang@bupt.edu.cn,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,7,信息及其处理是当前时代的标志,社会发展史:
农业社会(物质资源)
扩展人的体质能力
工业社会(能量资源)
扩展人的体力能力
信息社会(信息资源)
扩展人的智力能力
没有物质什麽都不存在,没有能量什麽都不发生,没有信息什麽都没意义,信息处理是信息工程专业的使命,信息工程的使命
信息工程是面向信息通信行业,口径宽、适应面广的专业。该专业培养系统掌握信息传输和处理的基本理论和基本知识,掌握信息获取和应用的核心技术,能从事现代信息网络和智能信息系统的设计、开发、研究及运营等方面工作的高素质专门人才。,2019年6月29日,8,信息与通信工程学院
liugang@bupt.edu.cn,多媒体信息处理又有自身的特点,音频---随机
视频---随机
文本/数据---确定
多媒体融合,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,9,如何结合不同媒体的特点进行更好的信息处理
如何进行多个媒体的信息融合处理,1.3 信息处理的流程,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,10,信息处理的流程,信息科学基本原理,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,11,1.3 信息处理的流程,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,12,多媒体信息处理
主要研究与媒体相关的部分,1.4 多媒体信息处理研究内容,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,13,数字信号处理
数据采集技术,通信原理
信息处理与编码,模式识别
Web搜索,语音信号数字处理 , 数字图像处理,1.4 多媒体信息处理研究内容,研究如何更有效地产生、传输、存储、获取和应用多媒体信息
多媒体信息采集
多媒体通信/存储
多媒体编码/译码----信源编码
多媒体内容处理---智能信息处理
多媒体信息识别
多媒体信息检索
多媒体信息生成,2019年6月29日,14,信息与通信工程学院 liugang@bupt.edu.cn,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,15,信息与通信工程学院 liugang@bupt.edu.cn,2.多媒体信息采集,概述
传感器
模数转换/数模转换
噪声处理等预处理,2019年6月29日,16,信息与通信工程学院 liugang@bupt.edu.cn,2.1多媒体信息采集-概述,采集原则
不失真
有用信号不失真
噪声干扰小
处理过程
传感器采集
模数转换/数模转换
噪声处理等预处理,2019年6月29日,17,信息与通信工程学院 liugang@bupt.edu.cn,数据采集技术,2.2 传感器,传感器
transducer/sensor
一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出
两个功能
信号敏感
换能,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,18,2.2 传感器,传感器是人类五官的延长,又称之为电五官
光敏传感器——视觉
声敏传感器——听觉
气敏/化学传感器——嗅觉
化学传感器——味觉
压敏、温敏、流体
传感器——触觉,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,19,盐度传感器,2.2 传感器---Mic阵列,2019年6月29日,20,信息与通信工程学院 liugang@bupt.edu.cn,2.2 传感器---Mic阵列,2019年6月29日,21,信息与通信工程学院 liugang@bupt.edu.cn,2.2 传感器---Mic阵列,,2019年6月29日,22,信息与通信工程学院 liugang@bupt.edu.cn,针对复杂应用
如: 音源定位
远距离声音采集
声场分析等,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,2.3 模数转换,23,图像二值化等,2019年6月29日,24,信息与通信工程学院 liugang@bupt.edu.cn,2.3 预处理,噪声的去除和有用信息的初步提取
降噪
分割
检测
……,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,25,语音预处理,语音增强
语音端点检测,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,26,谱减法语音增强,,,Kalman滤波法,,2019年6月29日,27,图像的降噪,http://groups.google.com/group/dipr,信息与通信工程学院 liugang@bupt.edu.cn,2019年6月29日,28,图像增强,信息与通信工程学院 liugang@bupt.edu.cn,2019年6月29日,29,图像恢复,,运动模糊图像,恢复图像,信息与通信工程学院 liugang@bupt.edu.cn,2019年6月29日,30,图像的分割,信息与通信工程学院 liugang@bupt.edu.cn,周界检测系统,系统可以自动检测到进入到场景中的运动目标,判断是否进入设定警戒区域。
应用场景:机场,小区,军事禁区,2019年6月29日,31,信息与通信工程学院 liugang@bupt.edu.cn,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,32,信息与通信工程学院 liugang@bupt.edu.cn,3.多媒体通信和存储—多媒体编码,为什么要进行编码
信源编码---压缩,提高有效性
为什么可以压缩
信号本身的冗余度---语音
感知特性----人耳的听觉特性
语音--G.721,G.729,G.723.1 混合音频编码
图像--JPEG、JPEG2000
视频-- MPEG-1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG21,2019年6月29日,33,信息与通信工程学院 liugang@bupt.edu.cn,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,34,信息与通信工程学院 liugang@bupt.edu.cn,4. 多媒体信息识别,模式识别概述
语音识别
音频事件识别
图像识别
多模态模式识别,2019年6月29日,35,信息与通信工程学院 liugang@bupt.edu.cn,4.1 模式识别,模式识别(Pattern Recognition)
模式分类
模式识别是从模式到类别的映射
模式识别是模拟人的某些功能
模拟人的视觉: 计算机+光学系统--图像识别
模拟人的听觉: 计算机+声音传感器---语音识别
模拟人的嗅觉和触觉: 计算机+传感器
模式识别是从模式到类别的映射,2019年6月29日,36,信息与通信工程学院 liugang@bupt.edu.cn,模式识别在智能信息处理中的地位,,2019年6月29日,37,信息与通信工程学院 liugang@bupt.edu.cn,模式识别在信息处理中的地位,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,38,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,38,模式识别的原理框图,,,2019年6月29日,39,信息与通信工程学院 liugang@bupt.edu.cn,模式识别的原理,,4.2 语音识别,什么是语音识别
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。
分类
语音识别(内容)
特定人/非特定人,孤立词/连续语音/关键词识别
说话人识别/声纹
语种识别/方言识别
性别识别
情绪识别,母语/ 非母语,发音评价,疾病诊断,说话时吃东西?,2019年6月29日,41,信息与通信工程学院 liugang@bupt.edu.cn,演示系统,语音输入法/语音搜索
谷歌、百度、搜狗、讯飞、微信
语音问答系统
苹果 SIRI
计算机声控系统,2019年6月29日,42,信息与通信工程学院 liugang@bupt.edu.cn,4.3 音频事件识别,语音音频
音频事件识别
关键事件---安全监控
脚步声,关门开门声,枪声,玻璃破碎声,重物落地声,语音等
音频场景分析/情境计算
音视频摘要、检索,2019年6月29日,43,信息与通信工程学院 liugang@bupt.edu.cn,演示系统,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,44,4.4 图像识别,一、二维条码识别简单问题
文字识别、指纹识别、虹膜识别、掌纹识别、人脸识别、车牌识别……
物体识别,2019年6月29日,45,信息与通信工程学院 liugang@bupt.edu.cn,46,字符识别,脱机 offline OCR
联机 online 手写输入,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,2019年6月29日,47,,辽C79388,信息与通信工程学院 liugang@bupt.edu.cn,人脸识别,人脸识别是指通过人脸进行身份确认或者身份查找的技术
人脸图像采集
人脸定位
人脸识别预处理
身份确认以及身份查找等;,2019年6月29日,48,信息与通信工程学院 liugang@bupt.edu.cn,49,人脸检测,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,50,人脸识别,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,51,指纹识别,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,52,虹膜识别,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,生物特征识别,生物特征识别:未来的身份验证方法!
生物:指纹、虹膜、人脸、掌纹、手形、视网膜、红外温谱
行为:笔迹、步态、声纹,2019年6月29日,53,信息与通信工程学院 liugang@bupt.edu.cn,手势识别,体态识别
静止
运动
步态识别,2019年6月29日,54,信息与通信工程学院 liugang@bupt.edu.cn,物体识别(图像解析),2019年6月29日,55,信息与通信工程学院 liugang@bupt.edu.cn,4.5 多模态模式识别,听觉视觉双模态语音识别
视频与听觉语音联合使用,提高识别率---多媒体融合,2019年6月29日,56,信息与通信工程学院 liugang@bupt.edu.cn,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,57,信息与通信工程学院 liugang@bupt.edu.cn,5.多媒体信息检索,文本检索
语音检索
音频检索
图像检索
多媒体融合信息检索,2019年6月29日,58,信息与通信工程学院 liugang@bupt.edu.cn,5.1文本检索,另外一讲
多媒体检索与文本检索的异同
文本检索是信息检索的基础
多媒体检索需要进行识别再进行检索
识别错误会产生影响,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,59,5.2 语音检索,查询方式文本,语音
检索对象文本,语音,2019年6月29日,60,信息与通信工程学院 liugang@bupt.edu.cn,语音检索演示,语音检索
检索对象: 广播新闻语音,如新闻联播
检索输入: 文本,2019年6月29日,61,信息与通信工程学院 liugang@bupt.edu.cn,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,62,5.3 音频检索,基于样例的音频检索
哼唱检索
基于语义的音频检索
音频事件检索
音频场景检索,2019年6月29日,63,信息与通信工程学院 liugang@bupt.edu.cn,基于样例的音频检索,功能简介
通过音频片断(原始的音频片段或者录制的)搜索到整个音频的完整信息,,2019年6月29日,64,信息与通信工程学院 liugang@bupt.edu.cn,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,65,基于样例的音频检索,哼唱检索,QBH(Query By Humming)
通过哼唱歌曲的某个片段来找到想要搜寻的歌曲,是一种基于内容的音乐信息检索方式。,2019年6月29日,66,信息与通信工程学院 liugang@bupt.edu.cn,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,67,多媒体融合信息检索---以音乐检索为例,检索输入
信息: 歌名,歌手,歌词,旋律,曲谱,流派,风格等
形式: 文本,语音,哼唱,音频,图像(曲谱)
检索对象(输出)
文本,语音,歌曲,图像等
技术
文本检索,语音检索(语音识别),哼唱检索,流派识别,样例检索,音频属性检索,多媒体信息融合等,2019年6月29日,68,信息与通信工程学院 liugang@bupt.edu.cn,5.4 图像信息检索,图片检索(谷歌、百度图片搜索)
文本检索图片
图片检索图片
基于图像的商品检索,2019年6月29日,69,信息与通信工程学院 liugang@bupt.edu.cn,,,基于3G手机的图片检索系统,2019年6月29日,70,信息与通信工程学院 liugang@bupt.edu.cn,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,71,信息与通信工程学院 liugang@bupt.edu.cn,6.多媒体信息生成 ---虚拟现实/增强现实,多媒体信息的再生---转换
多媒体信息的合成---合成
人脸表情合成
语音合成
听觉场景生成
视觉场景生成
3D 4D 5D电影---全息
。。。。。。,2019年6月29日,72,信息与通信工程学院 liugang@bupt.edu.cn,6.1 语音合成(TTS),什么是TTS
Text To Speech
让机器开口说话
评价指标
可懂度、自然度,2019年6月29日,73,信息与通信工程学院 liugang@bupt.edu.cn,6.2 人脸表情合成,,2019年6月29日,74,信息与通信工程学院 liugang@bupt.edu.cn,6.2 人脸表情合成,,2019年6月29日,75,信息与通信工程学院 liugang@bupt.edu.cn,听觉场景生成,计算听觉场景分析
用计算机技术将人类听觉对声音的处理过程( 听觉场景分析) 建模, 使计算机具备从混合声音中分离各物理声源并作出合理解释的能力。
听觉场景生成
通过多扬声器在新的声学空间重现声学场景
环绕立体声
免提全息电话
Bee游戏
虚拟现实,2019年6月29日,76,信息与通信工程学院 liugang@bupt.edu.cn,视觉场景生成,全息投影/景象
往往包括音频(即听觉)
3D 4D 5D电影---全息
Microsoft HoloLens 全息眼镜
Magic Leap,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,77,3D,4D,5D电影,3D立体效果的基础上增加动感座椅,环境特效,5D电影院让观众从听觉、视觉、触觉,这几方面达到最强大的逼真感
如同置身于影片中,通过环境模拟实现风、雨、电、烟、雪花、泡泡、火焰扫腿、捅背、震动、香烟等环境效果,顺着影视内容变化可实时感受到置身“闪电、烟雾、雪花”中,在“火焰”前有灼热感,海浪扑身时会“湿”了衣裳。体验下坠、震动、刮风、下雨、扫腿等全新的真切感觉,对电影行业有一定的推动作用。,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,78,Microsoft HoloLens 全息眼镜,Holograms借助头戴设备HoloLen的帮助,让用户的眼前出现悬浮界面,以实际环境作为载体,实时处理、获取虚拟信息:如在墙上查看消息、查找联系人,在地上玩游戏、在客厅墙上直接进行 Skype 视频通话、观看球赛。,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,79,,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,80,Magic Leap公司的3D裸眼技术,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,81,Magic Leap公司的相关展示,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,82,Magic Leap公司的相关展示,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,83,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,84,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,85,,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,86,,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,87,,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,88,,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,89,目录,概述
多媒体信息采集
多媒体通信/存储
多媒体信息识别
多媒体信息检索
多媒体信息生成
总结,2019年6月29日,90,信息与通信工程学院 liugang@bupt.edu.cn,7. 多媒体信息处理---总结,信息处理的重要组成部分
各个媒体的处理各有特色,相互又有联系
智能信息处理,2019年6月29日,91,信息与通信工程学院 liugang@bupt.edu.cn,直接涉及的课程,数据采集技术
通信原理
信息技术导论
信息处理与编码
生物信息基础
数字图像处理
模式识别
语音信号数字处理
WEB搜索技术,2019年6月29日,92,信息与通信工程学院 liugang@bupt.edu.cn,搭建一个完整系统/产品,硬件系统
软件系统
算法
理论基础
技术方法,2019年6月29日,93,信息与通信工程学院 liugang@bupt.edu.cn,以手机为例,其它,为什么要学习/学习的目的
解决问题
要学什么
概念
方法
实践能力,广义的学习
学做人
学做事
学做学问,2019年6月29日,94,信息与通信工程学院 liugang@bupt.edu.cn,,,2019年6月29日,信息与通信工程学院 liugang@bupt.edu.cn,95,谢谢,祝大家
身体健康! 学业顺利!,
展开阅读全文
相关搜索