1、微软后院的酷技术Power Map for Excel: 3D 数据可视化工具 大部分人使用过 Excel 中的饼图、条形图等图表对数据进行可视化。现在,MSRA 协助开发了一款先进的 Excel 3D 数据可视化工具Power Map。它允许我们将大量数据以 3D 可视方式映射到必应地图上,并通过3D 柱形图、泡泡图/饼图、热量图和区域图等形式实现数据的可视化,从而让至关重要却容易混淆的数据变得易于理解。 让手机更加聪明 手机上的 3D 发型设计 真正长出来的头发 在意自己的发型?或许大家也曾经尝试过用手机 App 查看自己心仪发型的效果,可无奈“二维”图像总是显得不够真实,并没有什么实际用
2、途。现在,微软亚洲研究院(简称 MSRA)开发了一款手机应用程序,仅凭借一张照片便可创建一个非常逼真的 3D 头发模型。 学过人物素描的朋友应该知道,头发是最难画的部分。对计算机而言,让上万根发丝看起来自然也是一件难事。在现实世界中,头发的一点点变动都意味着发丝之间遮挡关系的变化:一些原来看不到的发丝暴露出来,另一些原先可见的发丝被遮挡住。而在计算机图像中,这种变化是无法用传统的基于像素操作的图像编辑工具实现的。但是,来自MSRA 的新技术模型基于物理真实性(physical plausibility)原则,即模型中头发的根部应总是固定在图中人物的头部,发丝本身应平滑自然,且要尽可能地保持原图
3、中真实头发的长度和连续性。我们可以通过这个App 改变头发的颜色、长度等塑造自己的发型。它是逼真的,不仅能用来娱乐,也可以在任何需要头发图像绘制的领域发挥作用。 基于多传感器融合技术的室内定位 解决导航的最后 100m 打通移动互联时代位置服务的最后 100m,才能触发新的潜力和商机。在智能手机尚未普及的年代,MSRA 的技术专家就想到了利用装有加速度计、陀螺仪(即角速度计)和电子指南针的设备来跟踪物体的运动状态,从而实现室内定位。2010 年前后,这几个传感器成为智能手机的标准配置,他们的跟踪技术也已经成熟。同时,他们又发现随着 Wi-Fi 网络的普及,利用手机的 Wi-Fi 芯片可大大提升
4、定位的准确性和可靠性。与传感器跟踪运动状态相比,Wi-Fi 有自身的结构,与建筑物的位置关系是固定的,它的定位误差不会因为用户走的距离变大而增大,所以能实现绝对定位。将 Wi-Fi 定位与运动状态跟踪技术进行结合,室内定位的精度甚至可能达到惊人的 1m2m。 相信用不了多久,我们就能通过室内定位技术直达某一楼层的店铺,甚至可以直达某个商品了。 语飞行云汉语教育互动平台 手机才是最好的学习机 真正学好外语,从来就不是一件轻松的事。对于外国小朋友以及小华侨而言,最难的地方是汉字的书写和发音。现在,新加坡华侨小学的学生获得了一个比较轻松的汉语学习秘方把不认识的东西画在手机或者平板电脑上,通过“语飞行
5、云”互动平台的“认图”功能,词汇和发音就可以显示出来。 这个“语飞行云”互动平台是 MSRA 与新加坡华文教研中心等教育机构合作研发的教育互动平台。学生可以把平日的所见所闻拍下来,上载到该平台上和同学分享讨论,让他们觉得汉语和自己的生活息息相关。“语飞行云”平台提供了汉语语音合成器、词汇学习、词语解释、配搭、查询及例句筛选等功能。南侨小学校长陈俊明表示,将电子科技技术有效融入教学并非易事,但他们发现利用该互动平台学习的学生在考试中表现比较优异。 科技与人文之间 10 亿像素拍摄敦煌石窟佛像 连阴影都是清晰的 敦煌莫高窟俗誉为 20 世纪最有价值的文化发现。然而,人为的破坏和生态的恶化,使敦煌这
6、一历史文化遗产面临着严峻的考验。在更大的游客量需求和为后代保护这份无比宝贵遗产的责任之间寻求平衡,是敦煌莫高窟面临的最大挑战。 MSRA 向敦煌研究院捐赠的专门为莫高窟量身定制的 10 亿级像素数字相机系统 “飞天号” ,大幅度提高了洞窟内壁画拍摄的效率,满足了对佛龛、壁画等文物颜色、几何细节等高精度数字采集的要求。该相机的一大特色是利用焦点合成技术来高精度地捕捉被拍摄物的立体细节,这个功能是其他同类相机无法做到的。当拍摄具有复杂景深变化的斜坡、洞顶和佛龛时, “飞天号”能够自动计算景深,分次拍摄多张同一场景但焦点不同的图像,然后将所有的图像合成,使得同一场景下的每尊塑像、每处壁画都呈现焦点清
7、晰的影像,阴影区域也保留了丰富的细节。这对敦煌莫高窟的数字档案前期拍摄是一个突破,把过去无法高分辨率拍摄的佛龛变成了可能,使得洞窟的数字档案实现了绘塑完整的统一空间。 不是每个人都有机会到莫高窟,但每个感兴趣的人都可以在网上一睹敦煌壁画的艺术风采,甚至比在现场观看更加栩栩如生。 基于 Kinect 的手语翻译系统 人人都能“听”懂手语 世界各地有 3.6 亿的听力障碍人士,每一天,他们都面临着大多数人从来无需考虑也难以想象的沟通挑战。如何开发一种工具,让人“听”得懂手语,帮助听障人士改善生活质量?MSRA 与中国科学院计算技术研究所和北京联合大学合作,希望借助 Kinect 设备打破沟通障碍。
8、 首先,他们利用能同时捕捉色彩和深度图像信息的 Kinect,准确捕捉到听障人士的手势,然后结合自然语言处理技术在屏幕上显示手语的含义。这项成果以 MSRA 在翻译和自然语言处理、语音和手势识别等自然用户界面领域的广泛研究成果为基础。设想一下,听障人士在健听的观众面前用手语发表演说,每位观众都能不费吹灰之力听懂他的演说,这让我们看到了让聋哑患者“发声”的新希望。 用于触摸屏与指尖互动的触觉反馈 触摸屏有反应了 现在,触摸屏移动设备已经非常普及。当我们点按屏幕上的图标时,通常会获得视觉上的反馈软件会响应我们的操作,屏幕显示的内容会有变化。有时候,我们还可以开启“触摸时震动”的功能,获得更明确的触
9、觉反馈。但震动的是整个手机,我们没办法只让屏幕的某个区域震动,所以无法给视觉障碍人士带来真正的帮助。 终于,MSRA 的研发人员已经能够在触摸屏上实现“触觉反馈”沿着手机触摸屏滑动手指,就可以借助贴在屏幕边缘的压电致动器营造表面摩擦效果。看似很简单,却意义重大,它将转变和提升基于触摸的交互技术。除了帮助视觉障碍人士之外,普通人在玩带有虚拟手柄的触屏游戏时,也能体验到更真实的手感了。 从这里看到未来 实时语音翻译 抢同声传译员的饭碗 想象一下这样的场景:我们只身一人在国外需要订餐,如果我们所说的中文能够立即被翻译成当地语言,并用自己的声音念出来,而发音、声调和语调与当地人别无二致。是不是很神奇?
10、微软的实时语音翻译系统正以此作为目标,它集合了多项突破性研究成果,包括语音识别、文本翻译、个性化语音合成等,将人们的交谈内容从一种语言同步地转换成另一种语言,并尝试保留使用者本人的语音特征。 该系统突破性地利用了深层神经网络(DNN)技术,相较传统技术大幅提升了口语对话识别成文本的准确度。借助这项技术并通过模拟人脑行为,微软的研究人员开发出了具有更高辨别能力的语音识别器,可以说这是几十年来通过单一技术提高语音识别准确率的最大突破。另一项重要突破是个性化语音合成,它能够保留使用者的个性化语音特征。此外,MSRA 经过不懈努力,在机器翻译领域也取得了进展,尤其是在英语和汉语间的互译上,将单纯的文本
11、翻译延展到了对语音的翻译。当前,微软的实时语音翻译还有很多约束条件,比如语速不能快,发音要足够标准,但它依然让我们看到了一个可以打破语言障碍的未来。 基于视网膜中央凹视觉的 3D 图像 只有自己最清楚 高品质 3D 图像吸引着人们的眼球,并开创了各种视觉化的可能。然而遗憾的是,目前的硬件设备在实时处理超高分辨率的图像时存在很大局限。人们往往面临两种选择:为获得极致的 3D 体验购买庞大且昂贵的设备;或是接受真实感略为逊色的效果而使用轻便的移动设备。 如今,这种两难的境况将有所改变。MSRA 的研究人员正在开发一项技术,根据人类视觉形成的特点,对 3D 画面进行绘制通过专门的设备跟踪视觉焦点,然
12、后仅在视觉焦点处绘制高分辨率和高精度的图像;而在其他区域,由于人类视觉无法清楚感知,所以可采用相对较低的分辨率。这项名为“基于视网膜中央凹视觉的 3D 图像”技术,正是在人眼观察方向的度量范围内放置高层次细节,并以同心圆方式向外逐级减少细节。为了在现实世界的物理局限下实现我们所期望的视觉体验,就必须充分利用有关人类视觉的全部知识,超越对像素渲染的单纯追求,展现人类的智慧而非显示器本身。这种体验更贴合人类视觉的原理,在实现惊人的清晰度和逼真度的同时,却更加节能。当我们用更少的资源享受更好的 3D 图像时,旁人只能盯着模糊的屏幕纳闷了。 英库问答 真正理解搜索意图 英库问答是一个通用问答引擎。对于
13、用户给出的问题,英库问答通过对自然语言问题的深度理解,从知识库、互联网以及问答社区获取候选答案和证据,并通过自动推理、答案排序、可信度估计等步骤,最终提供精确的答案。英库问答可以广泛用于自然语言搜索、商业智能、语音助手等应用场景中。与传统的搜索引擎相比,它真正去分析和理解用户的搜索意图,而不是根据关键词进行网页排序。苹果的 Siri 和 Google的 Google Now 已经在尝试让用户直接向手机提问,手机直接给出答案,但它们目前真正能做好的事情还非常有限,大部分时候仍要求助传统搜索引擎。英库问答虽然目前没提供语音服务,但它是通用的问答引擎,对于事实性的问题都可以直接提供答案,适用范围远比前两者更广。