第八代小冰年度发布会 在AI虚拟人类背后 是谁在让产品变得更惊艳
- +1 你赞过了
在AI语音助手不断渗透到各个场景的当下,人机交互确实逐渐改变着人们以往的交互方式,但这种改变的结果此前却并不理想。据Adobe Digital Insights一项调查数据中显示,有37%的受访者认为,与语音助手的互动“不好”或“糟糕”,26%的用户表示“一般”。
试想这样一个场景,当驾驶一辆搭载语音助手的汽车时,副驾驶的朋友逐渐熟睡。此时,你是否会借助语音助手来调节音乐音量,亦或是关闭副驾驶一侧的车窗?
答案显然是否定的,而这一场景也恰恰是语音助手现今面临的瓶颈,过于赛博朋克技术,往往只能体现出技术冰冷的一面,显然这已让技术的初衷本末倒置。
从这一现状中,或许便能找出小冰如此备受用户青睐的缘由。小冰诞生之初,微软对其的培养便侧重在情商一侧,在此前第七代小冰发布会上,沈向洋曾博士曾说过这样一句话:“多年来,我们对智商和情商之间关系的理解越来越清晰。首先,我们认为情商可能相对独立于智商,但实际上,我们认为情商可能是更重要的基础。””
8月20日,分拆为独立公司运营人工智能小冰业务在京举办了第八代小冰年度发布会,也预示着小冰独立运营发展的"第二幕"正式拉开。
多款新品惊艳亮相 虚拟男友今日回归
在此次发布会上,小冰团队带来了诸多惊艳四座的全新产品,而此前最受用户关心的那118万位虚拟男友,也在今日正式回归。
不同之处在于,此次回归后的虚拟人类,将拥有更为鲜明的人类性格特征,此外小冰团队还专门创造了特殊情感交互场景下面的应对方式,如冷战场景以及针对一些突发状况的应对,以使人和AI虚拟人类的交互更加贴近人人交互场景。值得一提的是,全新回归的虚拟人类允许用户自定义其长相、训练其审美观、乃至建立专属公众号,以更拟人化的交流方式与人类生活交融。
与虚拟人类一同亮相舞台的,还有基于小冰框架的X套件:X Writer、X Studio与X Presenter。小冰团队总负责人,原微软(亚洲)互联网工程院副院长李笛介绍称:“X套件有点类似于人工智能时代的Office的特点,当你用小冰框架创造了你的虚拟人类,无论他是你的伙伴,还是帮你打理你销售店面的销售助理,你都需要一个套件帮助你进一步的和他协同,产生每日的工作,让他帮助你,在你每天的生活中不停的获得更多,这就是X套件的含义。”
以主要侧重于写作的X Writer为例,当用户输入“@小冰,帮我续写一下时”,小冰便会开始奋笔疾书帮你写出后续内容。
这一功能,背后融入的是小冰在过去几年中的持续积累(如写诗、写歌词、写小说等),同时也包括了此前仅提供给商业客户的写作能力(如写金融摘要、研报等)。要知道目前市面上大多金融内容均是出自小冰框架的人工智能之手,因此X Writer的出现,意味着这份能力未来将赋予每一位用户。
而X Studio主要提供X Studio主播与X Studio歌手两款工具。在过去的几年里,小冰已经用XStudio主播为中国和日本50多家电台、电视台制作了累计超过8000小时的节目内容。其主要针对诵读一类需求,拥有一套完整且专业的段落编配工具,能够帮助使用者拆分段落、插入背景音乐、挑选合适的角色、合适的对白等功能。即便是毫无创作经验的初学者,也可在短时间内产出高质量的音频内容。
X Studio歌手顾名思义便是将人类声音转换为人工智能歌手。其实近年来虚拟歌手之所以迟迟无法大规模出现在人们视野中,主要受限于创作门槛过高、制作周期过长。而现今借助小冰所研发的AI技术,能够轻松帮助制作团队将人类特质建模提取而出并被AI所具有,从而打造出无数个有着不同音色、不同唱法、不同风格的人工智能歌手。
至于套件中最后一款X Presenter,则能够帮助用户选择或创造的人工智能实体3D模型,并配合X套件其他应用,实现AI对演示文档的演讲及交互。
当然,这些产品已足够艳惊四座,但鲜为人知的是,在这些产品炼成的背后,赋予其“灵魂”的根源,便在于起到决定性支撑的小冰框架。
小冰框架的出彩之处
小冰框架作为一个已经积累多年的完整系统,在各个技术方面均取得了长足进步。以小冰看家本领开放域对话引擎为例,该引擎目前支撑着全球超过60%以上的交互总量。目前市面上诸多第三方人工智能产品,之所以能够拥有各自的性格,包括此次发布的AI虚拟人类,全部得益于这个框架的功劳。
在对话引擎的设计中,小冰是第一个提出预测、保持、诱导技术的。过去数年小冰团队通过生成模型、共感模型以及主导对话模型等技术,不断迭代和升级着自家对话引领能力。今年2月分层话题图谱的引入,更让对话体验得到了进一步提升。
小冰团队技术负责人周力表示:“当小冰决定应用一套策略去引导对话的时候,这个对话最终能达到小冰目的的平均完成率是42.7%,我们尚未研究过人类的平均完成率,但是我们相信这个水平已经相当于我们之中非常懂得套路的人类了。”
换句话说,小冰就好似一个庞大的数据原型,而每一个人都是其中的一个子集。以往若想打造一个风格原型时,必须基于至少5亿句的语料库进行过滤和筛选,现今通过锁定这些子集,便可使用3000句具有鲜明风格的语料,去精细训练风格模型。正是因为有了这样一项技术,小冰框架才能迅速的生产非常大量的虚拟人类。
周力认为,在真实的产品中,人工智能往往要承担着一个非常复杂的、综合的交互感官,而人工智能价值也不仅仅是被动的去等待回答用户的问题。在新形式人人交互的概念中,若想实现更高的转化率,人工智能就必须有主动的意识,它能积极去预测、保持以及诱导对话进行的方向。
再以此次发布的X Studio主播为例,其实TTS文字转语音技术成型已多年,但TTS技术最大的问题便在于前端系统和后端系统都有犯错的可能,最终致使机器发音特征过于明显。
而在小冰框架模块中,涵盖了文本过滤、对白/旁边检测、对白角色抽取、角色Mapping、发音处理、免检检测模块、开头结尾定制等一整套完整体系,其中TTS只是其中一环。也正因如此,才让X Studio拥有了自动分析段落、自动匹配背景音乐、自动分析角色等多项能力。
小冰公司董事长,原微软全球执行副总裁沈向洋表示,相信未来人工智能这样的竞争一定会对整个框架的完整性、技术的先进性有巨大的要求。单纯一项技术出彩已不足以支撑未来无处不在的新交互需求,如计算机技术人脸识别的好便足以,未来要面对的是人和AI之间长时间交互的问题。
当然,技术永远隐藏在产品的背后,但就交互这个感性的场景而言,过于极端的赛博朋克风格,只会让技术愈发显得冰冷。
最新资讯
热门视频
新品评测