您的位置:首页 >IT界 >

王小川:以语言为支点,搜狗如何撬动AI版图?

本文转载自微信公众号:水滴产品进化营(ID:shuidi-academy),演讲者:搜狗CEO王小川

科幻小说里的情节走向现实并不是那么容易的事。

漫画家青山刚昌1984年在《名侦探柯南》里提出的变声器,看起来并不太难,却一直没能出现在寻常百姓的生活里:让一个人的音色实时变换成另一个人的音色,需要的是语音表征学习、语音合成等领域的技术突破。

搜狗输入法在最近一版更新中上线了语音变声功能,在微信聊天时切换到搜狗输入法,就可以换着花样的“变声”聊天了。

这不仅是机器表征学习、风格迁移技术首次落地到消费级产品中,也是微信语音聊天场景中首次有真正可玩的“变声”玩法。

关于技术的种种浪漫想象,实现起来却需要反复的实验、科技不止一代的突破以及从科研到实用的漫长历程。

5月11日,搜狗CEO王小川老师做客 水滴产品进化营,为我们一一揭开谜底。

奉上王小川老师的独家分享,以下。

1

授课老师| 王小川

搜狗CEO

01

今天孩子是怎么用机器的

大体就代表未来人机交互的方向

搜狗是在以语言为核心做AI,大家说语言不是最难的一件事吗?是,语言是没有被突破的一件事,但是好处是在这里反而我们的竞争对手会变得更少,而且在这里面我们还有成功的经验。

搜狗做的两款核心产品:搜狗输入法和搜狗搜索,都是在处理语言的。以语言做核心,就涉及两个问题:一个是人跟语言的关系(自然交互),另外一个就是认知问题(知识计算)。

人和语言的关系。人通过语言去交流的时候是需要有载体的,这种载体正从语音走向图像,其中一个核心的逻辑是交流会更加地自然,以前是人去适应机器,学习五笔,甚至学习怎么打字。但从趋势上看,未来是让机器适应人,让人用自然的方式去表达或者去获取信息。

今天小孩子是怎么去用机器的,大体就代表了未来人机交互的方式,在未来通过语音图像这样一些技术,最终会出现新的一些智能硬件去解决人机交互的问题,

而认知问题,在语音图像上有很多突破,甚至机器拍一张图,就能把人和里面的文字识别出来了,合成文字、声音都已经成为现实。

认知问题会变得很多,比如深层语言的理解问题、推理、记忆、决策,这件事情是一个前沿,像搜索引擎,已经在语言上给我们带来了很大的成功,这就是所谓的NLP(Natural Language Processing,自然语言处理(AI分支))。

02

自然交互不等于语音识别,

但语音识别是自然交互里面最基础的事情

展开讲讲我们在干些什么事,自然交互里面有语音识别、语音合成,图像识别、唇语识别和虚拟主播。

语音识别我们现在一天有6亿次的语音识别请求,包括方言、英文、日文、韩文的语言识别,我们做了很多增强的方式。

自然交互不等于语音识别,但语音识别是自然交互里面最基础的一件事情。

我们要有更多人来做研发,像我们在中间做了一个很有意思的事情:唇语识别。做语音识别的时候大家觉得只是拿语音建模已经不能体现出技术的迁延性。

于是我们把语言加上图像联合去建模,学术界称为多模态建模。我们之前已经做到单独用嘴唇的图像去做训练,十个字能识别对六个,离使用是有距离,只是把语音和图像放在一块的时候会变得很有意思。尤其在一些嘈杂环境里,语音不够准确的时候,把图像的数据补充进来,能提高语音识别的准确度,这是一些比较前沿的事。

搜狗公司展厅里面有这个测试的地方,大家可以在机器面前默读唐诗宋词,大概率它能把你“说”的这句话识别出来,只看嘴唇的运动而不用你发音。

展厅里面还有很多好玩的东西——个性化语音的合成,像我唱歌很烂,现在就可以想办法解决,比如说这首歌是别人唱的,但是把我的音色给覆上去,让我也能够在年会的时候假装唱一唱。

这是怎么做到的呢?这个系统用了14分钟我的语音,然后找来庞麦郎的歌,完了之后就可以合成我在唱《我的滑板鞋》,这种迁移的方法,可以用我的音色去套别人的东西。

最近我们发布的产品里面还能变成特定的人,比如凯叔、蜡笔小新、林志玲等等。变声更有意思,把我的声音、我的情感继续表达出来,但用别人的声音发出去,有兴趣的话私下可以体验一下。

以前我们做的NLP不够,所以让机器代替有情感的东西是不够的,但用迁移的方法就能把丰富的方法带进去弥补了语言这块机器不懂的缺陷。更令人兴奋的是,拍电影会变得更加可控,以后可以避免出现一个演员出点事,这个电影就下架了的这种事情,能走自己的IP,真人出事就跟他没有关系了。

另外我们去年年底上线,今年初有比较大的突破的就是合成主播。

这个可以在新华社的客户端看到,因为他们每天有大量的新闻稿件要发出去,找真人去播报的话要化妆、灯光、摄影,而且又不能一周工作七天,每天工作24小时。现在很简单了,你把一段文字输入进去,大概十几秒钟时间就能生成完整的视频。

我们刚刚跟阿联酋签了约,他们也会用我们做出的形象。国内最大的保险公司也找过来了,现在国家政策改了之后保单可以网签,网签他们想不用真人去对话了,问能不能做一个虚拟人对话,这样能减少客服人员。

随着技术更加向前沿突破,可能以后医生、律师,更多行业、更多表达,在自然交互里面,能够使人用更舒服的方式来获得信息。

03

北京的路灯和天上的星星哪个多?

机器恐怕现在还回答不了

提到知识计算,我想到翻译、问答、对话,我下面列了一些,在行业和国际上我们拿了非常多的第一名。

很多公司跑去做翻译了,像谷歌、脸书、微软等等,我自己对翻译这件事是独有情钟的,而且我认为中国能够做到极致。

因为老外做翻译只是在体现他们的技术实力,美国人做翻译其实那个环境都是讲英文的,没什么感觉,讲汉语的人口占全球的20%,但是全球95%的信息是用英文写的,100%的国际商务活动是讲英文的。

我们作为第一大中文人口,当我们要去获得全球信息进行交流的时候,必须去讲英文,这件事情挺阻碍我们发展的。

其实在历史发展当中,翻译本身的突破或者引进对文化的影响巨大,就像阿拉伯的百年翻译运动、唐僧到西天取经等等,尤其我们做输入法和做搜索,是帮助人用中文去表达和获取信息,都能跟翻译一样,让我们跟老外自由地交流。

英文的信息搜索到了,我们可以直接看中文,这件事是非常有意义的。

除了算法以外,需要优化数据的积累和应用场景发生的关键,这会使得我们很好地被武装起来,因此我们也是全球首家在公开的国际会议上能做同声传译系统的。现在国内还有讯飞和腾讯。

另外还有一个大的领域就是问答。我觉得搜索引擎往后走,其实会走向提问回答,人是被机器训练成用关键词做输入,然后给你十条结果,理想的情况是你提个问题,给你一个答案或者几个答案做选择就行了,摆脱搜索引擎的模式,问答这是关键的一个。

这是个真实的系统,在阿尔法狗出来之后,大家也开始愿意探讨机器能不能做这样的事情,但一开始机器还是会比人差很多的,我们在后面不断优化系统,机器开始逐步跟人打平,甚至是好几个选手同时去PK机器,机器也能赢。

但发现人还有抢答的能力,一个问题没问完,人就大概猜会问什么问题,比如当时说《鹿鼎记》当中的毒药,其实大家就知道你问的是豹胎易经丸,机器不会抢答,机器后来也学会了抢答的能力。机器现在赢过一个人的几率有八九成,但这是在一些特定的、有事实类答案的问题里面,有推理的问题,机器就没戏了。

比如要问北京的路灯和天上的星星哪个多?我们觉得很简单,但对不起,人是可以推理的,肯定说天上的星星多,但如果网上对这种事情没有答案,机器就答不了,因为这个机器其实是要对互联网做阅读理解的,阅读完了之后要把问题相关信息找出来,背后有大量的训练,不仅要读你的问题,还要读大量的网页。

这个领域里还有一个公司做得比较深:IBM 2015年发布的Watson,那会儿它是一个封闭域,只能解决类问题,甚至在提问的时候还要说这个问题是打个明星还是地名,这样才能回答。

现在搜狗的汪仔问答机器人做的系统是开放域,Watson是做本地数据库,我们做了一个全网的数据库,系统难度会大很多,我们前段时间说能不能找Watson比赛一场,发现他们那个团队已经解散了,跑去做医疗去了。

2

▲ 汪仔问答机器人

这个领域里面想像专家一样做精准的问答其实特别难,搜索服务于大众,但是做医疗比全网搜索更难。我们已经走到很边缘的地方了,IBM还想吃更大的螃蟹,现在它遇到了很大的困难。

上线之后我们叫立知系统,当你做搜索的时候,第一条就已经不是给你网页了,而是给你具体的从网上抽取的回答,比如说你问北京处理违章需要带什么证件,它就会告诉你带什么东西不用打开网页寻找结果,这个往下我们还会有一些更加保密的项目进行,能够推动长足的发展,把这个事情做得更加实用。

另外在知识计算里面,大家认为未来的方向是取代垂直领域的专家,比如说IBM做专业医生,这个事情我们也在做,但是需要有长远的实践才可能做到,在搜索里面可能会更容易一些,这是知识计算一个长久的目标。

04

智能硬件的走法,

要么更便携,要么有更好的I/O能力

在自然交互里面,其实做智能硬件是个很大的领域,和手机相比,智能硬件可以去承载更好的交互。

为什么现在很多人在做音箱,因为音箱比手机收音更好。语音技术、图像技术也个很大的突破,这种技术在手机里面已经被限制使用,未来会有很多新的硬件,能够结合更好的语音图像,来产生交互的能力。

我把智能硬件大体上分成两大类,一类是用AI驱动一些有物理功能的硬件,比如扫地机器人,它是AI做抉择,所以它的目的是扫地。

另外一类就是以手机为核心的信息终端,很多人常常忘了手里的手机就是典型的智能硬件。

其实做智能硬件的另一种极端就只看到硬件本身,而没有看到硬件背后其实有大量数据的吞吐和服务。

你不要只看能力,这是硬的这部分,而实际上跑多少数据才是智能硬件的关键指标,未来好的智能硬件是有更强的AI能力,去获取更多的语音图像数据。

今天早上跟腾讯的核心负责人在聊,他们做了一个吕布机器人,跟王者荣耀结合,特别酷,最厉害的地方是说陪我玩游戏,它就直接进入到王者荣耀模式了,这个时候云端是堆集了王者荣耀服务器的,拿到你当前每一帧数据,给你做辅助,告诉你这个时候应该走上路,中路现在参加团战……打输了给你唱歌安慰你,赢了为你打鼓,帮你助阵。

2

▲ 吕布机器人

这样的设备就变成你的教练,它从云端拿到很多数据,这些数据要么来从环境中收集,要么来源于服务端,绝不是孤立地做出这么一个硬件来。

大的趋势里面硬件的走法要么更便携,要么更好的I/O能力,它能够去输出视觉和声音,或者如果能输入声音和视觉就更好了。你看从PC到笔记本,再到手机,越来越便携,I/O能力也越来越强,这是未来大的趋势。

搜狗从侧面做了两个比较有意思的东西:智能录音笔和旅行翻译宝。

做录音笔,我们开始强调收音的能力,今天做的是便宜的初级款,高级款就会变成八个麦克风矩阵,六个全向麦加两个定向麦,这使得机器在后排的时候也能把声音收的非常好,甚至一桌人开会它都能知道是从哪个方向传进来的声音。

3

▲ 搜狗智能录音笔

往声音更好的数据上去走,会产生新的能力,像旅行翻译宝,我们之前其实走了一点小弯路,做了离线能力,不用联网就能做快速高质的语音识别,我回头想这个选择是错误的,这个技术很难,离线能力其实不如远程收音更关键。翻译想要做到比手机好,核心的能力是要在收音上,和手机相比,计算力并不是一个明显优势。

智能硬件领域,比较有代表性的就是智能音箱了。我发现智能音箱的逻辑跟刚刚上市的瑞幸咖啡其实是一样的,先把门店铺出去,后面开始供给内容,由于门店已经在手里面了,在内容供给的时候就有议价空间了,最后才有规模效应,让别人也得用自己的渠道。

搜狗的AI布局图,我们认为以语音为核心的AI是从文字到语音到图像,越来越具有声音和视觉的处理能力,比如我们今天讲得智能音箱是用的语言的能力。

再往下走像合成主播就建立了视觉的能力,所以横轴是AI技术能让机器通过文字、语音、图像更加便捷地与人沟通(自然交互能力)。

纵向是指知识计算的能力,是一种认知能力,纵向往上就是知识深度的专家能力,往下的话我们认为有几个很有意思的地方,因为横轴跑得更快,语音图像会更容易做到,我觉得在不久的将来,这种智能演进就会出现,它就会做得比手机更加的便携,有更强的I/O能力,这是我的一个预测。

随着我们刚才讲得交互能力和计算能力的增强,最终都会走向像智能助理这样的位置,既有很好的语音图像的I/O能力,同时在知识层面里面也能做到更好的处理。 E

► 本文根据王小川老师在水滴产品学院的分享整理而成,更多精华笔记敬请期待。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。