原创标题:人工智能颠覆用户体验有多酷?
内容来源:2019年12月21日,在极客公园创新大会上,搜狗CEO王小川以“语言人工智能的未来愿景”为主题进行了精彩的分享。作为合作伙伴,记录员已经得到组织者和发言人的批准和发布。
笔记达人|朱宝
封面设计 责编|墨子
第 4487 篇深度好文:3841 字 | 7 分钟阅读
活动笔记•人工智能
本文优质度:
口感:六个核桃
一、AI驱动硬件,颠覆用户体验
1.AI录音笔
尽管记录笔据说是一个利基市场,在人工智能的祝福下,记录笔已经成为电子商务的爆炸。
今年,我们生产了一种带有人工智能祝福的人工智能记录笔。它已经在超过11个主流电子商务平台上实现了第一单产品销售。同时,再购买率仍然很高。
与传统的录音笔相比,我们的人工智能录音笔不仅具有双麦克风阵列,还具有人工智能降噪、实时文本转录、云存储和搜索、智能编辑、同声传译等功能。
该产品上线后,整个市场发生了变化。索尼、爱国者和纽曼都加入并组成了联盟,搜狗成为领导者。
根据我们的调查,在我们的人工智能记录笔上线之前,整个记录笔市场的销售量逐年下降,只有400万支。
2.AI时代个人硬件的趋势
硬件背后,是人去感知这个世界。
随着人工智能的注入,高端消费品也发生了变化。这种变化有两大趋势。
①变得更便携
过去放在桌子上的电脑非常大。然后智能硬件开始转向笔记本电脑、iPad、手机,甚至可穿戴设备。因此,未来个人硬件的趋势将是越来越移动和便携。
②具有更强的输入输出能力
从以前的计算能力转向传感器能力,基于人工智能处理能力,机器将适应人与人之间的关系,最终机器将接管人的感官,成为人的助手。“人工智能”对硬件有什么影响?至于未来10年的道路,我的想象是,未来智能硬件将从手机转向手表和耳机再转向眼镜,这可能会逐渐改变我们以手机为中心的使用方式。例如,眼镜和耳机将取代手机,成为我们联系外部信息的渠道。
只有当机器掌握了语言之后,它才能够完整地拥有创造力和推理能力。
除了图像和声音,语言非常重要。这是我们与世界互动的抽象方式。此外,只有人类能掌握语言。
亚里士多德曾经说过,“语言是心灵印象的象征,人类思维的工具和知识的载体。通过语言,人类社会可以交流。无论是我们生产的语言还是计算机处理的语言,语言都是最难的东西,是人工智能皇冠上的明珠。”
图灵测试提到机器可以用语言与人交流,这意味着它有智能。
今天我们的人工智能没有创造力和一般推理能力,但是我们可以这样猜测:
二、语言AI的发展趋势
不会说话的机器,你认为它是智能的吗?当然不会。因此,语言在智力方面极其重要,这也是人和动物之间的一个显著区别。
1.语言的自然交互和认知问题
我们将看到语言已经成为人工智能发展道路上的一个关键节点。我们做输入法和搜索,事实上,我们是在处理语言,以帮助每个人更好地表达和获取信息。
首先
关于语言,我有两部分要和你分享:
第一,自然互动。
自然互动使人们能够以各种方式与机器交流,如声音、图像、手势等。其中,使用了语音、图像技术和视觉技术。
第二,认知问题,我们称之为知识计算。
基于语言,机器可以进行问答和对话。机器翻译是认知技术引入的门槛。有了更好的感知技术,机器将从移动电话转向新的智能硬件。有了更好的认知技术,机器可以理解和推理知识,特别是有能力在垂直领域提问和回答问题。
智能硬件(Intelligent Hardware)新的硬件形式、新的对话和问答能力将在未来带来智能助手,这也是人工智能行业在产品层面最辉煌的地方。
苹果大约在2006年开始引入智能助手。如今,谷歌、百度、阿里和小米都在制造这类扬声器产品方面做着聪明的助手。但是从外壳来看,我不认为这是最好的方向。
计算知识后,我们强调一个核心观点,即机器在阅读理解后回答问题和答案。传统搜索通过关键词给你10个链接。随着科技的进步,我们的整个处理能力将会从单词变成句子,段落和章节,用户的表达也可能变成句子,机器的阅读理解将会转移到章节和整个文章系统。这是技术进步带来的机遇。
其次,声音分离,如果两个人在说话,机器应该能够识别不同的人,并动态判断是第一个人还是第二个人。
最后,机器应该能够识别掌声、笑声或其他声音,以帮助我们理解内容。
3.语音合成,中文和英文很难混合。你不能从传统的深度学习网络数据中得到混合模型,所以你需要向机器添加一些特定的知识来改变系统。
传统硬件由麦克风矩阵实现,中间数字计算和信号处理使用多个麦克风。今天,依靠人工智能,我们有了一种新方法。我们的工程师在真实场景中学习了40,000种噪声,使机器能够辨别噪声。使用
4.从语音变声到视频合成
技术的人知道,以今天的人工智能能力,机器不会有非常准确的认知理解,你可能听到的是记者无感情的声音。为了让合成的声音更感性,更像我真实的声音,我们使用了一种新技术:声音皮肤。技术上,我们称之为特征提取能力。
例如,当你在听梁宁的课时,你实际上是让另一个人读一篇文章,然后把声音的皮肤贴在声音上,这样合成的声音就可以表达他的情感。合成后,声音最终由梁宁呈现。
这种方法可以改善整个音频节目的制作过程。表演者和制作人在一定程度上是分开的,以避免工作人员更替和疾病造成的各种不确定因素。
在这种情况下,我们每个人不仅可以转换成互联网上的其他图像,还可以转换成我们想要的任何声音图像。
它在生活中也有实际用途。年会将在年底举行。如果你想唱歌,但是你没有足够的五音呢?你可以提取你的声音特征一次,并把它们放入《蓝精灵》首歌曲中,这将比你自己的更好。
这些技术能够在交互过程中实现人机交互,并扩大生产能力。
010-59000
搜狗的两个地方同时经历了许多技术迭代,从尽早成为新华社的主持人,到成为中央电视台的主持人,再到能够在第二代中更充分地表达出来。
第三代,可以站起来做手势;
从第四代开始,它就能以多种语言和场景进行广播。
第五代之后,互动就可以开始了,比如平安普惠的保险计划。维修人员已经被机器取代了。事实上,当你签署保险合同时,机器人会和你互动。
我们将很快发布第六代产品,它将具有大角度和大范围的运动能力。
这种技术是机器代替人类的主要应用。因此,我们可以看到,以语言为核心,辅以语音、面部表情、肢体和嘴唇,可以使人机交互达到更加自然的状态。
在未来,也许在不到10年的时间里,我们将建立这样一条道路:自然互动将从文字走向言语和图像理解。我们使用的记录笔、同步传输和复合锚
另一条途径是认知能力的不断提高,从搜索、辅助医疗、辅助问答以及语音和图像技术的结合等方面引领行业的终极理想,即每个人都有一个个人助理。
在一些垂直领域,它可以帮助你做秘书,或者成为你的成员并与世界交流。
我们还将继续以人工智能的语言展示产品,向每个人展示有颠覆经验的个人助理,用机器帮助每个人,使信息更容易表达和获取。谢谢!