人工智能颠覆的用户体验有多酷

原创标题:人工智能颠覆用户体验有多酷？

内容来源:2019年12月21日，在极客公园创新大会上，搜狗CEO王小川以“语言人工智能的未来愿景”为主题进行了精彩的分享。作为合作伙伴，记录员已经得到组织者和发言人的批准和发布。

笔记达人|朱宝

封面设计 责编|墨子

第 4487 篇深度好文：3841 字 | 7 分钟阅读

活动笔记•人工智能

本文优质度：

口感：六个核桃

一、AI驱动硬件，颠覆用户体验

1.AI录音笔

尽管记录笔据说是一个利基市场，在人工智能的祝福下，记录笔已经成为电子商务的爆炸。

今年，我们生产了一种带有人工智能祝福的人工智能记录笔。它已经在超过11个主流电子商务平台上实现了第一单产品销售。同时，再购买率仍然很高。

与传统的录音笔相比，我们的人工智能录音笔不仅具有双麦克风阵列，还具有人工智能降噪、实时文本转录、云存储和搜索、智能编辑、同声传译等功能。

该产品上线后，整个市场发生了变化。索尼、爱国者和纽曼都加入并组成了联盟，搜狗成为领导者。

根据我们的调查，在我们的人工智能记录笔上线之前，整个记录笔市场的销售量逐年下降，只有400万支。

2.AI时代个人硬件的趋势

硬件背后，是人去感知这个世界。

随着人工智能的注入，高端消费品也发生了变化。这种变化有两大趋势。

①变得更便携

过去放在桌子上的电脑非常大。然后智能硬件开始转向笔记本电脑、iPad、手机，甚至可穿戴设备。因此，未来个人硬件的趋势将是越来越移动和便携。

②具有更强的输入输出能力

从以前的计算能力转向传感器能力，基于人工智能处理能力，机器将适应人与人之间的关系，最终机器将接管人的感官，成为人的助手。“人工智能”对硬件有什么影响？至于未来10年的道路，我的想象是，未来智能硬件将从手机转向手表和耳机再转向眼镜，这可能会逐渐改变我们以手机为中心的使用方式。例如，眼镜和耳机将取代手机，成为我们联系外部信息的渠道。

只有当机器掌握了语言之后，它才能够完整地拥有创造力和推理能力。

除了图像和声音，语言非常重要。这是我们与世界互动的抽象方式。此外，只有人类能掌握语言。

亚里士多德曾经说过，“语言是心灵印象的象征，人类思维的工具和知识的载体。通过语言，人类社会可以交流。无论是我们生产的语言还是计算机处理的语言，语言都是最难的东西，是人工智能皇冠上的明珠。”

图灵测试提到机器可以用语言与人交流，这意味着它有智能。

今天我们的人工智能没有创造力和一般推理能力，但是我们可以这样猜测:

二、语言AI的发展趋势

不会说话的机器，你认为它是智能的吗？当然不会。因此，语言在智力方面极其重要，这也是人和动物之间的一个显著区别。

1.语言的自然交互和认知问题

我们将看到语言已经成为人工智能发展道路上的一个关键节点。我们做输入法和搜索，事实上，我们是在处理语言，以帮助每个人更好地表达和获取信息。

首先

关于语言，我有两部分要和你分享:

第一，自然互动。

自然互动使人们能够以各种方式与机器交流，如声音、图像、手势等。其中，使用了语音、图像技术和视觉技术。

第二，认知问题，我们称之为知识计算。

基于语言，机器可以进行问答和对话。机器翻译是认知技术引入的门槛。有了更好的感知技术，机器将从移动电话转向新的智能硬件。有了更好的认知技术，机器可以理解和推理知识，特别是有能力在垂直领域提问和回答问题。

智能硬件(Intelligent Hardware)新的硬件形式、新的对话和问答能力将在未来带来智能助手，这也是人工智能行业在产品层面最辉煌的地方。

苹果大约在2006年开始引入智能助手。如今，谷歌、百度、阿里和小米都在制造这类扬声器产品方面做着聪明的助手。但是从外壳来看，我不认为这是最好的方向。

计算知识后，我们强调一个核心观点，即机器在阅读理解后回答问题和答案。传统搜索通过关键词给你10个链接。随着科技的进步，我们的整个处理能力将会从单词变成句子，段落和章节，用户的表达也可能变成句子，机器的阅读理解将会转移到章节和整个文章系统。这是技术进步带来的机遇。

其次，声音分离，如果两个人在说话，机器应该能够识别不同的人，并动态判断是第一个人还是第二个人。

最后，机器应该能够识别掌声、笑声或其他声音，以帮助我们理解内容。

3.语音合成，中文和英文很难混合。你不能从传统的深度学习网络数据中得到混合模型，所以你需要向机器添加一些特定的知识来改变系统。

传统硬件由麦克风矩阵实现，中间数字计算和信号处理使用多个麦克风。今天，依靠人工智能，我们有了一种新方法。我们的工程师在真实场景中学习了40，000种噪声，使机器能够辨别噪声。使用

4.从语音变声到视频合成

技术的人知道，以今天的人工智能能力，机器不会有非常准确的认知理解，你可能听到的是记者无感情的声音。为了让合成的声音更感性，更像我真实的声音，我们使用了一种新技术:声音皮肤。技术上，我们称之为特征提取能力。

例如，当你在听梁宁的课时，你实际上是让另一个人读一篇文章，然后把声音的皮肤贴在声音上，这样合成的声音就可以表达他的情感。合成后，声音最终由梁宁呈现。

这种方法可以改善整个音频节目的制作过程。表演者和制作人在一定程度上是分开的，以避免工作人员更替和疾病造成的各种不确定因素。

在这种情况下，我们每个人不仅可以转换成互联网上的其他图像，还可以转换成我们想要的任何声音图像。

它在生活中也有实际用途。年会将在年底举行。如果你想唱歌，但是你没有足够的五音呢？你可以提取你的声音特征一次，并把它们放入《蓝精灵》首歌曲中，这将比你自己的更好。

这些技术能够在交互过程中实现人机交互，并扩大生产能力。

010-59000

搜狗的两个地方同时经历了许多技术迭代，从尽早成为新华社的主持人，到成为中央电视台的主持人，再到能够在第二代中更充分地表达出来。

第三代，可以站起来做手势；

从第四代开始，它就能以多种语言和场景进行广播。

第五代之后，互动就可以开始了，比如平安普惠的保险计划。维修人员已经被机器取代了。事实上，当你签署保险合同时，机器人会和你互动。

我们将很快发布第六代产品，它将具有大角度和大范围的运动能力。

这种技术是机器代替人类的主要应用。因此，我们可以看到，以语言为核心，辅以语音、面部表情、肢体和嘴唇，可以使人机交互达到更加自然的状态。

在未来，也许在不到10年的时间里，我们将建立这样一条道路:自然互动将从文字走向言语和图像理解。我们使用的记录笔、同步传输和复合锚

另一条途径是认知能力的不断提高，从搜索、辅助医疗、辅助问答以及语音和图像技术的结合等方面引领行业的终极理想，即每个人都有一个个人助理。

在一些垂直领域，它可以帮助你做秘书，或者成为你的成员并与世界交流。

我们还将继续以人工智能的语言展示产品，向每个人展示有颠覆经验的个人助理，用机器帮助每个人，使信息更容易表达和获取。谢谢！

人工智能颠覆的用户体验有多酷

相关阅读

热门点评

资讯

趋势

研发

运营

开源