18/01/04
语音交互科普:AI能和你语音聊天吗?

为什么会有语音交互?它适用于什么场景?不适用于哪些?文章为你解读。

什么是语音交互

在没有机器之前,人类最早的交互方式就是语言和动作。如今,在自然交互方式的趋势下,我们又回到了语言这种交互形式上。

原始的交互方式,就是人与人用语言、动作、眼神交互,人与物用动作交互。机器刚出现的时候,并没有人机交互的理念,机器很难操作,需要人去学习和适应。肖尔斯的“QWERTY”键盘会流传开来就是因为这种字母的排列设计可以降低打字速度,避免快速输入造成按键连杆的互相干涉。

二战期间的研究促进了人因工程的发展,机器适应人类、提高人的效率的理念得到发展。在计算机领域,从命令行界面(CLI)进入到图形用户界面(GUI)是一大突破,随后发展到目前的主流操作方式触控,使用手指在屏幕上滑动点按。语音交互界面(Voice User Interface,VUI)、手势、动作、表情交互,甚至脑机接口,都属于自然用户界面(NUI)。

从载体上分,语音交互以手机或电脑为载体,或以其他硬件为载体。除了这些,在客服、教育和医疗等行业也都有应用,如客服语音质检、口语测评等。

图1 语音交互界面的形式

如何评价语音交互

VUI的效率高还是低?

高效的交互方式就是好的交互方式。人机交互在于提高人的使用表现,从速度、准确性、注意负荷三个维度衡量。让用户速度越快、越准确,并且占用最少注意负荷的就是好的交互。我们来看几种情况。

输入文本:效率极高。人说话的速度比打字快,且不需要分心看屏幕,考虑到打字输入也有错误,语音交互在输入文本表现不错。因此很多产品都会在文本输入处加上语音入口。

布置任务:如果我们想打快车回家,用语音助手还是图形界面的打车APP更快?由于路径短,语音助手的理论速度更快,唤醒Siri并说句话,不需要打开APP再点选。在现有状况下,输入任务容易出错。如果命令语言出现偏差,语音助手听不懂你的意思,就会导致任务失败。我们需要思考该怎么布置任务,是说“我要打车回家”还是“打开XX并打车回家”?如果语音助手三次都听不懂命令,你还会继续尝试吗?放弃语音布置任务,只要打开APP,找到熟悉的入口点击操作就完成了。

输出:相比即时的图形反馈,语音是一种不太合格的输出方式,它过于缓慢、效率低下。由于听觉是线性的,我们只能听完一句话再听下一句,而不能像视觉一样瞬间完成图片加工,也不能在文本间扫描跳过,电话语音服务系统就是这种浪费时间的方式。另外,持续听语音还会消耗大量注意和记忆资源,如果客服念完却没有听到想要的内容,重听按0是另一场噩梦。另一方面,我们大部分的信息来自于视觉,但语音方式不能输出视觉信息。

适合双手被占用的场合

语音交互适合在哪里使用?双手被占用时,如驾驶、烹饪、游戏等情况。比如,开车时眼睛需要看路,双手握着方向盘,而且车内环境既安静又私密,这种情况下就适合使用语音交互。另外,在输出层面上,如果视觉通道被占用,听觉通道更适合接收紧急和重要的通知。

门槛极低

语音交互的支持者认为,语音是最自然的交互方式。人人都会说话,门槛极低,尤其对于输出困难人群(如视力障碍人群),他们完全可以无障碍的使用语音交互的形式。但是另一方面,习惯触控的人群不一定愿意转向语音,对新技术有畏难情绪的人群也可能不愿意尝试语音交互这种“新”的技术。

语音可以传递情感,但人还不适应和机器交谈

语音由于有声调和节奏,相比文字,更能传递情感。问题在于我们不习惯和机器人或者手机对话,据统计,在公共场合使用Siri的人只有3%。我们默认语言是人和人交流的方式,或是和猫、狗这种我们认为有人性的动物交流的方式。当人与物进行交流时,更多会采用动作交互。因此人和手机说话时会有很奇怪的感觉,尤其对于东方人来说,心理障碍可能会更大。

为了减少用户的压力,拉近心理距离,很多智能语音助手会设定自己的“人物形象”。例如Siri高冷又忠诚,微软小冰可爱又贫嘴。另外,语音助手大多是女性声音,也是因为女性的声音听起来更加和善包容。在操作过程中出现问题,如果响起了男性的声音,容易给使用者产生被责备、被批评的感觉。

不过,语音助手也不能太像真正的人。恐怖谷理论认为,对于和人越来越像的东西,我们的好感会上升,但我们厌恶很像人而不是人的东西,例如僵尸。从恐怖谷的理论来看,我们可能会害怕逼真的语音助手。

图2 恐怖谷

不适合在公开场合使用

语音交互不适合在公开场合使用,尤其是图书馆、办公室这类安静的场合。

身份识别问题。在汉堡