Siri的语音交互革命

iPhone 4S融入了语音功能,这将是手机的革命性的交互操作。或许你使用过Android的语音命令、Bing的语言搜索和Dragon Dictation的语音输入,但是这些和Siri还有很大差距:

  • 语音命令只能理解系统特定的词汇。
  • 语音搜索与手动输入是并列搜索方式,识别词汇再搜索。
  • 语音输入也是将语音声波转换为文本。

而Siri不但包含以上技术,看似还要理解用户说话的意思,将人类语言翻译成系统可以理解的语言,之后再执行命令。之所以像是理解用户,个人认为原因在于:

  • 视频弱化了特定的语音命令,比之前的语音操作看起来更像是人与人之间的沟通,启动操作符合用户语言习惯。
  • 有人性化的语音反馈,而不是呆板的视觉反馈,手机就是一位声音甜美的私人助理。
  • 覆盖了手机常用功能,不限于某个特定的应用程序中使用。
  • 做的更为彻底,很少有手动点击行为,这会影响语音交互的流畅度。

从资料和视频中看看Siri可以做哪些事情及其存在的问题:

1.结合蓝牙4.0或者耳机唤醒手机。语音搜索和语音输入等技术都要用户手动点击按钮触发语音功能,这事本身就不够酷。但是不借助设备还存在困难,语音功能实时开启探测声波会耗费电量。

2.语音功能面临噪音和识别来源的问题,在视频中Siri都是在个人独处,比较安静的环境下使用,适用的场景比较单一。或许以后会加上定向麦克风和声纹判定声波来源,排除外界干扰。

3.包含语音搜索,可以直接搜索天气、股票、联系人和地址,这类搜索结果单一,不需要从众多结果中选择。

4.包含语音命令,语音查询联系人、启动某个应用程序和设置闹钟等,但还限于手机中常用的功能。命令必须是特定的语句格式,比如打电话是“call+ 人名”,播放音乐是“play+歌名”,短信是“tell+人名+内容”。

5.语音播报短信文本,语音输入短信和邮件,但系统可能会进行二次确认,将输入内容再次读一遍,适合盲人使用。这种语音输入和语聊一样,需要用户点击按钮触发系统开始探测声波。

6.系统在答复用户时,使用人性化语句交流,而不是简单的完成命令或者特定的词组。

设想下所有的手机操作都可以使用语音完成,大大减少文本输入和功能之间的频繁切换,更多的应用程序会支持语音交互。随着产品迭代,语音真有可能把手机变为智能机器人,不仅仅是执行命令,陪用户聊天等更为复杂的机器翻译也可能融入到手机中,Siri才只是个开始。

发布者

晓生

移动互联网产品设计