Siri的语音交互革命

iPhone 4S融入了语音功能，这将是手机的革命性的交互操作。或许你使用过Android的语音命令、Bing的语言搜索和Dragon Dictation的语音输入，但是这些和Siri还有很大差距：

而Siri不但包含以上技术，看似还要理解用户说话的意思，将人类语言翻译成系统可以理解的语言，之后再执行命令。之所以像是理解用户，个人认为原因在于：

从资料和视频中看看Siri可以做哪些事情及其存在的问题：

1.结合蓝牙4.0或者耳机唤醒手机。语音搜索和语音输入等技术都要用户手动点击按钮触发语音功能，这事本身就不够酷。但是不借助设备还存在困难，语音功能实时开启探测声波会耗费电量。

2.语音功能面临噪音和识别来源的问题，在视频中Siri都是在个人独处，比较安静的环境下使用，适用的场景比较单一。或许以后会加上定向麦克风和声纹判定声波来源，排除外界干扰。

3.包含语音搜索，可以直接搜索天气、股票、联系人和地址，这类搜索结果单一，不需要从众多结果中选择。

4.包含语音命令，语音查询联系人、启动某个应用程序和设置闹钟等，但还限于手机中常用的功能。命令必须是特定的语句格式，比如打电话是“call+ 人名”，播放音乐是“play+歌名”，短信是“tell+人名+内容”。

5.语音播报短信文本，语音输入短信和邮件，但系统可能会进行二次确认，将输入内容再次读一遍，适合盲人使用。这种语音输入和语聊一样，需要用户点击按钮触发系统开始探测声波。

6.系统在答复用户时，使用人性化语句交流，而不是简单的完成命令或者特定的词组。

设想下所有的手机操作都可以使用语音完成，大大减少文本输入和功能之间的频繁切换，更多的应用程序会支持语音交互。随着产品迭代，语音真有可能把手机变为智能机器人，不仅仅是执行命令，陪用户聊天等更为复杂的机器翻译也可能融入到手机中，Siri才只是个开始。

发布者