2011 年 9 月 – 戴传庆

浅析手机语音交互设计

语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

语音识别技术作为输入方式，比按键输入和手势输入更为快捷，学习成本很低，对于非特定人连续语音识别系统的识别率达到98.73%，已经达到实用要求，具有广阔的应用前景，在手机端的应用有语音拨号、语音输入、语音命令、语音搜索和语音翻译等。

语音的技术原理比较复杂，可以从语音交互的过程来理解：

1.开启语音识别功能。一般由用户手动点击按钮启动，手机端暂时无法自动启动，如由语音命令启动或者根据音量高低判断开始识别。

2.进入说话界面。程序界面会通过视觉体现音量的变化。

3.说话完毕，系统开始分析。结束输入有两种方式：一是自动关闭，通常时输入单词完毕之后自己的关闭，另一种是用户手机手动关闭。系统处理过程可以分为以下几个步骤：

a）前端处理。该模块的主要任务是从输入信号中去除噪音等影响结果的因素，提取特征，供声学模型处理。信号处理之前会先进行断点检测，端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。

b）声学特征提取。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。如上传音频会利用到语音编码解码技术，可以减少音频的文件大小、存储空间或者传输比特率。

c）统计声学模型。计算各个帧的声学特征，如上下文建模。根据发声机理，音之间只能渐变，前一音会影响后一音，从而使得后一个音的频谱与其他条件下的频谱产生差异，从而使模型能更准确地描述语音。

d）发音词典。发音词典包含系统所能处理的词汇集及其发音，类似于拼音输入法的词库。如输入法，词典更新热词和词库有组于提高匹配的准确率。

e）语言模型。语言模型对系统所针对的语言进行建模，如分析语音上下文。

由于音频文件大小的限制，本地只能存储少量的词典，这也就要求复杂的语音需要连接服务器分析。谷歌语音搜索在用户输入完成之后才提示无法联网，在启动输入之前就应该检查网络连接状况。

4.系统分析完毕输出结果。一种是根据结果自动显示结果，如bing搜索，另外一种是提供选项供用户选择，这和输出结果的概率高低有一定关系。用户选择的结果对于词典的排序产生影响，增强语音的自适应和强健性，帮助形成个性化输入。

根据产品可识别的词汇量区分产品，对于特定语音命令，用户只能输入符合命令的词汇，比如说出联系人名字搜索。输入法的词汇更多，而语句搜索不但需要庞大的词汇库，处理连续的语音输入需要区分连音和变音，还要求能根据上下文和热词输出更为合理的结果。条件限制越少，语音识别的难度越大。因为一定程度上避免模糊音，词典数据越少，输入特定词汇的准确率越高。

中文的语音输入与英文不同，英文匹配不到词典配置的词就无法识别，中文词汇由单字组成，中文可以根据单字识别。

io 5的输入法已经加入语音功能，会逐步变为手机输入的常规功能，最终输出结果的准确率和操作流畅度是衡量其交互优劣的重要标准。

Android 3.0蜂巢界面设计

蜂巢的设计比之后的版本有很大的改进，更为简洁美观，同时有利于应用程序的架构、界面一致性和兼容多分辨率，虽然3.0版本还没有对外开源，但是已经体现在地图、图书、G+、Google I/O、网页Gmail、Google搜索首页和电子市场等界面设计中。

在3.0之前，标题栏显示小号字体，没有任何操作。控件栏位置相当于ios的标题栏，但是其交互更为优秀。文字标题居左显示，留给右边更多的空间，可以显示1-3个按钮。文字标题可以整合返回按钮或者主页按钮，简化了常见“返回”按钮，这对形成闭环操作非常有利。如果为了节约设计成本，非要将ios和android两个版本的应用程序设计成相似的视觉样式，3.0可以满足这种需求。

右边的控件可以放置对当前界面的操作，如刷新，也可以是全局的操作，如搜索功能和下列菜单，为了减少视觉变化，全局操作的控件尽量放置最右边。

平板的控件栏可以包含标签，在手机上显示成两个部分。之前的标签与按钮相似，3.0的标签视觉较弱，避免标签栏分为两个部分之后顶部过于复杂。

切换标签可以像WP7一样左右滑动，滑动手势没有精准性要求，比起点击标签更为方便。Google+将标签栏文字使用小号字体取代，扩大了正文显示空间，但是不适合标签过多的界面，比如电子市场中的8个标签页。对于界面通常超过两页的应用建议使用这种方式对分页处理。

3.0对输入框也进行了简化，究其原因：一方面是设计风格所需，另一方面简化的设计和可拉伸的色块可以随意兼容多种分辨率。

iPhone 4使用了高精度的显示屏之后，需要两套大小的图片资源，但iPad版本需要单独开发，这增加了开发成本，而一个Android应用程序之后使用三套资源图片兼容多种分辨率，显示在手机和平台时根据分辨率调整界面布局，程序只有一个。

对于横竖屏，不只是像iPad那样两栏和单栏之间的切换，变化种类更为多样化。

吐槽豆瓣电台

豆瓣电台听了27000多首歌，感觉歌曲猜中的概率没有提升，播放自己喜欢的歌曲不到10%，对电台的满意度下降，主要原因是：

1.播放喜欢歌曲的次数太少，已经选择了291首喜欢的歌曲，但只会播放王若琳、Maroon 5和 Daniel Powter。

2.界面有三个按钮可以对歌曲以3分满意度划分，“ 喜欢”为3分，“下一首”为2分，“不喜欢”为1分。但“下一首”和“不喜欢”之间的区别并不明显。80%的情况下播放2分的歌曲，长时间没有听到喜欢的歌曲不耐烦地会选择“不喜欢”，但依旧会推荐2分歌曲。

3.2分歌曲会循环播放，是由于应用运行在后台，没有及时地做区分为3分还是1分。网页可以探测到鼠标是否在当前网页活动，手机APP可以探知程序是否运行在前台。当从后台切换到前台选择“下一首” ，有理由相信用户不喜欢这首歌。

4.可以去掉“不喜欢”，但是依旧是3分满意度的方式区分歌曲，歌曲听完没有做任何操作，标记为2分。

5.电台以推荐喜欢的歌曲为目的，通过协同过滤等方法预测，对于用户“不喜欢”的歌曲也可以协同过滤，品味相近的人不喜欢某个歌曲，可以不再做推荐，但是有误判断的危险。有时电台还是会连续播放“不喜欢”的歌曲，即使已经手动标记过该歌曲。

6.当用户选择了喜欢200多首歌曲，用户对于歌曲的选择是否有上限？一般通过电台听歌，一是为了听一些未听过但是会喜欢的歌曲，二是收集自己已知喜欢但又懒于整理或者忘记名称的歌曲。

7.在手机端，当程序运行在后台时，调出程序选择“喜欢”或者“不喜欢”着实麻烦。iPhone越狱之后，在锁屏情况下可能可以通过翻转手机，利用重力感应来操作电台，比如翻转手机180度是播放下一首。