浅析手机语音交互设计

语音识别技术,也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

语音识别技术作为输入方式,比按键输入和手势输入更为快捷,学习成本很低,对于非特定人连续语音识别系统的识别率达到98.73%,已经达到实用要求,具有广阔的应用前景,在手机端的应用有语音拨号、语音输入、语音命令、语音搜索和语音翻译等。

语音的技术原理比较复杂,可以从语音交互的过程来理解:

 

1.开启语音识别功能。一般由用户手动点击按钮启动,手机端暂时无法自动启动,如由语音命令启动或者根据音量高低判断开始识别。

 

2.进入说话界面。程序界面会通过视觉体现音量的变化。

3.说话完毕,系统开始分析。结束输入有两种方式:一是自动关闭,通常时输入单词完毕之后自己的关闭,另一种是用户手机手动关闭。系统处理过程可以分为以下几个步骤:

a)前端处理。该模块的主要任务是从输入信号中去除噪音等影响结果的因素,提取特征,供声学模型处理。信号处理之前会先进行断点检测,端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。

b)声学特征提取。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。如上传音频会利用到语音编码解码技术,可以减少音频的文件大小、存储空间或者传输比特率。

c)统计声学模型。计算各个帧的声学特征,如上下文建模。根据发声机理,音之间只能渐变,前一音会影响后一音,从而使得后一个音的频谱与其他条件下的频谱产生差异,从而使模型能更准确地描述语音。

d)发音词典。发音词典包含系统所能处理的词汇集及其发音,类似于拼音输入法的词库。如输入法,词典更新热词和词库有组于提高匹配的准确率。

e)语言模型。语言模型对系统所针对的语言进行建模,如分析语音上下文。

由于音频文件大小的限制,本地只能存储少量的词典,这也就要求复杂的语音需要连接服务器分析。谷歌语音搜索在用户输入完成之后才提示无法联网,在启动输入之前就应该检查网络连接状况。

 

4.系统分析完毕输出结果。一种是根据结果自动显示结果,如bing搜索,另外一种是提供选项供用户选择,这和输出结果的概率高低有一定关系。用户选择的结果对于词典的排序产生影响,增强语音的自适应和强健性,帮助形成个性化输入。

根据产品可识别的词汇量区分产品,对于特定语音命令,用户只能输入符合命令的词汇,比如说出联系人名字搜索。输入法的词汇更多,而语句搜索不但需要庞大的词汇库,处理连续的语音输入需要区分连音和变音,还要求能根据上下文和热词输出更为合理的结果。条件限制越少,语音识别的难度越大。因为一定程度上避免模糊音,词典数据越少,输入特定词汇的准确率越高。

中文的语音输入与英文不同,英文匹配不到词典配置的词就无法识别,中文词汇由单字组成,中文可以根据单字识别。

io 5的输入法已经加入语音功能,会逐步变为手机输入的常规功能,最终输出结果的准确率和操作流畅度是衡量其交互优劣的重要标准。

Android 3.0蜂巢界面设计

蜂巢的设计比之后的版本有很大的改进,更为简洁美观,同时有利于应用程序的架构、界面一致性和兼容多分辨率,虽然3.0版本还没有对外开源,但是已经体现在地图、图书、G+、Google I/O、网页Gmail、Google搜索首页和电子市场等界面设计中。

 

在3.0之前,标题栏显示小号字体,没有任何操作。 控件栏位置相当于ios的标题栏,但是其交互更为优秀。文字标题居左显示,留给右边更多的空间,可以显示1-3个按钮。文字标题可以整合返回按 钮或者主页按钮,简化了常见“返回”按钮,这对形成闭环操作非常有利。如果为了节约设计成本,非要将ios和android两个版本的应用程序设计成相似的视觉样式,3.0可以满足这种需求。

右边的控件可以放置对当前界面的操作,如刷新,也可以是全局的操作,如搜索功能和下列菜单,为了减少视觉变化,全局操作的控件尽量放置最右边。

平板的控件栏可以包含标签,在手机上显示成两个部分。之前的标签与按钮相似,3.0的标签视觉较弱,避免标签栏分为两个部分之后顶部过于复杂。

 

切换标签可以像WP7一样左右滑动,滑动手势没有精准性要求,比起点击标签更为方便。Google+将标签栏文字使用小号字体取代,扩大了正文显示空间,但是不适合标签过多的界面,比如电子市场中的8个标签页。对于界面通常超过两页的应用建议使用这种方式对分页处理。

3.0对输入框也进行了简化,究其原因:一方面是设计风格所需,另一方面简化的设计和可拉伸的色块可以随意兼容多种分辨率。

iPhone 4使用了高精度的显示屏之后,需要两套大小的图片资源,但iPad版本需要单独开发,这增加了开发成本,而一个Android应用程序之后使用三套资源图片兼容多种分辨率,显示在手机和平台时根据分辨率调整界面布局,程序只有一个。

对于横竖屏,不只是像iPad那样两栏和单栏之间的切换,变化种类更为多样化。

吐槽豆瓣电台

豆瓣电台听了27000多首歌,感觉歌曲猜中的概率没有提升,播放自己喜欢的歌曲不到10%,对电台的满意度下降,主要原因是:

1.播放喜欢歌曲的次数太少,已经选择了291首喜欢的歌曲,但只会播放王若琳、Maroon 5和 Daniel Powter。

2.界面有三个按钮可以对歌曲以3分满意度划分,“ 喜欢”为3分,“下一首”为2分,“不喜欢”为1分 。但“下一首”和“不喜欢”之间的区别并不明显 。80%的情况下播放2分的歌曲,长时间没有听到喜欢的歌曲不耐烦地会选择“不喜欢”,但依旧会推荐2分歌曲 。

3.2分歌曲会循环播放,是由于应用运行在后台,没有及时地做区分为3分还是1分。网页可以探测到鼠 标是否在当前网页活动,手机APP可以探知程序是否 运行在前台。当从后台切换到前台选择“下一首” ,有理由相信用户不喜欢这首歌。

4.可以去掉“不喜欢”,但是依旧是3分满意度的方式区分歌曲,歌曲听完没有做任何操作,标记为2分 。

5.电台以推荐喜欢的歌曲为目的,通过协同过滤等方法预测,对于用户“不喜欢”的歌曲也可以协同过滤,品味相近的人不喜欢某个歌曲,可以不再做推荐,但是有误判断的危险。有时电台还是会连续播放“不喜欢”的歌曲,即使已经手动标记过该歌曲。

6.当用户选择了喜欢200多首歌曲,用户对于歌曲的 选择是否有上限?一般通过电台听歌,一是为了听 一些未听过但是会喜欢的歌曲,二是收集自己已知 喜欢但又懒于整理或者忘记名称的歌曲。

7.在手机端,当程序运行在后台时,调出程序选择“喜欢”或者“不喜欢”着实麻烦。iPhone越狱之后,在锁屏情况下可能可以通过翻转手机,利用重 力感应来操作电台,比如翻转手机180度是播放下一 首。

触摸屏输入的交互设计

触摸屏手机输入时会在界面绘制虚拟键盘,用于输入字符,可以使用在所有应用程序中。特别是在短信和邮箱等需要频繁输入文字时,其输入速度直接影响用户操作效率。

缺点

但是同样全键盘输入,触摸屏没有物理按键效率高,原因在于:

1.输入法需要定位手指的位置,比如双手操作电脑键盘时,左手食指中指定位在F键,右手中指定位在J键,而触摸屏无法像按键的凸点或者输入感觉定位,难以形成高效的盲打。

ig

2.触摸屏本身点击没有物理按键精准,触摸屏点击目标区域没有真正点击到目标区域,偏向目标正中心的下方。无论是单手和双手输入,触摸屏本身误点击的概率高。在虚拟键盘这样按键密集型的区域,每个按键的可点击区域有限,误点击的概率更高。

3.点击时没有按键那样明确的触感反馈,由于手指点击会遮住按钮,iPhone的按钮被点击时会放大的视觉反馈。

IMG_0131 IMG_0132

4.手指移动范围较大,按键手机输入时手指局限于按键内,而触摸屏输入和切换输入框时手指还在非虚拟按键区域和按键区域切换。输入中文时,并不是像英文那样点击按键之后字符立即上屏,会显示拼音串选择需要的汉字再上屏,手指需要点击备选词。

5.触摸屏没有组合键,输入数字和符号需要切换面板。

6.移动输入光标需要精准点击或者借助于放大镜,物理按键可以直接使用方向键切换光标,对于修改错误字符操作产生不便。

中文输入

常规触摸屏中文拼音输入过程可以分为以下步骤:

1.输入字母,键盘提供字母输入建议。比如输入声母w,可以组合韵母“a、u”等高亮显示,但是这只是全拼有效,对于简拼没有意义。简拼输入时只输入拼音的第一码,在输入词组时合理运用简拼可以大大提高输入速度,缺点是容易出现重码。

2.已输入字母组成字母串,智能切词并显示候选词。单个候选词是根据字母中词库中匹配,词组短语和长句需要计算汉字组合的概率。用户在使用输入法也是训练不断更新的过程,使用时间越长,词库越符合个人的输入习惯。词库更新的方法有:

a)单个字母或者全拼匹配候选词的顺序调整。比如输入“hao”,第一个候选词“好”被选择的概率更大,但用户多次选择“号”,那么“号”可能会被调整为第一个候选词。初始化词库可能由字典、常用短文、文章和网络用语等分别提取而成,候选词、汉字组合以及联想词的概率可以从词库中计算得出,更为复杂的长句输入需要分析汉语的语言习惯。

b)用户可以调整词库中字词候选的概率,也可以自定义词组,对本没有联系的单词建立关联,俗称自造词。比如输入“nima”,用户手动输入“尼玛”,下次再输入同样字母时就会变为候选词。电脑端计算更为智能,分两次输入“尼”和“玛”,有可能根据输入的先后顺序组成词组。

c)由网络和群体用户会对原有的默认词库的“新陈代谢”。如果多数用户输入了“尼玛”的概率超出一定概率并成为流行词,可以将该词汇更新到所有用户的词库当中。当词库的几个来源产生更新时,也会影响词库,比如网络上出现的热门事件“郭美美”。

hhzz hhaa

3. 中文的智能纠错能适当缓解误点击导致的效率问题。长句输入时,如发现字母串中个别输入错误时,无法像电脑端这样使用方向键微调,只能整段删除。智能纠错是将疑似错误输入的字母与词库比对,经过运算之后返回正确的输入结果,可以对误点击中常见的打反字母、漏打字母和按错字母的情况进行纠错。这对于快速盲打非常有帮助,可以变相地增加字母的可点击区域,比如已输入“haohaizi”,当继续输入“uexi”,时,第6个字母会由i变为o。没有纠错的情况下,只会根据已输入的字母去匹配短语或者长句。有纠错之后,可以会按照多个字母去匹配,如想输入i,那么只需要点击“u、i、o”中一个,一个按钮的可点击区域变为三个按钮。

bds sg

在输入过程中,故意输入错误部分字母,百度手机输入法会纠正已输入的字母串,搜狗手机输入法保留错误的字母串。

4.中英混输和输入数字标点,切换面板会打断输入流程,比如在中文状态下需要输入邮箱,由于@和.需要切换输入面板,目前只有对数字使用划词输入。因为单个常用字符切换面板是很低效的操作,特别遇到面板的切换入口和出口不一致的情况。

发展趋势

触摸屏的交互方式已经成为趋势,利用触摸屏的特点和优化程序是可以适当弥补缺陷,触摸屏的交互方式比按键更为丰富,甚至在特定情形下触摸屏输入更为方便。
IMG_0133 IMG_0134

输入银行账号、邮箱、地址栏和数据表等特殊类别字符段时,虚拟键盘可以改变输入法布局或者切换面板,便于用户快速输入。比如当输入账号邮箱时,虚拟键盘可以显示@和.等字符。遇到连续的输入框时,右下角的按钮变为“Next”,相当于电脑键盘的tab键,用于快速切换到下一个输入框。

IMG_0121 IMG_0119

手机端编辑字符时如能提供常用的命令会对虚拟键盘起到辅助的作用,这些命令通常显示在虚拟键盘的上方,不受输入法控制,属于应用程序自定义命令并同时出现或者消失。

 

LBS产品的信息架构优化

LBS产品与浏览器与IM等产品相比,技术难度较小,但界面的层级关系更复杂。以大众点评为例,包含了查找、搜索、签到和优惠券等功能和信息,也可以看出组织界面的层级关系是以依靠产品本身的功能和信息去区分,这种方式在Symbian按键手机中尤为常见,依照功能使用的频率依次排列,优点是扩展性较强,功能增多可以将首页变为4×4的icon,但这不是最优方案。

d dian

一是这种架构方式的明显缺陷在于导致页面跳转增多,切换功能必须返回首页。

二是功能本身重复和交叉,这对手机界面显示空间是种浪费。第二个“搜索”和首页顶部的搜索框重复,“附近”和“搜索”的区分在于范围不同,没有必要独立成两种功能,可以在顶部下拉框中加以区别。找地点和签到看似两个功能,其实前者可以包含后者,找到地点之后用户可以选择是否签到,点击“签到”还是要先找地点,区别在于用户目的不同,但是操作路径有重复之处。

三是优惠券、团购和最佳餐厅作为单独的功能,不可预期有有多少用户会主动根据优惠券和最佳餐厅去消费,可能导致使用率很低,这和产品本身缺乏主要线性的操作流程有关系。单有新的功能或者业务,应该尽量已有的功能有辅助作用,而不是独立运营。假设用户使用产品的主流程是选择消费地点,在查找地点时发现有目标地点有优惠券或者是最佳餐厅,和评价一样会对用户的决策产生辅助作用,帮助用户挑选。

Q bd

大众点评之前首页与QQ美食相似,可能增加团购等信息之后打破了原有的组织方式,百度身边以选择地点为主线流程。而按照用户使用产品的过程,也会有不错的架构思路。

fs2 fs

我要消费,就是想找吃的,查找美食,依照平均消费、评分和优惠券等信息决策目标地点。Foursquare有推荐地点,用户的消费目标并经常都是明确的,提供少量信息帮助决策,对于用户满意度非常有帮助。比如新开的餐厅,最佳餐厅在打折、朋友对附近某餐厅评价很好。信息结构不是纯粹的树形结构,可以是液态,匹配地点的标签和用户的标签会产生很好的推荐效果。

我正在消费,选择推荐菜谱,群体消费对于产品的推广非常有帮助。比如微博、IM和游戏是不同程度的浸入式使用,而LBS产品却比较开放,搜索得到的信息会与朋友共享,当下产生口碑。让用户把签到的“垃圾”信息发送到微博上,还不如吸引用户一起签到,同时要降低产生信息的成本,手机用户输入成本大。

dp dp1

从iPhone成为flickr中拍照最多的设备和新浪微博的手机用户占到一半来看,手机用户可以产生大量的信息。微博的转发数比评论多,也是因为成本的原因,同时能快速达到传播效应。猜想淘宝手机中手机充值和彩票类产品占用较大的比例,因为可以快速完成产品挑选,成本低。LBS产品在输入点评时,可以降低输入字符的限制,只是选择总评分、口味、环境也完全可以。

如果担心产生大量垃圾评价,可以只限定自己和好友看到。豆瓣在计算商品评价时,会适当过滤到评价数量比较少的用户,从可信度比较高的用户评价中选择平均分。

之所以这样做是后续可以对用户行为分析,这对用户粘度会有非常重要的作用。一个产品除了有用户需要的功能,还要能满足用户的个性化需求,提升用户更换产品的成本。

IM除了有聊天功能,还有用户的关系圈,LBS产品除了有查找地点和签到的功能,还能理解用户的口味偏好、活动范围和消费水平等等。所以组织首页界面可以从功能列表转变为个人中心,增加用户对产品的依赖程度,这也符合web2.0的产品特性。

手机产品不只是主站的附属品,便于用户随时随地使用,为产品贡献更多独立用户和新注册量,可能会发现很多用户只使用手机产品,很少使用主站的产品。像淘宝购物,主站对于用户来说,使用起来明显比手机端方便,但是LBS类产品不需要比对产品质量,需要的信息量少,手机产品的体验甚至可能要优于主站。

手机产品不只是个功能产品,当有使用需求时才会从手机众多功能列表中点击图标。在看到数据表明70%多的用户使用手机浏览新闻,并不意味着占领手机用户必须做一款新闻类产品。新闻确实是一大需求,而掩藏在数据背后可能是低端手机用户只能看看新闻,出于打发时间的目的。尝试影响用户的生活,美食和旅行等刊物资讯也可以推送给用户,用户更多的是主动使用产品,无聊时间浏览资讯,看到不错的餐厅随手收藏,当周末有优惠或者团购时适时提醒用户,或者有朋友也想去同类的餐厅可以自动产生消息提醒,为用户带来更多的便利和生活乐趣。

LBS可以与IM一样成为手机的必装应用程序,这完全有可能。