推荐系统应用研究:网上书店

除了分类查找和主动搜索,推荐系统也是用户浏览商品的重要途径,能帮助用户发现类似并感兴趣的产品,增加商品的访问量,将访问者转化为购买者,引导用户购买。最终产生的价值是提升用户购物体验和用户粘度,提高订单量,如Amazon30%的订单来自推荐系统。

相比于精准营销广告,推荐系统产生的信息更为自然,同样能起到推销商品的目的。但是如果推荐系统的信息过于密集或者不精准,也会有成为垃圾信息之嫌。如在当当网已登录情况下查看《Web信息架构:设计大型网站》,边栏和底部有以下几种形式的推荐系统:

  1. 购买本商品的顾客还买过
  2. 浏览本商品的顾客还看过
  3. 看过商品的顾客会买
  4. 浏览更多同类商品
  5. 您的浏览历史
  6. 最佳拍档
  7. 广告
  8. 和您兴趣相似的顾客还关注

推荐系统中存在重复得数据,如1、2和6都推荐《About Face 3交互设计精髓》,并且个人已经购买了这本书。喜欢的歌曲可以重复播放,已购买的书籍不可以重复推荐,而是把用户的购买记录作为主要的推荐依据。重复的数据会削弱推荐的有效性,过多的推荐形式和数据会大大稀释推荐的精准度。

个人曾是当当的忠实用户,已在当当网下过27次订单,购买过90本图书,推荐系统对购买的帮助几乎可以忽略不计,也没有对个人的购买记录加以利用。在购物车页面准备下订单时登录当当网,页面会跳转到首页,在下订单页面点击返回也会经常出现订单丢失的情况。

jindu

当当网的送货进度时间平均4-5天,下订单之后可以查看送货的进度。根据个人的设计经验,一般是明显让用户感觉到慢或者操作步骤多的时候才会使用进度条,稍微缓解用户的等待感,而卓越明确告知用户货物会在哪天送达。

am

由于嫌弃当当送货太慢,改用卓越,在未登录情况下查看《Web信息架构:设计大型网站》图书页面,突出显示“购买本商品的顾客还买过”,共推荐100本书籍,约50本是个人感兴趣或者已在当当网购买过的。由于主要使用一种形式的推荐,很好地避免了重复数据。

“购买本商品的顾客还买过”比“浏览本商品的顾客还看过”更能获得用户的信任,其使用的是item-to-item协同过滤系统,通过余弦计算商品的相似度来推荐,比起传统的协同过滤(Collaborative filtering),解决了冷启动的问题,不会过度地依赖用户的浏览和购买记录,在用户第一次查看图书时也能进行推荐。

鼠标停留在当当网推荐的书籍上显示的书籍封面图片和价格,而卓越显示书籍的评分、评价人数和价格,按照用户购买商品的过程,书籍的评分更能吸引用户浏览并产生购买欲望。

卓越的邮件中会带有图书推荐,图文并茂提供了有用的信息,并不会被个人当成垃圾邮件,看到感兴趣的数据可以查看或者直接购买,非常方便。而当当以文字形式邀请评论,收到第一份的时候会打开看看,其余30份内容一样的邮件直接被当成垃圾邮件删除。

两个网站的广告可以更精准些,没有按照书籍的标签相应显示广告,购买计算机类的书籍多是男性,当当网显示标签为女性的胸罩广告,卓越网显示高跟鞋和女性内衣的广告,也许能分散男同胞的注意力和点击次数,但是不会增加广告的转换率,显示数码产品的广告会更适用在此类图书页面。

重复和垃圾信息损害用户体验,推荐的信息在于精确和有用,不宜过多地显示。

移动设备简史

本文由江南大学设计学院在读研二硕士Tony译自Brian Fling所写《Mobile Design and Development》中的第一章《A Brief History of Mobile》。

我喜欢将移动行业的历史比作为Umberto Eco 的工作:你知道了是怎么回事,但在这个过程中却很伤脑筋。移动网络演化、运行移动网络的设备和我们每天使用的服务以惊人的速度迅速发展着,就如早期的手机更像二战时期的收音机发展到今天的超时尚的时装报表。

如果有一个关于移动设备的基本原则,那就是每一个事物都有自己的成因。它可能不是一个很好的理由,但仍然不失为一个理由。这样的历史或者背景给予了移动设备设计师与开发人员足够的耐心和激情来处理他们在移动生态系统中经常面临的问题。移动通信行业是一个没有耐心与热情就很难进入的行业。

本章将从设备的角度出发,也是移动生态系统中最普遍的方法来讨论移动媒介的发展。

继续阅读移动设备简史

推荐系统应用研究:音乐电台

推荐系统很少有单独的产品形态,多是和其他产品相结合,起到辅助的使用效果。如个人平时使用较多的推荐系统有输入法的字词联想、购书网站中书籍推荐、音乐电台的猜用户喜欢的音乐和谷歌阅读器的推荐条目。

douban

对于豆瓣音乐频道使用较少,虽然对音乐没什么研究,也不会买什么专辑或者听演唱会,但是很喜欢听音乐,有边工作边听音乐的习惯。豆瓣电台迄今累计收听13670首、喜欢136首和不喜欢666首,算是电台的重度用户吧,个人操作行为有:

  • 作为工作时间的背景音乐,处于后台运行状态。有时候工作入神,只要不是特别讨厌或者特别喜欢的歌曲一般不会去访问电台网页。
  • 离开工位的时候,拿下耳机不关闭音乐,1万多首歌里起码有30%没有真正听。
  • 听到广告和“哈狗帮”之类吵闹的音乐会找到电台的网页,选择不喜欢,无法停止的广告直接点击关闭电台,因为很容易导致走神影响工作。
  • 听到喜欢的音乐60%的概率会找到电台网页点击“喜欢”。
  • 发现特别喜欢或者寄希望能推荐相关歌曲时会去点击“喜欢”。
  • 听到不怎么喜欢的音乐也会选择点击“下一首”。

豆瓣电台推荐新歌力度比虾米网强,操作也更方便,不需要像虾米网的初始化时选择喜欢的歌手和选择喜欢音乐之后要选择标签,更加智能化,减少操作步骤。虾米的歌库好像不够全,多是推荐大众化的歌曲,但推荐的形式比豆瓣更丰富和取巧。

豆瓣不支持按歌手和专辑听歌,如果连续点击三次“不喜欢”没有听到喜欢的音乐或者经常播放讨厌怨女情歌,可能会选择听虾米网歌手专辑。如果能选择只听自己已经选择喜欢的100多首歌曲,或许不会切换到其他产品。

douban2

豆瓣电台通常作为浏览器的书签单独存在,通常直接访问豆瓣电台而不会从豆瓣主页再访问豆瓣电台,从电台返回到豆瓣主页只能手动修改网址或者点击专辑的链接查看专辑再返回主页。把喜欢歌曲的红心去掉,是不是意味着用户不再喜欢这首歌并要跳到下一首歌。

豆瓣电台在开始做之前,已经有了比较完善的初始化的数据,大部分专辑都有标签和评分,如专辑《我们是五月天》的相关元数据为:

  • 9592人平均评分为9.3。
  • 标签有:五月天(2450),台湾(701) MAYDAY(644),我们是五月天(374),摇滚(338),我们是:),五月天(264),rock(201),pop(160)
  • 每首歌收藏的人数。

从以上的标签可以看出,歌手、地区和音乐风格是用户的常用标签,可以假设这三个标签是影响用户选择的最主要元数据。英文MAYDAY、五月天、我们是五月天和我们是:),五月天是等价的标签,摇滚和rock是等价的标签,不存在像谷歌挑歌那样的互斥性标签(如节奏的舒缓和强烈)。从这个例子也可以看出用户语言具有模糊性,有必要使用受控词表来控制同义标签的不同语言表达方式。

豆瓣的用户群比较小众化,添加的标签质量比较高,使用标签可以简单地组织歌曲之间的联系,利用评分、收藏人数和标签数目可以确定推荐的优先级。

如用户在电台中选择喜欢专辑《我们是五月天》中的歌曲《拥抱》,那可能依照歌手推荐会更可靠,用户选择多首五月天的歌曲,那可以认定是五月天的粉丝了,歌库中添加了五月天的新歌,自当第一时间推荐。

与风格相比,地区的影响程度更低,但是不排除部分用户有这方面的偏好,比如只听华语的歌曲,这需要经过决策树之类方法多次推荐才能论证。选择风格“摇滚”,可以推荐标签为摇滚并且评分比较高的歌手,逐步确认用户的音乐喜好模型。在大力推荐歌曲之前,可以先完成对用户喜欢歌曲的收集。在不确定的情况下,可以多播放已喜欢的音乐或者喜欢歌手的热门歌曲。

用户喜欢的歌手有很多,但是喜欢的风格不会很多,同一风格下有很多歌手,用户喜欢的风格比歌手更复杂和模糊。歌手之间是并列的标签,而风格会形成明显的偏向。随着时间的改变,风格也会发生改变。

另外,标签要和歌曲更吻合,听到电台推荐杂音多的五月天演唱会歌曲,会选择不喜欢或者跳到下一首。系统或许会依此误以为用户不喜欢这首歌,低质量的歌曲会影响系统推荐的准确性。

博客挂马

15号20:01博客挂马,数据无故被人恶意删除,在蓝冰服务器供应商客服的帮助下恢复部分数据,保存在服务器上的图片全部丢失。本想一一添加图片,但是回头看看早期写的文章,于己于他人价值并不大,故原先的90多篇博文删除近半。

1.工具和流程图之类文章,网上随处可见。使用什么绘图工具和依照什么样的流程设计固然可以有助于设计,但并不是设计的主要问题,或者不是我等年轻之辈所得左右的问题。

2.翻译的iPhone的设计指南,需要的话还是看官网上原文。想看好的资料,英文还是必备的,翻译外文文献也是学习的重要途径之一。学会搜索相关资料、锻炼英文水平、锻炼组织语句的能力和学习老外写文章严谨的思维对于个人研究能力的提高大有裨益。通过翻译文章可以快速地组织自己的知识结构,提升自己的写作水平。

3.从工业设计转到交互设计,高质量的图片也见的够多,自己也喜欢展示些,但就职业发展来看,影响个人发展的不是设计能力,而是相对欠缺的逻辑思维能力和沟通能力。博客上少些图片也无大碍,最后能沉淀下来的还是文字和其背后的思想。

4.做手机交互设计,对技术的理解必不可少。最近由于个人兴趣研究推荐系统,不得不研究信息架构和技术性问题,现在的手机交互设计对于技术和设备还是有有很大的依赖性,设计无法独立成问题。

所以,借此机会更换博客模板,保留部分原创性文章,迭代至2.0,就当是工作一年零三个月的小结。

推荐系统的问题

推荐系统的基本原理是从数据库中匹配到根据分析用户行为推测出的喜好,根据推荐算法的不同,可以分为以下几种:

  • 协同过滤系统(collaborative filterring)
  • 基于内容的推荐系统(content-based)
  • 混合推荐系统(hybrid)
  • 基于用户-产品二部图网络结构(network-based)

其中数学公式居多,对于没有技术功底的设计人员来说有些晦涩难懂,个人尝试从产品设计的角度依次从数据、数据外围的产品和用户三个方面去分析,在分析之前需要了解以下问题:

1.关键元数据。元数据是关于数据的数据,可以用来描述和管理数据,如歌曲的演唱者、所属专辑、发行时间、发行公司和所属类别,《黑白》出自华纳2008年12月发行的方大同专辑《橙月 Orange Moon》。对于推荐系统而言,需要找到影响用户喜好的重要元数据,假设用户是方大同的粉丝,那演唱者是关键的元数据,用户可能还会喜欢此专辑中其他歌曲《小小虫》和《100种表情》,对于喜欢听新歌的用户,发行时间可能更为重要,还有可能因为用户喜欢听R&B。

baidumusic

结构化数据

2

非结构化数据

2.结构化和非结构化。元数据之间的结构化的组织(如歌曲的演唱者和演唱者所属的国籍)可以很方便获得,但这些的元数据通常只是关键元数据之一,还有非结构化的元数据(如节奏、声调和音色)也会影响用户的选择,数据之间的隐形联系只能通过大量的分析获得。

3.关联性。和用户的行为、背景、特征等相关,分析得出数据之间的规律性特征。常见的如购书网站上,购买了这本书的用户有40%购买了另外一本书。又如通过分析大量消费者的购买单挖掘出的数据关联性,得出啤酒和尿布之间的关联性。

4.多样性。关键元数据结构化的强弱影响产品的多样性,比如图书所属的类别复杂度高导致了图书的多样性,而音乐相对单一。产品的多样性意味着数据之间隐性的关联更为复杂,会增加分析的难度,推荐系统也更复杂。

5.时效性。数据更新的快慢和用户对新数据的需求影响数据的时效性,如热门论坛中帖子比博客中的文章时效性高。如微博和新闻这样时效性较高的数据要求服务器数据更新要高,时间影响推荐系统的重要数据。数据挖掘注重实时分析,根据用户的每次操作和新的数据的导入提供最新的推荐。

googlemusic

6.难以明确。要求用户用几个字词明确表述自己喜好什么样的产品是比较难的,用户的喜好会随着时间变化而改变。像Google的音乐推荐,对于大部分普通用户而言,那种节奏和音色选择到自己喜好的音乐会比较困难。推荐系统的意义在于根据用户的历史记录去推测用户的喜好,而不是让用户主动去选择。

xiami

7.标签。用户添加标签是组织数据的手动解决方法,但是也会导致其他问题:

  • 非自动化的解决方法会增加用户操作,难以挖掘数据之间的隐形联系。
  • 用户填写标签,由于词语的模糊性会导致标签过多,数据之间的联系会减弱,降低数据之间凝聚力。
  • 用户选择推荐的标签,易于理解的词语会导致数据凝聚力过强,导致数据偏向结构化,不利于用户发现感兴趣的内容。

8.打分机制。通常是五分制和两分制(喜欢/讨厌),分值越多,用户选择起来越麻烦,需要消除用户评价体系的差异性。用户协同过滤的内容偏向大众化,可以过滤到低质量的内容,但用户对小众化低分数的内容不一定就不感兴趣。通过调查问卷的方式,用户会选择每道题,而通过网络非强制性打分,用户不喜欢的内容很有可能不打分或者直接跳到下一个数据。

参考资料:

  1. 推荐系统的五大问题.《Resys china》
  2. 个性化推荐系统的研究进展.刘建国,周涛,汪秉宏.《自然科学进展》2009年1月第19卷第1期
  3. 豆瓣在推荐领域的实践和思考.王守崑
  4. 从web2.0到推荐引擎2.0.《学而时嘻之》