幻灯片 1 - Shenzhen...

Post on 06-Oct-2020

4 views 0 download

Transcript of 幻灯片 1 - Shenzhen...

1502030001: 语义网基础(主讲“智能推荐技术”)

潘微科深圳大学 计算机与软件学院

panweike@szu.edu.cn

2015年春季学期

1

Outline

I. 课程介绍

II. 基础知识介绍(part 1)

II. 基础知识介绍(part 2)

III. 互联网推荐系统案例分析

IV. 公开数据集和开源代码

2

教师信息

• 潘微科 Weike Pan

• Office: 南校区计算机与软件学院大楼936室(B1电梯)

• Email: panweike@szu.edu.cn

• Phone: 26534310

• Office hour: 周一上午10:00-12:00

• 更多信息:http://www.cse.ust.hk/~weikep/

3

课程信息

• 基本信息:语义网基础,1502030001(课程号),综合选修,2.5学分(理科学分),54学时(36课堂+18实验课),2012软件工程01/2012软件工程02/2012软件工程03(主选班级)

• 课堂:每周五7-8节,教学楼A208教室

• 实验课:双周五5-6节,办公楼447实验室(网络集成实验室)

• 课程QQ群:“语义网基础(2015Spring)”,315293067 (群号),请

用实名,建议同学之间多交流技术,我也会发一些信息

• 助教:N/A

4

特别说明!

• 选课系统中的备注:主讲“智能推荐技术”。

• 本课程的内容是语义网的应用,重点是“智能推荐技术”。

• 主要原因:暂时不能开设一门以“智能推荐技术”为课程名的课程

5

教材

• 教材:– Dietmar Jannach, Markus Zanker, Alexander Felfernig, Gerhard Friedrich。蒋凡译。推

荐系统。人民邮电出版社,2013.7。 ISBN: 9787115310699。

– Dietmar Jannach, Markus Zanker, Alexander Felfernig, Gerhard Friedrich. Recommender Systems: An Introduction. Cambridge University Press, 2011. http://www.recommenderbook.net/recommender-systems-introduction

• 参考教材:– 项亮。推荐系统实践。人民邮电出版社,2012.6。ISBN: 9787115281586。

– Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B. Kantor. Recommender Systems Handbook. Springer, 2010.10.

6

教学安排

7

周次 周日 周一 周二 周三 周四 周五 周六 周五:7-8(教学楼A208教室)03月 一 1 2 3 4 5 6 7 介绍03月 二 8 9 10 11 12 13 14 面向显式反馈的推荐方法及评估方法(AF,MAE,RMSE,Sparsity)03月 三 15 16 17 18 19 20 21 面向显式反馈的推荐方法(Memory-Based CF)03月 四 22 23 24 25 26 27 28 面向显式反馈的推荐方法(MF)04月 五 29 30 31 1 2 3 4 面向显式反馈的推荐方法(MF)04月 六 5 6 7 8 9 10 11 面向隐式反馈的推荐方法(PopRank,Memory-Based OCCF)04月 七 12 13 14 15 16 17 18 面向隐式反馈的评估方法(Precision,Recall,F1,NDCG,ARP,MRR,1-call)04月 八 19 20 21 22 23 24 25 面向隐式反馈的推荐方法(BPR)05月 九 26 27 28 29 30 1 2 假日05月 十 3 4 5 6 7 8 9 面向隐式反馈的推荐方法(FISM)05月 十一 10 11 12 13 14 15 16 面向异构反馈的推荐方法(SVD++)05月 十二 17 18 19 20 21 22 23 基于内容的推荐方法05月 十三 24 25 26 27 28 29 30 混合推荐方法06月 十四 31 1 2 3 4 5 6 专题:推荐方法与公开竞赛、开源软件(MyMediaLite,libFM,SVDfeature,libRec)06月 十五 7 8 9 10 11 12 13 专题:推荐技术与可解释性、在线攻击、在线消费决策、社交网站、普世计算06月 十六 14 15 16 17 18 19 20 专题:推荐技术与产业应用06月 十七 21 22 23 24 25 26 27 机动、答疑07月 十八 28 29 30 1 2 3 407月 十九 5 6 7 8 9 10 11

与去年课程的差异:增加“算法”,减少“专题”

实验安排

8

周次 周日 周一 周二 周三 周四 周五 周六 周五:5-6(办公楼447网络集成实验室)03月 一 1 2 3 4 5 6 703月 二 8 9 10 11 12 13 14 实验1:互联网推荐技术案例分析03月 三 15 16 17 18 19 20 2103月 四 22 23 24 25 26 27 28 实验2:推荐系统中的用户反馈数据分析04月 五 29 30 31 1 2 3 404月 六 5 6 7 8 9 10 11 实验3:面向显式反馈的推荐方法应用04月 七 12 13 14 15 16 17 1804月 八 19 20 21 22 23 24 25 实验4:面向隐式反馈的推荐方法应用05月 九 26 27 28 29 30 1 205月 十 3 4 5 6 7 8 9 实验5:面向异构反馈的推荐方法应用05月 十一 10 11 12 13 14 15 1605月 十二 17 18 19 20 21 22 23 实验6:混合推荐方法应用(1)05月 十三 24 25 26 27 28 29 3006月 十四 31 1 2 3 4 5 6 实验6:混合推荐方法应用(2)06月 十五 7 8 9 10 11 12 1306月 十六 14 15 16 17 18 19 20 实验7(作为期末考试):推荐技术综合应用06月 十七 21 22 23 24 25 26 27 机动、答疑07月 十八 28 29 30 1 2 3 407月 十九 5 6 7 8 9 10 11

先修课程/基本技能

• Java程序设计(不要求GUI、网络、数据库编程)

• 线性代数、微积分/高等数学

• 英文阅读

9

几个基本问题

• WHY:我为什么要学“智能推荐技术”?– 智能推荐技术作为一个应对信息过载(Information Overload)问题和提供个性化服务的

有效手段,在学术研究和商业应用方面获得了广泛关注和巨大成功,甚至被称为是一个互联网应用系统的“标配”。近年来,在电子商务、搜索引擎、在线游戏、移动设备、社交网络、视频点播等应用领域都有许多非常成功的实际案例。目前,国内互联网公司在这个领域的人才缺口非常大,百度、阿里巴巴、腾讯等众多互联网公司都设有相关部门或团队投入研发,招聘人才…

• WHAT:我能从“智能推荐技术”课程学到什么?– 算法:面向显式、隐式、异构反馈的推荐方法,以及混合推荐方法等

– 专题:公开竞赛、开源软件、可解释性、在线攻击、在线消费决策、社交网站、普世计算、产业应用等

• HOW:我如何能学好“智能推荐技术”?– 课堂教学

– 实际开发(实验课作业)– 查阅网上和图书馆数字数据库中的MOOC课程、讲座、论文、书籍等资料

10

MOOC课程推荐

• Introduction to Recommender Systems– https://www.coursera.org/course/recsys

• Joseph A Konstan– Professor, Computer Science and Engineering, University of Minnesota

– http://www-users.cs.umn.edu/~konstan/

• Michael D Ekstrand– Ph.D Candidate, Computer Science and Engineering, University of

Minnesota

– http://elehack.net/

MOOC课程推荐

• Machine Learning– https://www.coursera.org/course/ml

• Andrew Ng– Associate Professor of Stanford University, Chief Scientist of Baidu

– http://cs.stanford.edu/people/ang/

与智能推荐技术较为相关的领域

• 信息检索 Information Retrieval (IR)

• 数据挖掘 Data Mining (DM)

• 机器学习 Machine Learning (ML)

• 人机交互 Human-Computer Interaction (HCI)

• 人工智能 Artificial Intelligence (AI)

13

智能推荐技术在AI(人工智能)中的位置

• 认识你– Fingerprint Recognition指纹识别– Speech Recognition声音识别– Face Recognition人脸识别

• 熟悉你– Behavior习惯– Interest兴趣– Topic主题

• 懂你– Intent意图– Recommendation推荐– Assistance助理

引自:香港科技大学教授杨强博士题为《终身机器学习和认知成长》的报告,第三届中国智能产业高峰论坛(深圳,2013年10月27-28日)。

14

国内技术专家的观点

“…正值周末…打开百度音乐随心听的私人频道,房间里回荡起陌生而又对味的旋律;打开百度首页,猜你喜欢频道已经为我准备好新鲜又正中下怀的新闻资讯;浏览完新闻,打开亚马逊网站,跃入眼帘的是为我推荐的Kindle

电子书,不少都是我想看的……” --廖若雪(百度主任架构师、百度技术委员会主席)

15

“推荐系统是目前互联网世界最常见的智能产品形式。从电子商务、音乐视频网站,到作为互联网经济支柱的在线广告和新颖的在线应用推荐,到处都有推荐系统的身影。”--王益(腾讯公司情境广告中心总监)

成绩评定

期末考试为主型,参见《深圳大学本科课程考核规定》

• 平时成绩:40%– 考勤和课堂表现:10%

– 实验课作业:6次,6*5%=30%

• 期末基本题成绩:60%– 项目开发:1次,60%

• 关于作业– 发现抄袭(包括复制&粘贴整句话),该次作业记零分。

– 提交方式:截止时间前,请在Blackboard系统中提交;截止时间后一周内提交(扣20%),请发邮件到panweike@szu.edu.cn,并在邮件中注明课程名称、作业名称、姓名、学号等信息,我收到后会及时回复;延迟提交时间超过1周,不得分;期末

考试阶段补交无效。

16

Outline

I. 课程介绍

II. 基础知识介绍(part 1)

II. 基础知识介绍(part 2)

III. 互联网推荐系统案例分析

IV. 公开数据集和开源代码

17

为什么需要推荐(Why)

• 可选择的太多了,信息量太大了Information Overload (信息过载)

– 房屋中介

– 婚姻中介

– 导购

– 导游

– 毕业找工作

– 深圳一日游

– 手机新闻客户端

• 用户的个性化(Personalization)需求

18

推荐什么(What)

• E-commerce product电商

• Advertisement广告

• Multimedia: image, video/movie, music/CD多媒体

• Text: tag, paper, news/web pages, book文本

• Question in Q/A system问答

• Location (e.g., location-based SNS), restaurant位置

• A package of different items套餐

• People (e.g., followee, online dating)人物

19

给谁推荐(Whom)

• Recommendation for a single user给单个用户推荐

• Recommendation for a group of users给一群人推荐

• Reciprocal recommendation双向推荐,例如婚姻、工作等的推荐

20

如何推荐(How)

• User model用户模型

– User profile用户画像

• Data model数据模型

– Collaborative filtering协同过滤推荐

• memory-based (user-based, item-based)

• model-based

– Content-based recommendation基于内容的推荐

– Knowledge-based recommendation基于知识的推荐

– Hybrid recommendation混合推荐

21

如何评价推荐的效果(Evaluation)

• Familiarity (accuracy: ranking, regression)

• Discovery (diversification, novelty, serendipity, freshness)

• Scalability

• Awareness (why recommend this item, trust, explanation)

22

实用的推荐系统具有的特点

• Real-time (input, update, output)实时或近实时

• Large-scale (target data, auxiliary data)大规模

• Hybrid techniques综合使用多种技术

• Result interpretation结果的可解释性

• User-system interaction (conversational)系统与用户的交互性

• Robust鲁棒性、抗攻击性

• ...

23

用户在推荐系统中留下的数据(Data)

• Behavior -> Feedback -> Preference -> Profile - Recommendation

• 数据的特点

– Sparsity稀疏

– Distribution分布

• User

• Item

• The problem of cold start users or items

24

产业界应用

• Amazon

• Facebook Sponsored Stories

• Google News, Google Scholar, YouTube

• Lastfm

• LinkedIn

• Microsoft Xbox

• Netflix

• Twitter

• Yahoo! News, Yahoo! Music

• 百度(推荐与个性化部门)、搜狗(探索引擎)、豆瓣、人人网、腾讯(微博、视频)、新浪微博

• …

25

百度主题研究(2014年)---- 挑战最优价值的互联网技术问题 http://openresearch.baidu.com/

• 信息检索类问题

• 自然语言处理类

• 语音识别类

• 计算广告学类

• 大数据分析和可视化类

• 测试分析类课题

• 体系结构类

• 个性化推荐类

– 不同数据稀疏度下协同算法比较研究

– 面向推荐的重大突发新闻挖掘算法研究

– 高质量推荐理由自动挖掘的研究

– 用户兴趣挖掘及问题的个性化推荐算法研究

26

阿里校园(1/2)---- 访问学者 http://102.alibaba.com/

• 共享业务事业部-技术部-数据应用(淘宝推荐系统 )

– 电子商务推荐系统研究

• 阿里妈妈事业部-展示营销(主要从事阿里营销的精准数据定向的研究,分析阿里的用户行为和用户兴趣,建立用户的描述图谱,提供营销推荐的基础数据)

– 算法模型//大规模数据中用户兴趣点的发现用户兴趣点在微博环境的应用

27

阿里校园(2/2)---- 访问学者 http://102.alibaba.com/

• 阿里妈妈事业部-推荐与用户数据团队(国内一流的推荐技术团队,在个性化技术、海量用户行为分析、 机器学习方面有深厚的积累。为直通车、主搜、聚划算、淘宝等多个场景提供推荐和个性化数据服务)

– 用户生命周期建模及在个性化营销推荐中的应用

• 一淘及搜索事业部-搜索算法团队(电子商务关系数据的挖掘和推荐,淘宝knowledge graph的建设和应用 )

– 商品语义关系的发现与挖掘:商品之间具有内在的相关性,比如商品的相互搭 配关系,商品的时序关系等,需要我们来定义和挖掘商品之间的语义关系

28

推荐系统竞赛

• Netflix $1,000, 000 Prize Competition: 2 October 2006 ~ 18 September 2009

• KDD CUP 2011: rating prediction (task 1), prediction of highly rated items (task 2)– by Yahoo!

• KDD CUP 2012: VIP recommendation in Tencent Weibo (task 1)– by Tencent

• RecSys Challenge 2012: context-aware movie recommendation (task 1), scientific paper recommendation (task 2)

• RecSys Challenge 2013: personalized business recommendations• by Yelp

• 百度、世纪佳缘等

• http://www.kaggle.com/

29

学术会议

• RecSys http://recsys.acm.org/

• SIGIR, KDD, WWW, WSDM,

• ICDM, SDM, CIKM, ECIR

• AAAI, IJCAI

• VLDB, BigData

• ICML, NIPS, AISTATS

• UMAP

• …

30

我的一点理解

• Vision and Mission 愿景与使命

– Improve the quality of life提高生活品质

• Fundamental Purpose 根本目的

– Personalization个性化(i.e., provide personalized recommendation services 提供个性化服务: entertainment 娱乐, e-commerce 电商, advertisement 广告, healthcare 健康, information retrieval 信息检索, mobile computing 移动计算等应用)

• Main Goal 主要目标

– Preference learning偏好学习(esp., behavior -> feedback -> preference -> profile -> recommendation)

• “推荐”是一个服务(service)/系统(system)/技术(technique)

31

Outline

I. 课程介绍

II. 基础知识介绍(part 1)

II. 基础知识介绍(part 2)

III. 互联网推荐系统案例分析

IV. 公开数据集和开源代码

32

When does a RS do its job well?

"Recommend widely unknown items that users might actually like!"

20% of items accumulate 74% of all positive ratings

Items rated > 3 in MovieLens 100K dataset

Recommend items from the long tail

33

Paradigms of recommender systems

Recommender systems reduce information overload by estimating relevance or preference

34

Paradigms of recommender systems

Personalized recommendations

35

Paradigms of recommender systems

Collaborative: "Tell me what's popular among my peers"

36

Paradigms of recommender systems

Content-based: "Show me more of the same what I've liked"

37

Paradigms of recommender systems

Knowledge-based: "Tell me what fits based on my needs"

38

Paradigms of recommender systemsHybrid: combinations of various inputs and/or composition of different mechanism

39

教材目录• Part I (Basic Concepts)

– Ch02 (~4): Basic paradigms of collaborative,

– Ch03 (~1): content-based, and

– Ch04 (~1): knowledge-based recommendation,

– Ch05 (~2): as well as hybridization methods.

– Ch06 (~1): Explaining the reasons for recommending an item

– Ch07 (~1): Experimental evaluation

• Part II (Recent Research Topics)

– Ch09 (~1): How to cope with efforts to attack and manipulate a recommender system from outside,

– Ch10 (~1): supporting consumer decision making and potential persuasion strategies,

– Ch11 (~1): recommendation systems in the context of the social and semantic webs, and

– Ch12 (~1): the application of recommender systems to ubiquitous domains

40

Outline

I. 课程介绍

II. 基础知识介绍(part 1)

II. 基础知识介绍(part 2)

III. 互联网推荐系统案例分析

IV. 公开数据集和开源代码

41

42

Query recommendation(query rewrite)

Advertisement recommendation(Click-through rate prediction)

43

Query recommendation

Advertisement recommendation

Customers Who Bought This Item Also Bought

http://www.amazon.com2 Oct 2013

44

Book recommendation

http://weibo.com/2 Oct 2013 45

People recommendationLocation recommendationMovie recommendationBook recommendation

http://www.youku.com/show_page/id_zcbff210a962411de83b1.html2 Oct 2013

46

Movie recommendation

Outline

I. 课程介绍

II. 基础知识介绍(part 1)

II. 基础知识介绍(part 2)

III. 互联网推荐系统案例分析

IV. 公开数据集和开源代码

47

公开数据集

• http://grouplens.org/datasets/– MovieLens100K, MovieLens1M, MovieLens10M

– HetRec 2011

– WikiLens

– Book-Crossing

– Jester

– EachMovie

• https://snap.stanford.edu/data/web-Amazon.html

– Amazon

48

开源代码

• http://www.mymedialite.net/

• http://www.mymedialite.net/links.html

• http://www.libfm.org/

• http://svdfeature.apexlab.org/wiki/Main_Page

• http://www.librec.net/

• …

49