图神经网络实战——基于Node2Vec的电影推荐系统

news/2024/5/30 18:25:59/文章来源:https://blog.csdn.net/LOVEmy134611/article/details/136359420

图神经网络实战——基于Node2Vec的电影推荐系统

    • 0. 前言
    • 1. 基于 Node2Vec 的电影推荐系统
    • 2. 构建训练数据集
    • 3. 实现基于 Node2Vec 的电影推荐系统
    • 相关链接

0. 前言

Node2Vec 是一种用于获取节点嵌入 (node embedding) 的算法,它通过将图形数据转换为低维向量空间中的连续向量来捕捉节点之间的相似性。基于 Node2Vec 的电影推荐系统结合了图论和深度学习的方法来进行推荐。
在电影推荐系统中,可以将每部电影视为一个节点,而节点之间的连接则表示电影之间的关联或相似性。Node2Vec 算法可以在电影图谱上学习出每部电影的向量表示,这些向量可以捕获电影之间的隐含关系,例如共同的演员、导演、类型等等。一旦得到了电影的向量表示,就可以使用这些表示来计算电影之间的相似度,并基于相似度来进行推荐。通过将用户喜欢的电影与其向量表示进行比较,系统可以推荐与之相似的其他电影。在本节中,构建基于 Node2Vec 的电影推荐系统 (recommender system, RecSys)。

1. 基于 Node2Vec 的电影推荐系统

电影推荐系统 (recommender system, RecSys) 是图神经网络 (Graph Neural Networks, GNN) 最受欢迎的应用之一。我们知道 Word2Vec (以及 DeepWalk 和 Node2Vec) 的目标是生成能够测量相似度的向量。将电影(而非单词)进行编码,就能获取与给定输入标题最相似的电影,这就是 RecSys 的基本思想。
但问题在于如何对电影进行编码,我们首先想到可以创建电影的(有偏)随机游走,但这需要一个相似电影相互连接的图数据集,获取这类数据集并不容易。
另一种方法是根据用户评分来构建图。有多种基于评分构建图的技术,包括二分图、基于点互信息的边等。在本节中,我们将采用一种简单直观的方法,将受到同一用户喜爱的电影连接起来。然后,将使用所构建的图基于 Node2Vec 学习电影嵌入。

2. 构建训练数据集

(1) 首先,下载并解压电影数据集。在本节中,使用 MovieLens 数据集的子集,其中包含 100836 条评分、9742 部电影和 610 个用户。我们主要使用文件 atings.csvmovies.csv,第一个文件存储用户的所有评分,第二个文件可以用于将电影标识符转换为标题。

(2) 使用 pd.read_csv() 导入文件 atings.csv

import pandas as pdratings = pd.read_csv('ml-100k/u.data', sep='\t', names=['user_id', 'movie_id', 'rating', 'unix_timestamp'])
print(ratings)

输出结果如下所示:

       user_id  movie_id  rating  unix_timestamp
0          196       242       3       881250949
1          186       302       3       891717742
2           22       377       1       878887116
3          244        51       2       880606923
4          166       346       1       886397596
...        ...       ...     ...             ...
99995      880       476       3       880175444
99996      716       204       5       879795543
99997      276      1090       1       874795795
99998       13       225       2       882399156
99999       12       203       3       879959583
[100000 rows x 4 columns]

(3) 导入 movies.csv

movies = pd.read_csv('ml-100k/u.item', sep='|', usecols=range(2), names=['movie_id', 'title'], encoding='latin-1')
print(movies)

数据集输出结果如下所示:

      movie_id                                      title
0            1                           Toy Story (1995)
1            2                           GoldenEye (1995)
2            3                          Four Rooms (1995)
3            4                          Get Shorty (1995)
4            5                             Copycat (1995)
...        ...                                        ...
1677      1678                          Mat' i syn (1997)
1678      1679                           B. Monkey (1998)
1679      1680                       Sliding Doors (1998)
1680      1681                        You So Crazy (1994)
1681      1682  Scream of Stone (Schrei aus Stein) (1991)
[1682 rows x 2 columns]

(4) 由于我们想得用户可能喜欢的电影,因此意味着评分为 123 并不非常重要,我们可以舍弃这些评分,只保留评分为 45 的数据:

ratings = ratings[ratings.rating >= 4]
print(ratings)

得到输出结果如下所示:

       user_id  movie_id  rating  unix_timestamp
5          298       474       4       884182806
7          253       465       5       891628467
11         286      1014       5       879781125
12         200       222       5       876042340
16         122       387       5       879270459
...        ...       ...     ...             ...
99988      421       498       4       892241344
99989      495      1091       4       888637503
99990      806       421       4       882388897
99991      676       538       4       892685437
99996      716       204       5       879795543
[55375 rows × 4 columns]

(5) 我们已经获取了由 610 个用户给出的 48580 条评分。下一步是统计两部电影被同一用户喜欢的次数,对数据集中的每个用户重复这一过程。为了简化操作,使用 defaultdict 数据结构,它可以自动创建缺失条目,而不会引发错误,使用这种结构统计同时被喜欢的电影的次数:

from collections import defaultdictpairs = defaultdict(int)

(6) 循环浏览数据集中的用户列表:

for group in ratings.groupby("user_id"):

(7) 获取当前用户已赞过的电影列表:

    user_movies = list(group[1]["movie_id"])

(8) 每当一对电影在同一个列表中同时出现时,就递增一个特定的计数器:

    for i in range(len(user_movies)):for j in range(i+1, len(user_movies)):pairs[(user_movies[i], user_movies[j])] += 1

(9) pairs 对象存储了两部电影被同一用户点赞的次数,可以利用这些信息来构建图中的边。使用 networkx 库创建图 G

G = nx.Graph()

(10) 对于 pairs 中的每对电影,解包这两部电影及其相应的评分:

for pair in pairs:movie1, movie2 = pairscore = pairs[pair]

(11) 如果得分高于 20,就会在图中添加一个加权连接,根据得分将两部电影连接起来。忽略低于 20 的分数,因为这样会创建一个较大的图,而其中的连接并无太大意义:

    if score >= 20:G.add_edge(movie1, movie2, weight=score)

(12) 最终得到的图有 410 个节点(电影)和 14,936 条边,接下来训练 Node2Vec 学习节点嵌入:

print("Total number of graph nodes:", G.number_of_nodes())
print("Total number of graph edges:", G.number_of_edges())# Total number of graph nodes: 410
# Total number of graph edges: 14936

3. 实现基于 Node2Vec 的电影推荐系统

我们可以重复使用 Node2Vec 一节中的 Node2Vec 实现,但在 Python 中有一个专门用于 Node2Vec 的库,在本节中,我们将使用此库实现 Node2Vec

(1) 首先,使用 pip 命令安装 node2vec 库:

pip install node2vec

(2) 在代码中,导入 Node2Vec 类,并创建一个 Node2Vec 实例,根据 pq 参数自动生成有偏随机游走序列:

from node2vec import Node2Vecnode2vec = Node2Vec(G, dimensions=64, walk_length=20, num_walks=200, p=2, q=1, workers=1)

(3) 窗口大小设置为 10 (前 5 个节点,后 5 个节点),对这些有偏随机游走序列进行模型训练:

model = node2vec.fit(window=10, min_count=1, batch_words=4)

Node2Vec 模型完成训练后,可以像使用 gensim 库中的 Word2Vec 对象一样使用它。接下来,创建函数根据给定的标题推荐电影。

(4) 创建 recommend() 函数,将电影标题作为输入。首先,将标题转换为电影 ID

def recommend(movie):movie_id = str(movies[movies.title == movie].movie_id.values[0])

(5) 循环遍历五个最相似的单词向量。将这些 ID 转换成电影标题,并打印出相应的相似度分数:

    for id in model.wv.most_similar(movie_id)[:5]:title = movies[movies.movie_id == int(id[0])].title.values[0]print(f'{title}: {id[1]:.2f}')

(6) 调用该函数来获得与《Star Wars (1977)》相似度最高的五部电影的余弦相似度:

recommend('Star Wars (1977)')

得到的输出结果如下所示:

Return of the Jedi (1983): 0.62
Raiders of the Lost Ark (1981): 0.57
Monty Python and the Holy Grail (1974): 0.53
Toy Story (1995): 0.47
Silence of the Lambs, The (1991): 0.46

可以看到,《Return of the Jedi》和《Raiders of the Lost Ark》与《Monty Python and the Holy Grail》最为相似,但得分相对较低( < 0.7)。尽管如此,对于我们初次构建推荐系统模型而言,这是一个相当不错的结果。在后续学习中,我们将使用更强大的模型和方法来构建更优秀的推荐系统模型。

相关链接

图神经网络实战(1)——图神经网络(Graph Neural Networks, GNN)基础
图神经网络实战(2)——图论基础
图神经网络实战(3)——基于DeepWalk创建节点表示
图神经网络实战(4)——基于Node2Vec改进嵌入质量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1006187.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

22、设计模式之状态模式(State)

一、什么是状态模式 状态模式是一种行为型设计模式。它允许对象在内部状态发生改变时改变它的行为&#xff0c;简单地讲就是&#xff0c;一个拥有状态的context对象&#xff0c;在不同状态下&#xff0c;其行为会发生改变。 二、角色组成 上下文&#xff08;Context&#xff0…

14、设计模式之命令模式(Command)

一、什么是命令模式 命令模式&#xff08;Command Pattern&#xff09;是一种行为型设计模式&#xff0c;又叫动作模式或事务模式。它将请求&#xff08;命令&#xff09;封装成对象&#xff0c;使得可以用不同的请求对客户端进行参数化&#xff0c;具体的请求可以在运行时更改…

CSAPP Malloc lab

CSAPP Malloc Lab 目标 实现一个简单的动态存储分配器。 评分标准 空间利用率应当减少internal 和 external fragmentation. memory utilization memory utilization payload / heap size fragmentation internal fragmentation external fragmentation throughput T 越接…

从零开始学习深度学习库-1:前馈网络

你好&#xff01;欢迎来到这个系列的第一篇文章&#xff0c;我们将尝试用Python构建自己的深度学习库。在这篇文章中&#xff0c;我们将开始编写一个简单的前馈神经网络。我们将仅在这篇文章中处理前向传播&#xff0c;并在下一篇文章中处理网络的训练。这篇文章将介绍基本的前…

数字逻辑-时序逻辑电路一

一、实验目的 &#xff08;1&#xff09;熟悉触发器的逻辑功能及特性。 &#xff08;2&#xff09;掌握集成D和JK触发器的应用。 &#xff08;3&#xff09;掌握时序逻辑电路的分析和设计方法。 二、实验仪器及材料 三、实验内容及步骤 1、用D触发器&#xff08;74LS74&am…

SpringCloud Gateway 新一代网关

一、前言 接下来是开展一系列的 SpringCloud 的学习之旅&#xff0c;从传统的模块之间调用&#xff0c;一步步的升级为 SpringCloud 模块之间的调用&#xff0c;此篇文章为第六篇&#xff0c;即介绍 Gateway 新一代网关。 二、概述 2.1 Gateway 是什么 Gateway 是在 Spring 生…

分享 | 计算机组成与设计学习资料+CPU设计源码+实验报告

1.引言 百度网盘资源链接&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1Ww6u_l1L6DMXofC2HxfETw?pwdyqd6 提取码&#xff1a;yqd6 2.学习资源预览 2.1 包含学习手册四本&#xff1a; - 计算机原理与设计&#xff1a;Verilog HDL版 - 计算机组成与设…

macOS、Windows、Linux、Docker等各个平台通过ollama一键部署谷歌最新开源的gemma大模型,免费开源离线部署使用超越llama2、chatgpt4

macOS、Windows、Linux、Docker等各个平台通过ollama一键部署谷歌最新开源的gemma大模型&#xff0c;免费开源离线部署使用超越chatgpt4。谷歌最强开源大模型亮相&#xff01;Gemini技术下放&#xff0c;笔记本就能跑&#xff0c;可商用。 谷歌12天连放三个大招 9日-宣布其最强…

Windows Server 各版本搭建 Web 服务器实现访问本地 Web 网站(03~19)

一、Windows Server 2003 点击左下角开始➡管理工具➡管理您的服务器&#xff0c;点击添加或删除角色 点击下一步 选择自定义&#xff0c;点击下一步 选择应用程序服务器&#xff0c;点击下一步 不勾选&#xff0c;点击下一步 这里提示插入磁盘&#xff0c;咱们提前下载好 IIS…

提升运营效率,探索运营中台架构的力量

随着数字化转型的加速推进&#xff0c;企业需要更高效地管理和运营各项业务&#xff0c;而运营中台架构作为一种新型的业务架构设计理念&#xff0c;正在逐渐受到关注和应用。本篇博客将深入探讨运营中台架构的概念、优势和实践&#xff0c;帮助企业了解如何通过构建运营中台实…

ArmSoM Rockchip系列产品 通用教程 之 RTC 使用

1. RTC 简介​ RTC&#xff1a;(Real_Time Clock)&#xff1a;实时时钟 HYM8563是一种低功耗实时时钟&#xff08;RTC&#xff09;芯片&#xff0c;用于提供精确的时间和日期信息。它提供一个可编程的时钟输出&#xff0c;一个中断输出和一个掉电检测器&#xff0c;所有的地址…

YOLOv8独家改进:backbone改进 | TransXNet:聚合全局和局部信息的全新CNN-Transformer视觉主干| CVPR2024

💡💡💡本文独家改进:CVPR2024 TransXNet助力检测,代替YOLOv8 Backbone 改进结构图如下: 收录 YOLOv8原创自研 https://blog.csdn.net/m0_63774211/category_12511737.html?spm=1001.2014.3001.5482 💡💡💡全网独家首发创新(原创),适合paper !!! 💡…

Python代码操作PPT:PowerPoint演示文稿的合并与拆分

多个PowerPoint演示文稿的处理可能会成为非常麻烦的工作。有时需要将多个演示文稿合并为一个演示文稿&#xff0c;从而不用在演示时重复打开演示文稿&#xff1b;有时又需要将单个演示文稿拆分为多个演示文稿&#xff0c;用于其他目的或进行分发。手动进行这些操作会非常麻烦&a…

【STA】鲁棒性时序检查

片上变化 由于工艺差异&#xff0c;芯片上不同部分的相同MOS晶体管可能没有相似的特性。同一芯片的两个区域可能不在相同的PVT条件下。上述的PVT变化被称为片上变化&#xff08;OCV&#xff09;&#xff0c;这些变化会影响芯片不同部分的走线延迟和单元延迟&#xff0c;而是要对…

Linux下的编辑器——Vim

vi/vim 的区别简单点来说&#xff0c;它们都是多模式编辑器&#xff0c;不同的是 vim 是 vi 的升级版本&#xff0c;它不仅兼容 vi 的所有指令&#xff0c;而且还有一些新的特性在里面。例如语法加亮&#xff0c;可视化操作不仅可以在终端运行&#xff0c;也可以运行于x window…

FreeRTOS操作系统学习——中断管理

中断管理介绍 嵌入式实时系统需要对整个系统环境产生的事件作出反应。这些事件对处理时间和响应时间都有不同的要求。事件通常采用中断方式检测&#xff0c;中断服务例程(ISR)中的处理量应当越短越好。ISR是在内核中被调用的&#xff0c; ISR执行过程中&#xff0c;用户的任务…

idea配置本地启用scope No ExecutorFactory found to execute the application

参考&#xff1a;https://www.cnblogs.com/jia-tong/p/16615412.html 当pom中带有&#xff1a; <scope>provided</scope> 时就会报错&#xff1a;Exception in thread “main” java.lang.IllegalStateException: No ExecutorFactory found to execute the applica…

YOLOv8改进 | 图像去雾 | 特征融合注意网络FFA-Net增强YOLOv8对于模糊图片检测能力(北大和北航联合提出)

一、本文介绍 本文给大家带来的改进机制是由北大和北航联合提出的FFA-net: Feature Fusion Attention Network for Single Image Dehazing图像增强去雾网络,该网络的主要思想是利用特征融合注意力网络(Feature Fusion Attention Network)直接恢复无雾图像,FFA-Net通过特征…

大模型高级 RAG 检索策略之句子窗口检索

之前介绍过大语言模型&#xff08;LLM&#xff09;相关技术 RAG&#xff08;Retrieval Augmented Generation&#xff09;的内容&#xff0c;但随着 LLM 技术的发展&#xff0c;越来越多的高级 RAG 检索方法也随之被人发现&#xff0c;相对于普通的 RAG 检索&#xff0c;高级 R…

使用CrossOver 在Mac 运行Windows 软件|D3DMetal是什么技术,

CrossOver Mac 使用特点 • 免费试用 14 天&#xff0c;可使用 CrossOver Mac 全部功能&#xff0c;• 试用过期会保留之前安装的 Windows 软件• 使 Mac 运行 Windows 程序 使用CrossOver在Mac上运行Windows软件是一个方便且无需安装完整Windows操作系统的解决方案。CrossOve…