信息检索 文本相似度 python_使用TF-IDF算法计算网站页面相似度分布(Python)

news/2024/5/13 1:50:45/文章来源:https://blog.csdn.net/weixin_39581896/article/details/110243761

(为保证代码阅读体验,原文链接如下:)使用TF-IDF算法计算网站页面相似度分布(Python)​www.bmpi.devv2-bfc9ef9a812d02f53cb7d1ee95322327_180x120.jpg

如果你的网站网页重复或者相似页面过多将会影响你网站的排名,那么如何计算网站内网页的相似度分布?

本文教你通过开发Python脚本使用TF-IDF算法计算网站全站页面相似度分布并可视化展示出来。

0. TF-IDF

TF-IDF(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。1

1. 计算原理

通过sitemap获取全站公开url,使用chrome无头浏览器抓取每个页面截图及其html源文件,然后抽取html中的可视文本,拿到每个页面文本后将页面内容分词后抽象为一个向量,互相计算每个页面向量之间的相似度(夹角),使用的算法为TF-IDF算法,如下:假设现在有一个包含 1000 个文档的文档集合,其中包括文档:[经济,发展,新常态,研究,……],该文档总词汇数是 100,“经济”这个词汇出现了 4 次,则“经济”一词的词频(TF)为 4⁄100 = 0.04,如果在 1000 个文档中有 100 个文档出现过“经济”一词,则逆向文档频率(IDF)为 log(1000⁄100) = 1,那么在 TF-IDF 矩阵中,该文档中“经济”一词对应的权数应为 0.04*1=0.04。

2. 计算代码

3. 计算结果

从上图可以看出全站相似度并不高,大部分页面相似分布在10%-20%之间,处于可接受范围。如果相似页面多,则热力图可能会出现如下情况:

红色区域表示这些相关页面相似度极高。

References

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_738535.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于大型网站技术演进的思考(五)--存储的瓶颈(5)

原引:http://www.cnblogs.com/sharpxiajun/p/4265853.html 上文里我遗留了两个问题,一个问题是数据库做了水平拆分以后,如果我们对主键的设计采取一种均匀分布的策略,那么它对于被水平拆分出的表后续的查询操作将有何种影响&#…

php网站上传服务器,php网站上传云服务器

php网站上传云服务器 内容精选换一换网站的访问与云服务器的网络配置、端口通信、防火墙配置、安全组配置等多个环节相关联。任意一个环节出现问题,都会导致网站无法访问。本节操作介绍网站无法访问时的排查思路。网站无法访问怎么办?如果打开网站有报错…

wordpress怎么搜索别人_百度URL推送插件 wordpress百度自动推送插件让你的网站收录一路上涨...

自从百度熊掌号宣布下线,就少了一个优质链接提交接口,网站的收录也大不从前,新上线的网站就更不要提了,上线20多天一条都没收录,想着从网站技术上进行解决,自己有没这方面的技术,今天分享的只针…

【爬虫学习笔记day10】1.8. 参考阅读:urllib:GET请求和POST请求+批量爬取贴吧页面数据+有道词典翻译网站+获取AJAX加载的内容+ 处理HTTPS请求 +SSL证书验证 关于CA

文章目录1.8. 参考阅读:urllib:GET请求和POST请求**urllib默认只支持HTTP/HTTPS的GET和POST方法**urllib.parse.urlencode()一般HTTP请求提交数据,需要编码成 URL编码格式,然后做为url的一部分,或者作为参数传到Reques…

【爬虫学习笔记day25】3.3. 案例一:网站模拟登录

文章目录3.3. 案例一:网站模拟登录案例一:网站模拟登录3.3. 案例一:网站模拟登录 案例一:网站模拟登录 # -*- coding:utf-8 -*-# douban.py #codingutf-8 import time from selenium import webdriver from selenium.webdriver.c…

【爬虫学习笔记day28】3.6. 处理一些格式规范的文字+格式规范文字的理想示例+通过Python代码实现+对图片进行阈值过滤和降噪处理(了解即可)+从网站图片中抓取文字

文章目录3.6. 处理一些格式规范的文字处理给规范的文字格式规范文字的理想示例通过Python代码实现对图片进行阈值过滤和降噪处理(了解即可)从网站图片中抓取文字3.6. 处理一些格式规范的文字 处理给规范的文字 处理的大多数文字最好都是比较干净、格式规…

监控器材律师网站制作_盈信动态 | 制作法律检索报告,律师的必备技能!

为统一法律适用,提升司法公信力,最高人民法院发布《关于统一法律适用加强类案检索的指导意见》,该意见自2020年7月31日起试行。法律检索技能可以帮助律师快速定位关键信息,运用得当,更可促成法律服务成交,提…

vue 同一个域名移动端pc端两套代码跳转_移动端SEO优化与PC端SEO优化的不同点

随着移动互联网的快速发展,用户从PC端向移动端迁移的大趋势更加明显,但这也使得移动手机网站的SEO优化工作还处于探索阶段,很多SEO和站长也都有了一些疑问,移动端需要做SEO优化吗?移动端该怎么做SEO优化?我…

“安利”一个CDN服务商网站

一、CDN简介 CDN的全称是Content Delivery Network,即内容分发网络。CDN是构建在网络之上的内容分发网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低…

产品必备技能(三):互联网数据分析师、产品经理和运营常用数据网站合集

文章目录中国互联网络消息中心百度指数阿里指数腾讯大数据友盟DCCI互联网数据中心艾瑞咨询TalkingData易观App StoreApp AnnieAPPDUU清源火眼ASO100IT桔子91助手今日报告网大数据导航中国互联网络消息中心 中国互联网络消息中心 中国互联网络消息中心(China Intern…

启明星Portal企业内部网站V4.3版 附演示地址 http://demo.dotnetcms.org

下载地址:http://www.dotnetcms.org/download/portal/PortalV4.3.0.0.rar 启明星Portal系统是一款基于微软ASP.NET平台开发的,集成内容发布、文章、产品、图片、招聘、留言、自定义模型、采集等功能于一体的企业网站管理系统。启明星Portal是构建企业内网…

使用IIS部署网站步骤

安装和打开IIS(以WIN8为例) 一、打开:控制面板 二、点击:程序 三、点击:启用或关闭Windows功能 四、勾选全部:Internet Information Services 五、等待重启,重启完成后,开始栏菜单…

php robot.txt,WordPress网站SEO优化——Robot.txt文件编写

一、robots 介绍Robots 协议(也称为爬虫协议、机器人协议等)的全称是 “网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉来访网站的搜索引擎,此网站的哪些页面可以抓取,哪些页面不能抓取。robots.txt 是搜索引擎来访…

php代码分析工具,php性能优化分析工具XDebug 大型网站调试工具

大型网站调试工具之一(php性能优化分析工具XDebug) ,开发php的朋友可以参考下。有助于解决php代码的多种问题。一、安装配置1、下载PHP的XDebug扩展,网址:http://xdebug.org/2、在Linux下编译安装XDebug引用tar -xzf xdebug-2.0.0RC3.gzcd xdebug-2.0.0R…

dw怎么保存HTML手机可以看,【dw网页制作】如何使用Dreamweaver制作网页?如何用Dreamweaver制作个人虚拟网站?dreamweaver如何制作手机网站?...

【dw网页制作】如何使用Dreamweaver制作网页?如何用Dreamweaver制作个人虚拟网站?dreamweaver如何制作手机网站?下面就和小编一起来看看吧!如何使用Dreamweaver制作网页?1.建立新的ASP网页并保存2.连接数据库3.在网页中插入模板内容,添加各超链接4.页面设计后&a…

基于机器学习预测Lending Club网站贷款申请结果

前提简介:Lending Club是美国的一家贷款公司,自2007年以来,致力于将借款人和投资者聚集在一起,改变人们获得信贷的方式。在过去的十年中,帮助数百万人控制了他们的债务,发展了他们的小企业并为未来投资。本…

medusa测试网站弱口令简单示例

Medusa 百度百科:希腊神话中的女妖 Medusa(美杜莎)是一个速度快,支持大规模并行,模块化的爆力破解工具。可以同时对多个主机,用户或密码执行强力测试。 Medusa和hydra一样,同样属于在线密码破解工具。但官网着重说明了…

vue页面锚文本_「网站优化」网站优化宝典之描文本优化

相信大家看过我前两天写的网站优化中的标题优化和内容优化;肯定想知道除了标题优化和内容优化还可以优化什么?站内优化之描文本优化,真正好的文章内的描文本可以说是很多人写文章的目标,因为描文本对网站的抓取有一定的帮助。描文…

爱了!安利一个相见恨晚的可视化学习网站

最近日常逛逛技术平台,偶然间发现了一个非常牛逼的可视化学习网站。东哥之前在公众号和技术群里也推荐过一些,但和这个相比我觉得真是太逊色了。 好了,话不多说,我迫不及待地想分享下这个神器。 这个网站的名字叫 图之典&#x…

从机械转行数据科学,吐血整理了这些白嫖的学习网站

作者:东哥起飞 Python数据科学 大家好,我是东哥。 前方高能,准备开启收藏夹吃灰模式。 本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。东哥当年从机械转行也从…