python爬取指定多个网页数据_Python爬取网站,前几个有数据,之后返回None?

news/2024/5/16 3:05:34/文章来源:https://blog.csdn.net/weixin_39864453/article/details/110073872

想获取廖雪峰python教程网站的内容练练手,发现有的章节能返回数据,但到Python基础这一章开始返回的都是None,没明白问题出在哪,求教

bV4gin?w=615&h=480

错误如下:

Traceback (most recent call last):

File "scraping_the_tutorial.py", line 36, in

get_urls()

File "scraping_the_tutorial.py", line 34, in get_urls

parse_url_to_html(a.attrs["href"],a.get_text())

File "scraping_the_tutorial.py", line 23, in parse_url_to_html

content = content.get_text()

AttributeError: 'NoneType' object has no attribute 'get_text'

代码如下:

import requests

from bs4 import BeautifulSoup

# session对象

session = requests.Session()

# 用于表明自己是何浏览器以及指定返回数据格式

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \

(KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",

"Accept":"text/html,application/xhtml+xml,application/xml;\

q=0.9,image/webp,*/*;q=0.8"}

# 要获取数据的网站

def parse_url_to_html(url,file_name):

# 通过get(url,headers)函数来接受返回的数据

req = session.get("https://www.liaoxuefeng.com"+url, headers=headers)

# 用bs解析便于处理数据,第二个参数是何种解析方法

bsObj = BeautifulSoup(req.text,"html.parser")

# 获取教程内容,在class为x-wiki-content x-main-content里

content = bsObj.find("div",{"class":"x-content"})

# 用str不用getText是因为有时候有None值

# 上面错了,是因为服务器反爬机制返回HTTP error503

print(content)

content = content.get_text()

# 存到txt文件夹中

with open("txt/%s.txt" % file_name,'w') as f:

f.write(content)

def get_urls():

html = session.get("https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000", \

headers=headers)

bsObj = BeautifulSoup(html.text,"html.parser")

directory = bsObj.find("ul",{"id":"x-wiki-index"})

for a in directory.findAll("a",{"class":"x-wiki-index-item"}):

parse_url_to_html(a.attrs["href"],a.get_text())

if __name__ == "__main__":

get_urls()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_753961.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VS发布网站后的文件夹为空

我们做.NET的项目最常用的就是VS,当我们编码完成之后,需要本地发布,测试成功之后,在发布到服务器上。这里我们介绍一下如何在本地发布。 一、配置 发布之前要在电脑上配置IIS,这个在之前的博客中提到过,不再重复,连接为…

九度搜索引擎点击优化_优化SEO的好处,给企业出乎意料的惊喜

目前从事SEO优化的企业很多,但对于SEO优化会带给企业什么样的好处,每家企业都了解吗?也许每个人都只希望通过互联网给企业带来相应的利益,而不知道真正能给企业带来什么利益。以下就和上海网站优化公司一起来了解一下SEO到底有哪些…

linux运行火车头采集,网站抓取精灵火车采集器如何定时自动运行?

许多朋友在抓取网站时应该都会有这种体验,就是感到有些网站更新得实在太快,而我们一直盯着电脑去更新又费时又费力。不过网站抓取精灵火车采集器V9的计划任务功能真可谓一解了我们的燃眉之急,可以轻松实现自动更新,再也不需要我们…

建立云服务器_如何设置FTP服务器?如何建网站

让我们分析一下接下来几个场景中FTP服务器的文件传输协议构建方法。服务器配置。建立FTP服务器的方式有很多种,主要看你的用途、条件、预算和使用场景。公有云接入的FTP:放在公网上,让公网的小伙伴可以随意共享数据。几乎所有使用FTP的人都连接到公共网络…

map平均准确率_「召回率」准确率,召回率,mAP(mean average precision)解释 - seo实验室...

召回率准确率Precision召回率Recall其实这个翻译相当蛋疼。。。recall最合理的翻译应该是 查全率而Precision的最合理的翻译应该是查准率这样就很容易理解了,假设一个班级有10个学生,5男5女你用机器找女生,机器返回了一下结果:| 男…

xjzk查询成绩2021高考,2021年新疆高考成绩查询网站查分网址:http://www.xjzk.gov.cn/...

【导语】高考结束后大家最为关心的问题就是在哪里查分,如何查分,无忧考网高考频道特别整理2021年新疆高考成绩查询查分网址,成绩公布时考生可直接点击网址进行查分,预祝大家都能顺利的考上理想的大学!由于,…

网站发布机的部署一(B)

三&#xff0c;多主机头的配置<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />多主机头的配置要比上面的俩个麻烦些&#xff01;要借助DNS的解析才能实现的&#xff01;多主机头是同一个IP&#xff0c;同一个端口&#xff0c;域…

r语言 月度消费频次_CD网站用户消费行为分析

本篇文章从用户分层&#xff0c;生命周期&#xff0c;回购率&#xff0c;复购率&#xff0c;留存率等指标观察用户的消费行为&#xff0c;最后通过RFM模型对客户进行分类。主要从以下几个角度&#xff0c;对CD数据集进行了分析1.用户维度分析2.订单维度分析3.时间维度分析4.用户…

网站设计常用技巧收集

C#论坛同步地址&#xff1a;http://www.cckan.net/thread-1087-1-1.html 先说一下写这篇文章的目的吧&#xff0c;这上面的东西很多不是我写的&#xff0c;也不是我总结的&#xff0c;这点我肯定&#xff0c;呵呵&#xff0c;我希望大家也能提提你自己的建议&#xff0c;希望不…

高性能网站需避免的7个错误

为什么80%的码农都做不了架构师&#xff1f;>>> 假期临近&#xff08;应该指感恩节和圣诞节&#xff09;&#xff0c;公司增加了SEM方面的花费&#xff0c;关注SEO&#xff0c;修改页面。然而&#xff0c;为了最大的销售额&#xff0c;这些时间、财力上的付出可能就…

网站 favicon 图标

网站 favicon 图标 favicon.ico 一般用于作为缩略的网站标志&#xff0c;它显示在浏览器的地址栏或者标签上 一、制作 favicon 图标 把 logo 图标切成 png 图片。把 png 图片转换为 ico 图标 这需要借助于第三方转换网站&#xff0c;例如比特虫&#xff1a;http://www.bitb…

三大标签 SEO 优化 和 logo SEO 优化

SEO&#xff08;Search Engine Optimization&#xff09;汉译为搜索引擎优化&#xff0c;是一种利用搜索引擎的规则提高网站在有关搜索引擎内自然排名的方式。 SEO 的目的是对网站进行深度的优化&#xff0c;从而帮助网站获取免费的流量&#xff0c;进而在搜索引擎上提升网站的…

Linux下网站安全加固方案

本文详细总结了PHP网站在Linux服务器上面的安全配置&#xff0c;包含PHP安全、mysql数据库安全、web服务器安全、***查杀和防范等&#xff0c;很好很强大很安全。php安全配置&#xff1a;1. 确保运行php的用户为一般用户&#xff0c;如www2. php.ini参数设置open_basedir可将用…

网站(Django/web)html页面中GET《 http://127.0.0.1:8080/favicon.ico 404 (Not Found)》

一、在HTML文件头部中&#xff0c;添加 <link rel"shortcut icon" href#>二、制作一个 favicon.ico图标放在标签中

devc 能优化吗_牛排优化系统靠谱吗?seo快排可信吗?

做好网站的seo是非常有必要的&#xff0c;但是网站的seo并不是单纯的只是搭建网站&#xff0c;而是需要做好网站的seo优化推广的&#xff0c;否则网站建设好之后&#xff0c;如果没有人去浏览或者是没有客户去进行转化&#xff0c;就失去了我们最初去做网站的意义&#xff0c;所…

403 - 禁止访问: 访问被拒绝。_王尘宇:如何屏蔽所有国外ip,禁止国外IP访问网站...

众说周知一般的CC攻击DDOS攻击等大范围的网络攻击都来自境外&#xff0c;但是如何能大批量的屏蔽国外ip&#xff0c;禁止国外IP访问网站应该怎么做&#xff0c;相信大家都会说加黑名单啊&#xff0c;但是很多人可能还不知道怎么添加黑名单&#xff0c;黑名单的操作也是比较麻烦…

视频分享网站首页:最热最新视频特效

2019独角兽企业重金招聘Python工程师标准>>> html代码&#xff1a; <!DOCTYPE> <html> <head><title></title><meta content"widthdevice-width, initial-scale1.0, maximum-scale1.0, minimum-scale1.0, user-scalable0;&qu…

国内网站常用的一些 CDN 公共库加速服务

CDN公共库是指将常用的JS库存放在CDN节点&#xff0c;以方便广大开发者直接调用。与将JS库存放在服务器单机上相比&#xff0c;CDN公共库更加稳定、高速。一 般的CDN公共库都会包含全球所有最流行的开源JavaScript库&#xff0c;你可以在自己的网页上直接通过script标记引用这些…

给小孩发布一个有趣的网站 在线动物园

给小孩发布一个有趣的网站 在线动物园&#xff0c;可以实时看到动物园里的动物实时摄像头。非常有意思,大热天也不用到动物园里看了。http://zoo.baidu.com/video.html 转载于:https://blog.51cto.com/hangtc/1653650

大型网站架构的演化

一个成熟的大型网站&#xff08;如淘宝、京东等&#xff09;的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性&#xff0c;它总是随着用户量的增加&#xff0c;业务功能的扩展 逐渐演变完善的&#xff0c;在这个过程中&#xff0c;开发模式、技术架构、设计思想…