python爬取指定多个网页数据_Python爬取网站，前几个有数据，之后返回None？

news/2024/5/16 3:05:34/文章来源:https://blog.csdn.net/weixin_39864453/article/details/110073872

想获取廖雪峰python教程网站的内容练练手，发现有的章节能返回数据，但到Python基础这一章开始返回的都是None，没明白问题出在哪，求教

bV4gin?w=615&h=480

错误如下：

Traceback (most recent call last):

File "scraping_the_tutorial.py", line 36, in

get_urls()

File "scraping_the_tutorial.py", line 34, in get_urls

parse_url_to_html(a.attrs["href"],a.get_text())

File "scraping_the_tutorial.py", line 23, in parse_url_to_html

content = content.get_text()

AttributeError: 'NoneType' object has no attribute 'get_text'

代码如下：

import requests

from bs4 import BeautifulSoup

# session对象

session = requests.Session()

# 用于表明自己是何浏览器以及指定返回数据格式

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \

(KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",

"Accept":"text/html,application/xhtml+xml,application/xml;\

q=0.9,image/webp,*/*;q=0.8"}

# 要获取数据的网站

def parse_url_to_html(url,file_name):

# 通过get(url,headers)函数来接受返回的数据

req = session.get("https://www.liaoxuefeng.com"+url, headers=headers)

# 用bs解析便于处理数据,第二个参数是何种解析方法

bsObj = BeautifulSoup(req.text,"html.parser")

# 获取教程内容，在class为x-wiki-content x-main-content里

content = bsObj.find("div",{"class":"x-content"})

# 用str不用getText是因为有时候有None值

# 上面错了，是因为服务器反爬机制返回HTTP error503

print(content)

content = content.get_text()

# 存到txt文件夹中

with open("txt/%s.txt" % file_name,'w') as f:

f.write(content)

def get_urls():

html = session.get("https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000", \

headers=headers)

bsObj = BeautifulSoup(html.text,"html.parser")

directory = bsObj.find("ul",{"id":"x-wiki-index"})

for a in directory.findAll("a",{"class":"x-wiki-index-item"}):

parse_url_to_html(a.attrs["href"],a.get_text())

if __name__ == "__main__":

get_urls()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_753961.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python爬取指定多个网页数据_Python爬取网站，前几个有数据，之后返回None？

相关文章

VS发布网站后的文件夹为空

九度搜索引擎点击优化_优化SEO的好处，给企业出乎意料的惊喜

linux运行火车头采集,网站抓取精灵火车采集器如何定时自动运行？

建立云服务器_如何设置FTP服务器？如何建网站

map平均准确率_「召回率」准确率，召回率，mAP(mean average precision)解释 - seo实验室...

xjzk查询成绩2021高考,2021年新疆高考成绩查询网站查分网址：http://www.xjzk.gov.cn/...

网站发布机的部署一（B）

r语言月度消费频次_CD网站用户消费行为分析

网站设计常用技巧收集

高性能网站需避免的7个错误

网站 favicon 图标

三大标签 SEO 优化和 logo SEO 优化

Linux下网站安全加固方案

网站（Django/web）html页面中GET《 http://127.0.0.1:8080/favicon.ico 404 (Not Found)》

devc 能优化吗_牛排优化系统靠谱吗？seo快排可信吗？

403 - 禁止访问: 访问被拒绝。_王尘宇：如何屏蔽所有国外ip，禁止国外IP访问网站...

视频分享网站首页：最热最新视频特效

国内网站常用的一些 CDN 公共库加速服务

给小孩发布一个有趣的网站在线动物园

大型网站架构的演化