python爬虫自学网站_Python爬虫学习——获取网页

news/2024/5/20 21:07:11/文章来源:https://blog.csdn.net/weixin_35988038/article/details/113672774

通过GET请求获取返回的网页,其中加入了User-agent信息,不然会抛出"HTTP Error 403: Forbidden"异常,

因为有些网站为了防止这种没有User-agent信息的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝。

#coding=utf-8

import urllib2

import re

#使用Python2.7

def getHtml(url,user_agent="wswp",num_retries=2):#下载网页,如果下载失败重新下载两次

print '开始下载网页:',url

headers = {"User-agent":user_agent}

#headers = {

# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0',

# 'cookie': cookie

#}

request = urllib2.Request(url,headers=headers)

try:

html = urllib2.urlopen(request).read()#GET请求

except urllib2.URLError as e:

print "下载失败:",e.reason

html = None

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return getHtml(url,num_retries-1)

return html

if __name__ == '__main__':

html = getHtml("http://www.baidu.com")

print html

print "结束"

0134f9808668402448db4f33e9ebb9a4.png

73c5a002ee6572e2ce13dfe6ca80b89f.png

...

bf1b5a4c4a315f5201f56d05ca0e73a7.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_837005.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜索引擎更容易识别html,什么样的网站更容易被百度搜索引擎抓取?

搜索引擎友好的网站要具备哪些条件&#xff1f;搜索引擎友好的网站要怎么做呢&#xff1f;要想做好一个让搜索引起喜欢的网站&#xff0c;小编建议你要学会换位思考&#xff0c;从搜索引擎蜘蛛的角度去思考&#xff0c;搜索引擎蜘蛛是如何看待一个网站的页面结构的&#xff1f;…

html怎么转换成app,快速把html、手机网站打包成APP的工具和步骤流程

开心app平台是我们开发的一个打包网站的工具&#xff0c;可以非常方便的把一个手机网站做成APP&#xff0c;也可以直接打包h5代码&#xff0c;免费使用&#xff01;下面介绍使用开心app平台怎么将网站快速打包成APP分七步进行1、注册开心app平台账号2、创建APP、配置基本信息3、…

php网站和asp上传方法,PHP/ASP上传漏洞探究

一、写在前面***这个上传漏洞利用的原理只是针对form格式上传的asp和php脚本***nc(netcat)用于提交数据包dos界面下运行:nc -vv www.***.com 80<1.txt-vv: 回显80: www端口1.txt: 就是你要发送的数据包(更多使用方法请查看本区的帖子)wse(wsockexpert)对本机端口的监视,抓取…

flask专题-小说网站开发一

在比较了诸多python web框架之后&#xff0c;笔者选择选择了flask框架&#xff0c;因为笔者要做推荐系统&#xff0c;收集实验数据&#xff0c;决定开发一个小型网站&#xff0c;收集信息以作后续的推荐系统&#xff0c;对于我来说flask框架完全够用。 网站网址&#xff1a;htt…

flask专题-小说网站开发二(数据准备)

在确定使用flask开发小说网站之后&#xff0c;就要准备数据了&#xff0c;数据是活的灵魂&#xff0c;没有数据就是个空架子&#xff0c;我自己不可能去写小说了&#xff0c;只能从网站采集了&#xff0c;爬虫就是利器&#xff0c;先准备一下小说数据库&#xff0c;以及整个网站…

flask专题-小说网站开发三(注册,登录)

前面几篇准备好了数据库&#xff0c;数据&#xff0c;现在开始往后开发&#xff0c;部分可能与网上他人使用方式不同&#xff0c;本人第一次做&#xff0c;功能都实现了&#xff0c;这一篇开发注册与登录&#xff0c;先贴样式 前端 登录&#xff1a; 注册&#xff1a; 前端样…

flask专题-小说网站开发四(完结)

之前断更了&#xff0c;小说网站改成基于协同过滤的图书推荐系统了&#xff0c;并已经写完&#xff0c;传到gitee了 链接 实现的功能 推荐一块使用协同过滤的思想&#xff0c;计算物品之间的相似度 web框架使用Flask&#xff0c;小说还支持在线看的 主要功能截图 用户基本模…

帝国CMS7.5开发的小说源码自适应网站源码

全网第一版帝国内核CMS7.5开发的小说源码站自适应网站源码 源码介绍 前期没有章节数据 自带采集火车头采集规则 演示地址 演示地址&#xff1a;http://www.txtzn.com

软件工程课程设计-ch小说网站

CH小说网站 [软件开发计划书、需求分析] 作者&#xff1a;陈春旭&#xff0c;习志鹏 目录 1&#xff0e;引言&#xff08;Introduction&#xff09; 4 1.1 背景&#xff08;Background&#xff09; 4 1.2 目的&#xff08;Purpose&#xff09; 4 1.3 范围&#xff08;Scope&am…

HBuilderX打包web网站之wap2app设置底部菜单tabBar

上面是真实案例&#xff0c;首页、在看、我的就是我设置的菜单&#xff0c;还可以设置图标&#xff0c;填写图片网络地址就行。 下面是代码&#xff0c;可以直接用&#xff1a; 第一步&#xff0c;先下载2个文件或者复制也行&#xff0c;那就新建吧: 分别新建一个css文件&am…

小说站源码(带自动采集开源小说网站源码)

小说网站源码是一套文本自动聚合搜索和展示构建系统&#xff0c;设计用于编写由许多较小的文本文档组合而成的小说网站。它使用了受Markdown启发的最小格式语法&#xff0c;并添加了用于注释、概要和交叉引用的元数据语法。它被设计成一个简单的文本编辑器&#xff0c;允许轻松…

SpringBoot+ Mybatis 开发一个读书网站

项目描述 本项目为javaweb课程设计作业&#xff0c;开发了一个类似于豆瓣读书的书友交流网站。 效果图 项目结构 mapper和pojo可以用generator自动生成&#xff0c;我们只需编写controller就可以了 贴一个userController的代码&#xff0c;其他的都大同小异 package com.te…

基于SSM甜品销售网站

关于开发环境 1. jdk1.8 2. myeclipse10 3. tomcat8 4. mysql utf-8 使用技术 1. ssh 框架 2. log使用的是log4j 3. 自定义properties 4. 字符集 utf-8 5. 中文乱码使用自定义过滤器 6. 分页使用的是pager-taglib框架 7. 后台登陆使用的是frameset框架 课题设计仅供参考学习使用…

旅游管理网站前台+后台

这个网站使用JSPServlet&#xff0c;虽说是JSPServlet但是我看了看&#xff0c;大部分的代码逻辑都是写在JSP里面的。。 这个适用于毕业设计的&#xff0c;简单改一改可以适用于很多网站&#xff0c;可以改后台下拉列表的类型&#xff0c;把这个改成门户网站也不错&#xff0c;…

java jsp在线小说网站

采用了jspservlet来写&#xff0c;前端部分用了少量的js和jQuery处理&#xff0c;数据库用了MySQL&#xff0c;开发平台是myeclipse。发布文章时直接插入数据库会没有分段&#xff0c;这里的解决办法是引入第三方工具wangEditor&#xff08;wangEditor 是一款基于JavaScript和c…

校园失物招领网站

开发环境是Eclipse none&#xff0c;Mysql5.6数据库&#xff0c;Spring MVC框架&#xff0c;jdk1.7&#xff0c;Tomcat 8.0.27,静态页面是我参照网上设计的&#xff0c;系统功能基本完善&#xff0c;目前还没有发现有需要解决的bug 下载下来后&#xff0c;解压开把jar目录里面的…

CentOS服务器搭建WordPress个人博客网站

WordPress 是世界上使用最广泛的博客系统之一&#xff0c;是一款开源的PHP软件。有丰富的插件模板资源&#xff0c;使用WordPress可以快速搭建独立的博客网站。 本教程软件环境基于CentOS 6.8 64位&#xff0c;从配置LNMP环境开始一步步搭建属于你自己的WordPress博客网站。 …

基于腾讯云服务器搭建的一个简易的网站(ubuntu)

本文系湛江市岭南师范学院物联网俱乐部原创教学文章&#xff0c;转载请保留声明。 前言 本文将会带领大家去学习如何在云服务器上面部署&#xff0c;并且搭建自己的网站&#xff0c;从而让你拥有一个真正属于你自己的网站&#xff0c;不过此网站的内容比较简陋请广大网友勿笑&…

树莓派之搭建个人博客网站

树莓派之搭建个人博客网站前言一、树莓派配置1.1 window下软件安装1.2 设置静态IP&#xff08;可不设&#xff09;二、安装NTP进行自动对时2.1 换源2.2 NTP用法三、相关软件安装3.1 安装Nginx&#xff1a;3.2 安装SQLite33.3 安装PHP&#xff08;PHP7&#xff09;3.4 配置Nginx…

锚链接点击添加class_掌握文章锚文本技巧,快速提升网站优化效果

关键词锚文本链接肯定要做&#xff0c;有些人说内链导致被K站的原因&#xff0c;肯定是过度&#xff0c;不合理的内链建设&#xff0c;导致网站被K的这种说法&#xff0c;不正确&#xff0c;最多被降权&#xff0c;被K站的原因是服务器不稳定、采集文章、经常改动网站、使用作弊…