使用Python爬取大嘴巴巴网站

news/2024/5/20 13:55:11/文章来源:https://blog.csdn.net/weixin_34405332/article/details/92490199

Anonymous驻中国办事处主任,私下搞了一个叫做“大嘴巴巴”的色*情网站。
http://dazui88.com/

这个网站烂的一逼,大家没事可以搞一搞它。今天我们试着爬取一下网站内容,回头交给网监×××姐。

1.首先我们观察大嘴巴巴最大的色请板块“轻松一刻”的URL
使用Python爬取大嘴巴巴网站
2.发现下面规律
使用Python爬取大嘴巴巴网站
3.然后编辑下面代码

##-*- coding:utf-8 -*-
import urllib2def load_page(url):'''send url return html_page'''user_agent = "User-Agent:Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0;"headers = {"User-Agent":user_agent}req = urllib2.Request(url,headers = headers)response = urllib2.urlopen(req)html = response.read()return htmldef write_to_file(file_name,txt):'''put txt into file_name'''print "writing file" + file_namef = open(file_name,'w')f.write(txt)f.closedef tiaba_spider(url,begin_page,end_page):'''fuck dazuibaba'''for i in range(begin_page,end_page + 1):pn = 442870 - i'''http://dazui88.com/qsyk/20180102442869.htmlhttp://dazui88.com/qsyk/20180102442868.htmlhttp://dazui88.com/qsyk/20180102442867.html........i = 1 ,pn = 442870 -1 = 442869'''dazui88_url = url +  str(pn) + '.html'#print "dazui88'url:"#print dazui88_urlhtml = load_page(dazui88_url)#print "================%d==================" %(i)#print html#print "===================================="file_name = str(i) + ".html"write_to_file(file_name,html)#main
if __name__ == "__main__":url = raw_input("please input dazui88'URL:")#print urlbegin_page = int(raw_input("please input begin_page:"))end_page = int(raw_input("please input end_page:"))#print begin_page#print end_pagetiaba_spider(url,begin_page,end_page)

4.然后执行python fuck-dazui88.py测试一下
使用Python爬取大嘴巴巴网站

5.成功爆夏主任菊花一次,可以愉快的去找网警×××姐举报他了:)

转载于:https://blog.51cto.com/hackerwang/2057398

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_827051.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用户用浏览器访问一个网站的时候背后的过程与步骤是怎样的?

1. 用户访问网站的流程 用户访问网站的流程 用户在浏览器中输入 www.taobao.com 到显示页面的过程 1.1 访问流程 利用DNS协议进行域名解析 --> 建立tcp协议三次握手过程 --> 客户端发出访问网站相应页面请求(发出http协议请求报文) --…

用Halo打造自己的博客网站

用Halo打造自己的博客网站 我之前分别用过Django和Hexo搭建网站,Django是python的web框架,Hexo是Node.js的,纯前端的玩意儿,配置起来相当折腾,后来我又听说了Halo不错,就尝试按官方文档部署了一套&#xf…

论文 | 用迁移学习解释:电商网站的用户评论应如何优化排序?

小蚂蚁说: 2018年6月初,自然语言处理三大顶会之一NAACL (Annual Conference of the North American Chapter of the Association for Computational Linguistics)在美国新奥尔良举行,吸引了世界各地的自然语言处理等领域的学者参加。 据统计&…

原生javascript-放大镜效果(模仿购物网站)

思路: 效果: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title>

SEO

开放分类&#xff1a; 搜索引擎优化、seo、网站优化、搜索优化、SEO技巧 目录 • SEO的概要 • SEO操作的分类 • SEO 十心 • 网站SEO中遇到的问题 • SEO展望 • 搜索引擎优化(SEO)专业术语 • SEO优势 SEO的概要 [编辑本段]SEO是Search Engine Optimization的缩写&#xff0…

WEB网站常见的攻击方式总结与原理分析

一个网站建立以后,如果不注意安全方面的问题,很容易被人攻击,下面就讨论一下几种常见的漏洞的简介与原理分析 一.跨站脚本攻击(xss) 恶意攻击者通过往Web页面里插入恶意html代码&#xff0c;当用户浏览该页之时&#xff0c;嵌入其中Web里面的html代码会被执行&#xff0c;从而达…

Web 性能优化: 图片优化让网站大小减少 62%

摘要&#xff1a; 压缩各种格式的图片。 原文&#xff1a;Web 性能优化&#xff1a; 图片优化让网站大小减少 62% 作者&#xff1a;前端小智 Fundebug经授权转载&#xff0c;版权归原作者所有。 这是 Web 性能优化的第二篇&#xff0c;上一篇在下面看点击查看&#xff1a; Web …

unity自动生成敌人_博主营地 | 如何生成WebGL发布到网站上分享你的游戏

在Unity社区分享经验&#xff0c;你也有机会获得官方推荐&#xff01;发稿入口&#xff1a;unity.cn/articles2020年度Unity价值博主、Unity价值专家招募中 更多Unity博主专属权益见文末网页快速试玩永远是让大家最容易接受的方法&#xff0c;以下是本期内容的视频完整版&#…

php matomo,Matomo4.2.1 发布,网站访问统计系统

Matomo 4.2.1 发布了。 Matomo 是一套基于 PHP5 MySQL 技术构建的开源网站访问统计系统&#xff0c;能够提供详细的统计信息&#xff0c;比如网页浏览人数、访问最多的页面、搜索引擎关键词等等流量分析功能。新的内容为了提高安全性&#xff0c;Matomo 用户界面创建的所有 coo…

php配置出问题,php.ini配置中有3处设置可能导致网站安全出问题

php.ini配置中有3处设置可能导致网站安全出问题发布时间&#xff1a;2020-03-24 10:14:37来源&#xff1a;亿速云阅读&#xff1a;828作者&#xff1a;小新php.ini配置中有3处设置可能导致网站安全出问题。那么是哪三处呢&#xff1f;跟着小编一起往下看吧。一定会对你们有所帮…

html 整站相对地址,网站代码使用“绝对地址“对SEO优化的重要性

摘要为什么网站代码使用“绝对地址”比“相对地址”更有利于SEO优化&#xff1f;1&#xff1a;防止有人恶意镜像网站&#xff1b;2&#xff1a;防止搜索引擎只收录二三级域名而不收录一级域名&#xff1b;3&#xff1a;省去了301重定向&#xff1b;3&#xff1a;提高网站权重&a…

spring boot security ajax_SpringBoot入门建站全系列(十一)Spring-security进行权限认证...

SpringBoot入门建站全系列&#xff08;十一&#xff09;Spring-security进行权限认证Spring 是一个非常流行和成功的 Java 应用开发框架。Spring Security 基于 Spring 框架&#xff0c;提供了一套 Web 应用安全性的完整解决方案。一般来说&#xff0c;Web 应用的安全性包括用户…

centos nginx重启_企业级电商网站使用Nginx+Lua(OpenResty)实现高性能Web应用

简介OpenResty是一款基于Nginx的高性能负载均衡服务器容器&#xff0c;简单来说是NginxLua。结合了Lua语言来对Nginx进行扩展&#xff0c;使得在Nginx上具有web容器功能。使得可以使用lua脚本来进行web的开发。有了lua&#xff0c;我们可以借助于nginx的异步非阻塞的功能&#…

网站留言板防重复留言_摄影,你一定要知道的几个看图网站!

一开始入行学摄影&#xff0c;不管你是爱好还是职业&#xff0c; 相信都经常听到别人说&#xff1a;“多看片&#xff0c;多模仿”这句话吧&#xff01;确实&#xff0c;一开始没有自己的摄影想法时候&#xff0c;是需要多看看别人的片子&#xff0c;可以激发自己的灵感&#x…

centos 访问网页重启php_解决阿里云CentOS 7重启后网站无法访问的问题

摘要每次阿里云主机重启后&#xff0c;总是无法访问网站。查看进程也发现了 mysqld、php、nginx等都也启动了&#xff0c;ping 也没问题&#xff0c;但就是无法访问。经过一番排查&#xff0c;这是 CentOS 7 最新的 firewalld 防火墙引起的问题。参考解决方案用iptables-servic…

虚拟服务器seo,虚拟主机是什么?

基本定义虚拟主机&#xff0c;又称虚拟服务器、主机空间或是网页空间&#xff0c;是一种让单一服务器可以运行多个网站或服务的技术。虚拟并非指不存在&#xff0c;而是指空间是由实体的服务器延伸而来&#xff0c;其硬件系统可以是基于服务器群&#xff0c;或者单个服务器。其…

[转]大流量、高并发网站验证码解决方案

原文地址: http://www.oksvn.com/Article/Detail-71.shtml摘录: 大型站点都是把验证码服务器和应用服务器分开的。具体的做法有两种&#xff1a;1.获取验证码的时候验证码服务器往客户端写验证cookies&#xff0c;提交的时候服务端获取这个cookie和提交上来的验证码&#xff0c…

《SEO实战密码》终于上市了

经过几番折腾&#xff0c;《SEO实战密码》终于陆续在主要网站和书店上架了&#xff0c;读者目前可以在中国互动出版网、当当&#xff08;普通版&#xff09;、卓越亚马逊、淘宝购买。另外&#xff0c;前几天回国时到出版社签名了200本书&#xff0c;签名版已全部交当当出售&…

收藏精美网页设计作品的200佳网站推荐(系列五)

这个系列将向大家分享寻找网页设计灵感的200佳网站。网页设计师们可通过这些网站收集的优秀网页设计作品来获取灵感&#xff0c;进而设计出更加时尚、更有创意的作品&#xff0c;网页设计师也可以把自己得意的作品提交到这些网站&#xff0c;分享给其它的设计师朋友。如果你有收…

如何实现在各种分辨率下网站的优良阅读体验?

引言 老大&#xff1a;“开发哥&#xff0c;在手机上打开咱们这网站怎么都缩小挤到一坨了&#xff1f;” 开发哥&#xff1a;“老大&#xff0c;咱们这网站都是照着设计师给的尺寸写死的&#xff0c;只有在固定尺寸的屏幕上才显示正常……” 老大&#xff1a;“那我要你有锤子…