python中用Beautifulsoup提取集搜客网站的信息

python中用Beautifulsoup提取集搜客网站的信息

news/2024/5/11 19:11:06/文章来源:https://blog.csdn.net/guang_mang/article/details/53747141

1爬取集搜客网站上面的信息点击打开链接

2看下这个源代码

3使用正则表达式提取出来

# coding:utf8
import urllib2
import time
from bs4 import BeautifulSoup
class YZW():#先是定义一个模块然后就是用来包含用到的函数def __init__(self):self.user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64)'#设置它的用户代理，模仿浏览器来访问self.header={'User_Agent':self.user_agent}#利用header的字典来传入def getHtml(url,page):try:#运用try except 函数urls='http://www.gooseeker.com/cn/forum/7?page='+str(page)#如果要爬取多页，观察多页网站规律page=urllib2.urlopen(urls)html=page.read()return htmlexcept urllib2.URLError, g:#如果出现URLError的错误，会执行以下代码if hasattr (g,"reason"):print u'loding error', g.reasonreturn Nonedef getitem(self):for i in range(12):html=self.getHtml(i)time.sleep(1)soup=BeautifulSoup(html,"html.parser")Data=soup.find_all('tr',class_='odd')#观察自己要提取信息的标签，然后来提取信息for item in Data:lists = item.get_text("|")#得到其中的文本，然后就是用 | 来代替以前的分割lists = lists.split('|')try:print lists[0],lists[1],lists[3]except:print 'None'Data=soup.find_all('tr',class_='even')for item in Data:lists = item.get_text("|")lists = lists.split('|')

4然后看下这个运行结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_890913.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

利用压缩网页来提升网站浏览速度

利用压缩网页来提升网站浏览速度

级别： 中级刘冬 (javayougmail.com), 开发工程师, 　 2007 年 2 月 28 日本文主要介绍如何通过对页面进行压缩从而节省网站的带宽以及提升用户的访问速度。网站的访问速度是由多个因素所共同决定的，这些因素例如应用程序的响应速度、网络带宽、服…

阅读更多...

网站多级缓存的分层架构

网站多级缓存的分层架构

参考：大型网站多级缓存的分层架构假设一个网站，需要提高性能，缓存可以放在浏览器，可以放在反向代理服务器，还可以放在应用程序进程内，同时可以放在分布式缓存系统中。从用户请求数据到数据返回&#x…

阅读更多...

网站中如何处理重复的代码

网站中如何处理重复的代码

网站中如何处理重复的代码作者：闪吧类型:原创来源:闪吧 style"PADDING-RIGHT: 0px; PADDING-LEFT: 0px; PADDING-BOTTOM: 0px; MARGIN: 0px; WIDTH: 400px; PADDING-TOP: 0px; HEIGHT: 25px" src"teachInfo.aspx?id4051" frameborder&…

阅读更多...

网站优化十大方法之关键字篇

网站优化十大方法之关键字篇

1、选择有效的关键字： 关键字是描述你的产品及服务的词语，选择适当的关键字是建立一个高排名网站的第一步。选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字。 2、理解关键字： 在你收集所需的关键字之前，…

阅读更多...

孩子上网抄作业习题网站点击率高 ----回想当年....我们真是落伍了

孩子上网抄作业习题网站点击率高 ----回想当年....我们真是落伍了

孩子上网抄作业习题网站点击率高作者：王迪 | 2005-01-13 | 原始出处： 四川在线-华西都市报昨日上午，家住成都的黄先生打进本报教育新闻热线(028-86969195)无奈地说："在一些网站上，初中各科的课后习题的解题过程…

阅读更多...

Java、JSP基于Web的小型购书网站

Java、JSP基于Web的小型购书网站

技术：Java、JSP等摘要：俗话说活到老，学到老，当今社会正在快速的发展，人民生活的更加节奏化，大多数的人不再仅仅追求物质上的满足，而且还在追求精神方面的满足。由于在现实生活中，互…

阅读更多...

【服务计算】REST API学习与设计——模仿GithubAPI设计博客网站API

【服务计算】REST API学习与设计——模仿GithubAPI设计博客网站API

文章目录什么是REST？了解Web API学习Github-API设计博客网站API获取用户信息获得某用户所有文章总览访问用户的某一个指定的文章查看某用户关注信息获取用户下的分类专栏文章发布文章发布评论修改文章删除文章错误处理404 Not Found400 Bad Request401 Unauthoriz…

阅读更多...

相对定位父子元素触发mouseover和mouseout事件实验

相对定位父子元素触发mouseover和mouseout事件实验

最近做的一个项目中有个功能是鼠标移动到某一块id为A，然后A的子元素id为B在下方紧贴着父元素A显示出来，B里面的内容是鼠标移动到A元素上才请求服务端获取数据。我使用了mouseover，mouseout事件，采用jquery的on方法。大致如下 $(…

阅读更多...

相关网站（Github、个人博客等）的编程相关学习资源和可下载电子书导航，不定时更新

相关网站（Github、个人博客等）的编程相关学习资源和可下载电子书导航，不定时更新

编程相关学习资源和可下载电子书项目导航，不定时更新前言Python学习资源与书籍Python入门教程-By廖雪峰 -学习资源《Python进阶》-可下载电子书python深度学习入门 C#学习书籍前言作为广为人知的开源项目网址，Github已经被许多大牛玩出了花。理所当然…

阅读更多...

爬虫练习——某网站上海房价分析

爬虫练习——某网站上海房价分析

前言实验数据来源自某看房网站，通过爬虫一共爬取了一千六百多条数据。能力有限，实验结果仅供参考。该网站几乎没有什么反爬虫措施，原理很简单，所以关键就是定位自己想要的信息。工具 1、爬虫工具：request&#x…

阅读更多...

开源中国网站挂掉了...

开源中国网站挂掉了...

现在是2013-08-24 18:48:19 有图为证：

阅读更多...

基于C#和SQL SERVER的校园知识问答论坛网站的设计与实现

基于C#和SQL SERVER的校园知识问答论坛网站的设计与实现

摘要本文使用Asp.Net Core 和MsSqlServer技术，详细说明开发校园知识论坛系统的开发。校园知识论坛系统是基本B/S模式的一种交互性极强的电子信息服务系统。它为使用者提供一个交流的平台，每一个用户都可以在上面问答知识，获取信息&#xff…

阅读更多...

基于JavaScript和MySQL的文化平台网站的设计与实现

基于JavaScript和MySQL的文化平台网站的设计与实现

摘要中国文化源远流长，自古就有文人雅士作诗赋词，舞文弄墨，尽显风雅。现今则有歌手作家思想成文，心绪为曲，亦现儒雅。文化是传承的，是流传不息的，也是众多人所追求的。从各种各样的文化中&…

阅读更多...

基于Node.js中间层的微信图书借阅平台网站的设计与实现

基于Node.js中间层的微信图书借阅平台网站的设计与实现

1 引言步入信息时代以来，互联网给人们的生活带来了翻天覆地的变化，互联网也不再简单地仅仅通过提供便利快捷的资讯服务来丰富我们的生活。互联网的出现打破了许多传统行业垄断的格局，互联网以其接入面广、信息即使、人人可参与等等性质&…

阅读更多...

基于Keras和tensorflow深度学习Python实现的支持人脸识别和情绪分类的社区APP网站和微信小程序...

基于Keras和tensorflow深度学习Python实现的支持人脸识别和情绪分类的社区APP网站和微信小程序...

1 项目介绍 1.1 背景视觉使人类得以感知和理解周边的世界，人的大脑皮层大约有 70%的活动在处理视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像，以达到甚至超越人类视觉智能的效果。从 1966 年学科建立（MIT：TheS…

阅读更多...

基于php与sqlite数据库的运动社交网站

基于php与sqlite数据库的运动社交网站

一、总体设计 1.1 开发环境本系统采用php作为主要开发语言，服务端主要使用php＋sqliteApache，客户端使用htmlcssjs。用Apache作为服务器，采用sqlite作为后台数据管理系统。开发环境：Windows 10 开发工具：p…

阅读更多...

[源码和文档分享]基于C#实现的电影网站数据爬虫和电影网站

[源码和文档分享]基于C#实现的电影网站数据爬虫和电影网站

1 简介 1.1 背景随着网络的发展，网购也越来越流行，人们可以在去各大电影院的网站方便的购票并选择自己喜欢的时间去影院观看。但电影院网站众多，人们可能为了寻找一个电影而奔波与各大网站，导致浪费大量时间在寻找电影资源上。本…

阅读更多...

[源码和文档分享]基于JAVA FX实现的酒店预订系统网站

[源码和文档分享]基于JAVA FX实现的酒店预订系统网站

1 产品概述参考酒店预订系统用例文档和酒店预订系统软件需求规格说明文档中队产品的概括描述。酒店预订系统主要是应用于网上预定远程酒店订单的在线系统，主要功能见用例图如下。源码下载地址：https://www.write-bug.com/article/1441.html

阅读更多...

[源码和文档分享]基于PHP和MYSQL数据库实现的公共考试报名管理系统网站

[源码和文档分享]基于PHP和MYSQL数据库实现的公共考试报名管理系统网站

前言随着社会的快速发展，体力不再是我们唯一的生存方式了，人们也越来越注重自身的文化素养，随之而来的也有许多成人考试，为已经步入社会的人提供一个再学习的机会。众所周知，作为学生，考试是我们必经的过…

阅读更多...

[源码和文档分享]基于Python的Django框架实现的中式快餐厅管理信息系统网站

[源码和文档分享]基于Python的Django框架实现的中式快餐厅管理信息系统网站

1 初步调研随着餐饮业的连锁和国外餐饮巨头的进入，餐饮业的竞争将越来越激烈：要想在竞争中处于不败之地，必须在管理、服务等方面提高服务管理意识。面对当前餐饮业普遍的产业化程度低，管理手段、管理技术落后等问题，使…

阅读更多...

推荐文章

最新文章