python爬取新闻网站内容findall函数爬取_Python爬取新闻网标题、日期、点击量

news/2024/5/9 5:23:26/文章来源:https://blog.csdn.net/weixin_39619433/article/details/113672453

最近接触Python爬虫,以爬取学校新闻网新闻标题、日期、点击量为例,记录一下工作进度

目前,感觉Python爬虫的过程无非两步:

Step1.获取网页url(利用Python库函数import urllib2)

Step2.利用正则表达式对html中的字符串进行匹配、查找等操作

自我感觉sublime text2编辑器真心好用,部署Python后不会像WingIDE、notepad++那样存在那么多头疼的小问题,推荐使用

# -*- coding: UTF-8 -*-

import urllib2

import sys

import re

import os

#***********fuction define************#

def extract_url(info):

rege="

"#fei tan lan mo shi

re_url = re.findall(rege, info)

n=len(re_url)

for i in range(0,n):

re_url[i]="http://news.swjtu.edu.cn/"+re_url[i]

return re_url

def extract_title(sub_web):

re_key = "

\r\n (.*)\r\n

"

title = re.findall(re_key,sub_web)

return title

def extract_date(sub_web):

re_key = "日期:(.*?)  "

date = re.findall(re_key,sub_web)

return date

def extract_counts(sub_web):

re_key = "点击数:(.*?)  "

counts = re.findall(re_key,sub_web)

return counts

#*************main**************#

fp=open('output.txt','w')

content = urllib2.urlopen('http://news.swjtu.edu.cn/ShowList-82-0-1.shtml').read()

url=extract_url(content)

string=""

n=len(url)

print n

for i in range(0,n):

sub_web = urllib2.urlopen(url[i]).read()

sub_title = extract_title(sub_web)

string+=sub_title[0]

string+=' '

sub_date = extract_date(sub_web)

string+="日期:"+sub_date[0]

string+=' '

sub_counts = extract_counts(sub_web)

string+="点击数:"+sub_counts[0]

string+='\n'

# print string

print string

fp.close()

71734de20a7b312d78daff8a3a9bf25a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_801657.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站设计php和python,源码:基于Python网站的设计与实现

无论您需要任何题目请直接联系客服索取系统演示资料!咨询可赠送设计资料教程一份!经多年积累,本店有java、jsp、php、、安卓、IOS、vb、net,vc、c#等设计上万套,本店保证所有设计可正常运行!也可定做!收藏管…

从哪些方面提升服务器性能优秀强大,网站服务器升级应该从哪些方面提升性能!...

网站服务器在使用运行一段时间之后,就需要考虑对服务器进行升级,一方面服务器升级能够更好满足企业对网站的使用需求,另一方面服务器在进行升级之后,用户在浏览网站时能够更加迅速,体验速度会更好。因此服务器升级也是…

企业网站 源码 服务邮箱:_口碑营销:惠州企业网站推广定制服务

口碑营销:惠州企业网站推广定制服务 qnmsptdb口碑营销:惠州企业网站推广定制服务 软文则是从软文推广衍生出来的,它的分类具体有推广类型的软文、那么软文的主要形式有哪些呢。的策略。一家的站方案,网页排名、关键词、整站都是重…

备案网站未正规绑定服务器,网站备案对收录到底有没有影响

不论是之前备案条件宽松的时候还是现在备案严格,总有很多新手站长有疑惑,网站备案这玩意对网站收录究竟有没有直接影响?近日一位圈内资深站长给出了自己的答案:做了几百个网站,直白讲网站备案跟网站收录是没有任何影响的!我知道&…

python登录app爬取数据_Python爬取网站上面的数据很简单,但是如何爬取APP上面的数据呢...

​ 前言 在我们在爬取手机APP上面的数据的时候,都会借助Fidder来爬取。今天就教大家如何爬取手机APP上面的数据。 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经…

url获取网站信息不包含网页源文件内的标签_大型门户网站常用的SEO优化思路!...

一般的网站SEO优化企业需要进行考虑的就是排名、流量、转化率,可是我们对于一个大型门户站的SEO优化则需要充分考虑到了很多事情,比如:网站系统架构、分类、路径、程序设计等等这些方面,所以小编觉得门户网站的SEO优化一定要提前做…

在网站底部放置备案号_艾孜尔江撰

直接将下方的备案号改为你自己的备案号即可。 <p style"background:none;height: 5%;position: fixed;bottom: 0px;width: 100%;text-align: center; "><img style"padding-top:2px;" src"/images/index/相应静态资源目录下的国徽图标.png&q…

Selenium手撕打字网站

在进行爬虫的时候&#xff0c;突发奇想&#xff0c;能不能用selenium进行打字网站的测试&#xff0c;说干就干 from selenium.webdriver import Firefox from selenium.webdriver.common.keys import Keys import time首先导入需要的库 web Firefox()实例化浏览器 web.get(…

服务器系统蓝屏进不去怎么办,蓝屏无法进入任何模式怎么办_网站服务器运行维护,蓝屏...

如何在mac上配置apache和php_网站服务器运行维护在mac上配置apache和php的方法是&#xff1a;1、查看系统预装的apache和php版本&#xff1b;2、修改apache配置文件&#xff1b;3、生成php配置文件&#xff1b;4、重启apache服务&#xff1b;5、测试运行php文件。蓝屏无法进入任…

cn域名注册十元_网站使用短域名会有哪些好处?

域名注册对于网站建设来说是必不可少的&#xff0c;许多公司会根据域名的长度来运营网站。然而经过长时间的研究&#xff0c;人们发现短的域名更有利于运营。下面简单说说网站使用短域名会有哪些好处?1、更容易记忆大脑的处理系统都避长就短&#xff0c;越简单的东西越容易记忆…

电脑java编译器软件下载,JDK官方网站下载安装教程 JAVA编译器

很多人都不知道怎么在官方网站下载JDK&#xff0c;下面我们就一起来看看教程吧&#xff01;操作方法01在搜索中输入“JDK官网”进行搜索&#xff0c;如下图所示。02搜索到JDK官网之后点击进入&#xff0c;如下图所示。03进入官网之后&#xff0c;点击下图中箭头指向的图标。04点…

Gitee如何免费部署静态网站?

1、网页只能本地浏览&#xff0c;想挂在云端进行访问浏览的 2、想入手云服务器&#xff0c;但服务器太贵了&#xff0c;觉得花钱不值得 3、不知道服务器如何使用和搭建的&#xff0c;对于新手小白不太友好 4、想快速部署网页的&#xff0c;简单配置就可以得到想要的 谁说程…

web前端-二级分类菜单(类似购物网站)

效果&#xff1a;鼠标移上去右边显示二级菜单。 效果图&#xff1a; 实现代码 <!DOCTYPE html> <html> <head lang"en"><meta charset"UTF-8"><title></title><style>*{margin:0;padding:0;}#nav{width:100%;h…

JAVA环境下JDK导入指定网站下载下来的证书

查了很多文章&#xff0c;都写的乱七八糟的&#xff0c;不是缺这就是缺那&#xff0c;反正不完善&#xff0c;经过各种试&#xff0c;会出现很多问题&#xff0c;比如keytool命令不能识别的问题&#xff0c;或者执行命令报错的问题&#xff0c;很多。 经过各种测试&#xff0c…

React实战入门课程:dva开发一个cnode网站(1)

dva开发一个cnode网站&#xff08;1&#xff09; dva 首先是一个基于 redux 和 redux-saga 的数据流方案&#xff0c;然后为了简化开发体验&#xff0c;dva 还额外内置了 react-router 和 fetch&#xff0c;所以也可以理解为一个轻量级的应用框架。 本教程是利用cnode的开放api…

React实战入门课程:dva开发一个cnode网站(2)

今天来学习第二节课程&#xff0c;完成列表数据的展示 效果&#xff1a; 1. 新建ListData组件 import React , { Component }from react; import { List, Avatar, Icon, Spin } from antd; import PropTypes from prop-types; import { connect } from dva;class ListData e…

React实战入门课程:dva开发一个cnode网站(3)

完成详情页渲染&#xff0c;用到了react-markdown来渲染 先看效果&#xff1a; 1 在components下新建Detail.js import React , { Component }from react; import { Card, Avatar, Spin, Icon,Comment, Tooltip, List} from antd; import PropTypes from prop-types; import …

React实战入门课程:dva开发一个cnode网站(4)

增加分类标签&#xff0c;效果如下&#xff1a; 1 修改ListData组件 完整代码&#xff1a; import React , { Component }from react; import { List, Avatar, Icon, Spin ,Tag } from antd; import PropTypes from prop-types; import { connect } from dva; import ./my.c…

Castle开发系列文章上了Castle的官方网站

最近有些忙&#xff0c;Blog更新的速度明显有些慢了&#xff0c;也是很久没有上Castle的官方网站了&#xff0c;今天Terry82&#xff08;跟我名字有点像&#xff09;的朋友告诉我Castle 开发系列文章在Castle官方网站上有链接&#xff0c;上去看了一下&#xff0c;还真是&#…

jitter 如何优化网络_网络营销专员浅析网络营销过程中如何做好网站权重流量的优化...

在搜索引擎中通过检索关键词后所展示出来的首页网站大多都有着不错的流量和权重&#xff0c;这对于企业网站来说是网站优化运营和网络营销推广专业水准的体现&#xff0c;这也是无数专业人士背后默默运营得出的结果。通常情况下&#xff0c;网站权重和流量越高&#xff0c;搜索…