python制作动态网站_python入门-爬取动态网站

news/2024/5/17 18:47:01/文章来源:https://blog.csdn.net/weixin_39769675/article/details/109941167

一、缘起

跟林同学一起学了 python 一周左右的时候，她开始做她的毕业设计，去爬一个网站。

由于我们都还没接触过动态网站（这里简单的认为是用 ajax 去加载数据的），所以用爬静态网站的方法肯定行不通啦。

然后我查了一小时才发现是数据是动态加载的（真够菜的。。）

二、过程

后来查查资料，发现爬动态网站常用的就几种方法：

1，分析 ajax 请求、参数等，用爬静态网站的方法，直接拿 json 数据。

2，使用 splash 爬取

3，使用 selenium 模拟鼠标操作，去爬取相关数据

第一种方法比较简单，只是分析请求稍微有点费时。林同学用半个小时就用 scrapy 搞定了，才几行代码而已。。

import requests

url = 'http://app.gdstc.gov.cn/sjkf/kjxm'

data = {

'const_dict_id': 10203,

'start': 60,

'length': 30,

}

headers = {'User-Agent': 'Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1',

"Cookie": "BAIDUID=4650B0B34048BBAA1E0B909B42F5A564:FG=1; BIDUPSID=4650B0B34048BBAA1E0B909B42F5A564; PSTM=1537177909; BDUSS=w0VmEzUFFWTTh0bld5VWVhNVo5MEEyV2ZKdTk3U2stMGZmWVQ1TTRuSnVkOHBiQVFBQUFBJCQAAAAAAAAAAAEAAAD0GzcNaG9uZ3F1YW4xOTkxAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG7qoltu6qJbTk; pgv_pvi=6774493184; uc_login_unique=19e6fd48035206a8abe89f98c3fc542a; uc_recom_mark=cmVjb21tYXJrXzYyNDU4NjM%3D; MCITY=-218%3A; cflag=15%3A3; SIGNIN_UC=70a2711cf1d3d9b1a82d2f87d633bd8a02893452711; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1539333192; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1539333307",

}

response = requests.get(url, params=data, headers=headers, timeout=10)

print(response.url)

print(response.status_code)

if response.status_code == 200:

content = response.text

print(content)

然而，我用第二种方法，搞了两个小时，还只能拿到第一页的数据，无法拿到翻页的数据。林同学为她拿到数据而开心的时候，我还在很烦躁地 debug。。

后来，我用了第三种方法，终于还是搞定了。代码如下：

import re

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from bs4 import BeautifulSoup

import pymysql

#创建连接

conn = pymysql.connect(

host='localhost', #主机名

port=3306, #端口号(默认的)

user='root', #用户名

passwd='', #密码

db='technology', #数据库名，需要先自己手动新建

charset='utf8', #这里设置编码是为了输出中文

)

#获取cursor

cur = conn.cursor()

browser = webdriver.Chrome()

wait = WebDriverWait(browser, 10)

url = "http://app.gdstc.gov.cn/app/sjkf/kjxm_10203.jsp"

def start():

print('--started--')

try:

browser.get(url)

# 等待 ajax 加载完成

numbers = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#listTable_paginate > ul > li:nth-child(8) > a")))

get_infos()

return numbers.text

except TimeoutError:

return start()

def next_page(page_number):

print('--paging--')

try:

# 模拟点击下一页

next = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#listTable_next > a")))

next.click()

# 等待 ajax 刷新完成

wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,"#listTable_paginate > ul > li.paginate_button.active"), str(page_number)))

get_infos()

except TimeoutError:

next_page()

def get_infos():

wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#listTable_wrapper #listTable")))

html = browser.page_source

soup = BeautifulSoup(html, "html.parser")

trs = soup.select("tr[role='row']")

for tr in trs[1:]:

info = []

for td in tr:

# print(td.text)

info.append(td.text)

save_to_mysql(info)

# 需要自己先手动建一个 infos 的表，关有相关字段

def save_to_mysql(info):

sql = "insert into infos (name, location, firstTime, validTime) values ('%s', '%s', '%s','%s')" % (info[0], info[1], info[2], info[3])

try:

# 执行sql语句

cur.execute(sql)

# 提交到数据库执行r

conn.commit()

except Exception as e:

print('--Save To MYSQL Error--', e)

# Rollback in case there is any error

conn.rollback()

def main():

try:

total = start()

for i in range(2, int(total) + 1):

next_page(i)

except Exception as e:

print('--Error Occurred--', e)

finally:

# 关闭数据库连接

cur.close()

conn.close()

browser.close()

print('--ended--')

if __name__ == '__main__':

main()

三、后记

写这篇文章主要是为了记录一下我枯燥的学习过程。

四月份前两周主要在学机器学习，那时候觉得，要学的知识又多又难，我学习效率又低，智商也低，真的压力好大。可惜只坚持了两周就不行了。感觉比考研前一个月还累。晒一下前两周的学习时间表：

ef9db6fac2fc?from=timeline&isappinstalled=0

学习时间表.png

然后这几天主要在学 python 爬虫。

入门 python 爬虫比入门机器学习简单一百倍。。于是现在经常睡到自然醒，无聊了就看电影，做条咸鱼，真是太舒服了。。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_763517.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python制作动态网站_python入门-爬取动态网站

相关文章

apache php mysql架构图_Linux-Apache-MySQL-PHP网站架构方案分析

上网登录窗不弹出_你的密码容易被人知道，登录网站时千万要留心这个！

51 个漂亮的电子商务网站设计分享

iis使用nginx实现网站负载（转）

curl网站开发指南

java抓取并保存图片_利用JAVA抓取网站的所有图片并保存于本地

网站黑色字体php,字体颜色怎么变成黑色

移动网站设计与开发的碎碎念

asp抓取网页某个标签内的_必须要了解SEO常用标签，你都知道几个？

Project Server 2013新手入门（一）为PWA添加用户并分享网站

一键部署网站php源码,如何轻松建站？站点一键部署搭建（详细教程）

多媒体开发之---一个破解版的迅雷云点播网站

网站开发笔记【四】css hack技术

java服务端性能优化_[读书笔记] 大型网站性能优化实战-服务端性能优化

java开源 mooc,GitHub - bo5509/TinyMooc: 轻量级Java平台在线幕课学习网站

PHP-购物网站开发设计（一）

简单网站新闻发布系统

VS2005在开发网站时的一个编译BUG

中小型企业网络规划设计方案_中小型企业做品牌网络营销推广时要注意什么问题？【seo专吧】...

环球企业家《信息网站的未来》