根据url 在ensembl 网站爬取外显子等数据

news/2024/5/15 12:44:42/文章来源:https://blog.csdn.net/weixin_51192038/article/details/123216721

根据url 在ensembl 网站爬取外显子等数据
需要先一步准备好url,我准备的url如下:
主要是g 和 t 两列内容不同
在这里插入图片描述

可以准备好g和t两列数据,用python自动补充好url链接,代码如下:
(注意:url不要是列表的形式,否则会报错)

此时这个html页面只有一个表格,其他的内容没有,所以可以直接写
tb = pd.read_html(urlValue)

但是如果url里面,除了表格之外,还有其他的内容,则,需要在tb爬取的url后面标注爬取的表格的位置,如爬取第一个表格内容:
tb = pd.read_html(urlValue)[0]

import pandas as pd
import csv
with open('geneid.csv', encoding='utf-8') as file:f_csv = csv.reader(file)for i, rows in enumerate(f_csv):if i >= 1:print(rows)urls = ['https://nov2020.archive.ensembl.org/Mus_musculus/Component/Transcript/Exons/exons?db=core;''g={};t={}'.format(rows[0], rows[1])]for urlValue in urls:print(urlValue)df= pd.read_html(urlValue)print(df)col_name = df.columns.tolist()  # 将数据框的列名全部提取出来存放在列表里# print(col_name)col_name.insert(0, 'geneid')  # 在列索引为0的位置插入一列,列名为:geneid,刚插入时不会有值,整列都是NaNcol_name.insert(1, 'traid')df = df.reindex(columns=col_name)  # DataFrame.reindex() 对原行/列索引重新构建索引值df['geneid'] = rows[0]  # geneid列赋值df['traid'] = rows[1]  # traid 列赋值# print(df['No.'])df.to_csv(path, mode='a', encoding='utf_8', index=False,header=False)print(str(urlValue) + '抓取完成')df = pd.DataFrame(tb)df.to_csv(r'58748-18094(2).csv', mode='a', encoding='utf_8', index=False)print(str(urlValue) + '抓取完成')

也可以手动整理好url,直接拿来使用即可,但相对比较麻烦些

在这里插入图片描述
代码为:边爬取边存入表格

import pandas as pd
import csv
with open('C:/Users/Desktop/50.csv', encoding='utf-8') as file:f_csv = csv.reader(file)for i, rows in enumerate(f_csv):if i >= 1:for j in rows:url = jprint(url)tb = pd.read_html(url)[0]print(tb)df = pd.DataFrame(tb)df.to_csv(r'C:/Users//Desktop/58.csv', mode='a', encoding='utf_8', index=False)print(str(url) + '抓取完成')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_773153.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

echarts图形示例网站(含代码),提升开发效率

echarts网站 公司的大屏需要echarts开发,但是不熟悉文档开发很慢怎么办呢,推荐几个厉害网址,需要开发什么图形直接去复制出来改改就完事儿啦! https://www.isqqw.com/#/homepage http://ppchart.com/#/ http://analysis.data…

让iis php 错误_IIS PHP环境Temp文件夹的权限问题引起的网站故障

前几天不知为何,服务器抽风严重…服务器非常慢,把WINDOWS2003重启了,结果连不上服务器。结果悲剧的去了机房。查找不出什么问题,GHOST恢复系统。几天后回去又装了个新站上去。再过两天后,问题又出现了。排查过程 检查网…

php监听器session,Servlet HttpSessionListener监听器统计网站在线人数

在许多网站或者软件应用中都有统计当前在线人数这一功能。在通常情况下,当一个用户进入网站时就会创建一个 HttpSession 对象,而当用户离开网站时,HttpSession 对象就会被销毁。在 Servlet 的八种监听器中,HttpSessionListener 监…

网站部署到linux 在进行压测,在Linux CentOS上搭建Jmeter压测环境

本文的主要内容是介绍如何在Linux CentOS 服务器上面搭建Jmeter的压测环境整个详细的流程,来满足我们日常工作中对于压力测试环境搭建、压力测试执行过程的需求。一、首先我们要准备四个东西,在搭建环境的时候需要使用到1、Xshell、puTTy等终端连接工具(…

哪种营销方法效果最差_百度推广网站怎么做营销?4个方法营销效果好

百度平台发展到现在已拥有超过亿万用户,所以每个企业都想在百度平台上搭建网站,当然不管搭建什么类型的网站都有99.9%的企业是希望有人来看,而且是越多越好,这样可能会在短时间实现曝光和流量转化的。那么,有两个问题&…

PHP占网站开发比例,最新报告78.7%网站的服务器端编程语言使用PHP,Python仅占1.4%...

根据w3techs官方显示,78.7%网站的服务器端编程语言使用PHP,其次是ASP.NET占比10.5%,第三是Java占比3.5%,Python则排名在第七占比1.4%。网站的服务器端编程语言使用占比相比前两年网站的服务器端编程语言PHP占比有所下降…

windos php7 fast cgi,FAST-CGI解析漏洞拿下网站并提权windows系统服务器

作为一个懒散的人,我比较喜欢关注网上发布的漏洞。利用最新的漏洞可以比较简单的得到webshell,然后利用webshell提权拿下服务器,这个是我最喜欢的。有一个很有意思的娱乐网站,我经常登陆浏览,以前就有拿下这个网站的想…

网站24小时监控服务器,24小时监控服务器

24小时监控服务器 内容精选换一换24小时监控服务器 相关内容本章节指导用户查看主机监控指标,监控指标分为Agent插件采集的细颗粒度的操作系统级别监控指标和ECS自带的监控指标。操作系统监控指标和基础监控指标请参见支持监控的服务列表。已完成Agent插件的安装。安…

服务器怎么修改主题,wordpress网站更换主题改版网站

在建立好了一个网站,并运营了较长时间之后,网站的内容已经非常丰富了,但随着网站运营时间的进行,以及访问用户的积累,很多时候之前的网站版面、以及一些用户体验都是需要进行改进的,因此当到达一个时间节点…

好用的图标网站

https://www.iconfont.cn/collections/index?spma313x.7781069.1998910419.da2e3581b&type1

pycharm新建Django项目与Django网站的新建

用manage.py 快速创建网站所有环境:(对django来讲所有的网站都是app) python manage.py startapp django_web#django_web是你的网站名DjangoMTV模型:

好用的数据结构网站

https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

python 制作网页 选择题_Python爬取天眼查网站的方法大全

以下链接都来自知乎问答python如何通过请求json文件,实现高效爬取动态加载页面? 完整模拟http请求即可,推荐requests库,写程序自动生成requests就行了。我现在的分布式爬虫系统就是这个策略,各大OTA都抓过了&#xff0…

python画太极八卦图_「太极八卦图」使用HTML+CSS画太极八卦图 - seo实验室

太极八卦图使用HTMLCSS画太极八卦图基本语法CSS基本语法格式:选择符{属性1:属性值1;属性2:属性值2;属性3:属性值3;......}选择符:1.元素选择器:找到同名一系列2.类选择器:找到同类名一系列定义:web前端开发1调用:.p1{属性1:属性值1;属性2:属性值2;属性3:属性值3;......}3.id选择…

zblog php建站教程_Z-BlogPHP主题制作教程

很早就想写这个教程了,不过由于时间的问题,被一值耽搁了。其实我在刚接触zblog的时候,在网上搜索过主题的制作教程,结果很不理想,没找到一个详细的教程;自己也是一边摸索一边做,后来虽然做出了一…

php 生成html工具seo6,AtoZ SEO Tools v2.6 – PHP搜索引擎优化工具

释放双眼,带上耳机,听听看~!该源码已亲自测试可以安装使用源码简介隐藏内容,您需要满足以下条件方可查看End在线演示隐藏内容,您需要满足以下条件方可查看End功能简介隐藏内容,您需要满足以下条件方可查看E…

代码命名网站

https://unbug.github.io/codelf/

堆积密度怎么做_[SEO优化]关键词究竟应该怎么优化?

一、关键词分布seo关键词优化中,关于挖掘关键词这一块,在这里就不讲了。先讲一下关键词在各个页面如何布局的。网站首页一般选3到5个关键词,其它每个栏目页面选2到3个关键词。原则上讲,网站首页一般放难度稍高一点的关键词&#x…

java 电子杂志_java毕业设计_springboot框架的时尚电子杂志网站设计

这是一个基于java的毕业设计项目,毕设课题为springboot框架的时尚电子杂志网站设计, 是一个采用b/s结构的javaweb项目, 开发工具eclipsei/eclipse, 项目框架jspspringbootmybatis, 时尚电子杂志网站设计采用mysql进行数据存储, 并基于mybatis进行了orm实体关系映射, 该时尚电子…

[翻译]避免常见 ASP.NET 缺陷,使网站平稳运行

Keep Sites Running Smoothly By Avoiding These 10 Common ASP.NET PitfallsBy Jeff Prosise通过避免下列 10 个常见 ASP.NET 缺陷使网站平稳运行作者:Jeff Prosise --------------------------------------摘自 MSDN Magazine 的 2006 年 7 月 刊。This article d…