Excel抓取网站内容

news/2024/5/20 20:39:26/文章来源:https://blog.csdn.net/duck_arrow/article/details/8439667

在浏览网页时,你一定会不时看到一些需要保存的数据信息。这些信息或许是一个完整的表格,或许是一段文字,如果要保存这类信息,我们常用的方法就是拖动鼠标,选中这些信息,然后用Ctrl+C组合键复制文字,然后再保存到Word、Excel当中去。

  这样的步骤算不上麻烦,但如果要求你在一个个内容丰富的大网页(比如新浪、网易、Sohu首页)中频繁地复制、粘贴,一定会让你感到疲劳和浪费时间。有什么好办法呢?用“Ctrl+A”全选后复制所有文字?粘贴后你会发现麻烦更大,因为所有文字都堆在一起了!找专门的抓站软件吗?太小题大做了吧!

  实例:抓取新浪首页不同位置内容

  第一步:打开IE,访问新浪首页http://www.sina.com.cn/ 。

  第二步:在网页左侧或右侧的空白处点击鼠标右键,在菜单中选择“导出到Microsoft Office Excel”。注意,不要在文字链接之间的空白处点右键,而是应该在完全没有任何网页内容的地方点右键(见图1)。

  教您用Excel抓取网站内容 - 青锋--独自飞翔 - 青锋--独自飞翔的博客

  第三步:这时Excel会启动,并出现一个“新建Web查询”的窗口。稍等片刻,等待这个窗口中显示出了完整网页,左下角会出现“完毕”字样。注意观察网页,你会发现网页被分割成了很多小的表格,每个表格的左上角有一个小的箭头标志(见图2)。

  第四步:双击窗口最上方标题栏,最大化窗口。依次找到要收藏的内容,然后按下该位置左上角的箭头,使它变成绿色的对勾。然后按下下方的“导入”按钮(见图3)。

  教您用Excel抓取网站内容 - 青锋--独自飞翔 - 青锋--独自飞翔的博客

  第五步:在弹出窗口中选择放置位置,然后按下“确定”按钮,文字、表格信息就可以自动导入Excel了。字体格式、颜色自动处理为Excel默认的样式,表格也会被放到适当的单元格中(见图4)。这样,就有效避免了直接复制粘贴网页造成一些无法识别的格式、链接信息加入网页,同时提高了导入速度。

  你知道吗?

  教您用Excel抓取网站内容 - 青锋--独自飞翔 - 青锋--独自飞翔的博客

  如何不将网页格式带入Office文档中?

  当你在浏览器中复制一段内容,然后粘贴到Word、Excel中,会将一些网页格式直接照搬进来,这可能不是我们希望的,因为它会增大文件体积,也不利于加工整理。其实,你只要不用“Ctrl+V”来粘贴,而是选择Word、Excel中的“编辑→选择性粘贴→文本”来进行粘贴就可以了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_802954.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

黑帽seo程序内部链接的分布原理

本文来讲一下内链的分布原理,其实黑帽seo很简单,尤其是当你了解了它的做法原理之后,那么只需要会代码编程就可以实现很多的黑帽seo手法。链接是seo中比较重要的一个内容,今天我们着重讲一下程序内部链接的分布原理。内部链接指的是…

百万级访问量网站的技术准备工作

百万级访问量网站的技术准备工作 当今从纯网站技术上来说,因为开源模式的发展,现在建一个小网站已经很简单也很便宜,所以很多人都把创业方向 定位在互联网应用。这些人里大多数不是很懂技术,或者不是那么精通,而网站开…

如何为你的网站设置404页面(转)

一个好的网站,拥有一个好的 404页面 是标配。 为何要有 404页面?如何设置一个 404页面? why 404 pages? 在本地,比如我打开 localhost/fuck.htm(该文件不存在),HTTP 返回 404 Not Fo…

Discuz X3.2 网站快照被劫持的解决方法

附上另一个人的解决方法:http://www.discuz.net/thread-3549930-3-1.html 问题如下: 快照被劫持,无论怎么申诉,怎么更新快照,都无法消除此问题,第一次打开网站的时候会定位到博彩网站。 现在提供一种解决方…

发布网站遇到ORA-12154的解决方法

前几天我在发布测试网站时遇到了一点问题。我将.net发布到IIS服务器上,在配置完IIS服务器后,在浏览器中输入了配置的URL地址后页面提示了错误:ORA-12154 看到这个问题后,我第一个反映是查看数据库是否可以连接。看到数据库没有问题…

Spark开发-网站点击率排名方法

网站的点击率排名。 思路 1、先对文本进行分隔做key value 的转换 2、基于key value的键值对做reduceByKey的操作 3、将key 和value的位置调换,编程value key 4、对key进行排序 5、重复第3点的工作。 代码如下: sc.textFile("/input/passwd…

前端学习网站推荐

为什么80%的码农都做不了架构师?>>> 前端学习网站推荐 极客标签: http://www.gbtags.com/ 码农周刊: http://weekly.manong.io/issues/ 前端周刊: http://www.feweekly.com/issues 慕课网: http://www.…

iqueryable怎么进行操作_什么是SEO优化?怎么去进行SEO优化操作?

今天继续SEO的相关内容,一起来看看到底应该怎么做SEO优化!首先查找关键词主要的一些工具:1、MyIP SEO工具网:http://www.myip.cn 2、Google关键词分析工具:https://adwords.google.cn/select/KeywordToolExternal 3、百…

tomcat 用AXIS2发布WebService 网站的方法

Axis2tomcat7.0 实现webService 服务端发布与客户端的调用。 Aixs2开发webService的方法有很多,在此只介绍一种比较简单的实现方法。 第一步:首先要下载开发所需要的jar包 下载: axis2-1.6.2-war.zip http://www.apache.org/dist//axis…

网站建设拓客的10个经典方法

网站建设精准拓客、拓客方法、客源线索获取、客源信息抓取、拓客软件、流同行的客户、截取竞争对手客户、渠道裂变方式、如何找到对网站建设服务有需求的精准客源是每个老板每天思考要解决的问题,我教大家如何利用搜索引擎爬虫技术大数据自动化工具来实现精准拓客的…

《社交网站界面设计(原书第2版)》——3.3 登录

3.3 登录 是什么 用户想要访问存储在主网站的个人信息或者应用程序(参见图3-9)。 何时使用 个人数据需要存储或者需要针对具体的用户进行自定义或个性化。网站是用户所产生的内容的知识库,并且用户提交的东西或文件要标明身份并且/或者需要由…

python爬网站数据时遇到封IP+验证码+登陆限制怎么办?我的破解方法分享

python爬虫遇到封IP验证码登陆怎么办?我的破解技术分享 最近在在利用python网络爬虫技术从事数据聚合技术研发工作,刚开始主要是聚合工商的企业数据源、专利网的数据源、裁判文书网的数据源。做数据聚合研发首先的技术是Python,因为Python具有…

为SharePoint网站创建自定义导航菜单

相信不少人都希望把SharePoint网站内置的那个顶部导航菜单,换成自己希望的样式。由于SharePoint 2007/2010的网站导航基本上基于标准的ASP.NET SiteMap模型,所以只要你对ASP.NET SiteMap有一些了解,就能创建一个自定义的导航菜单。 在开始之前…

vue 支持SEO搜索 ---- Nuxt.js (一)

想简单开发一个官网&#xff0c;并且支持SEO搜索&#xff0c;在熟悉Vue的基础上&#xff0c;Nuxt.js便是不二选择了。 安装&#xff0c;运行 create-nuxt-app npx create-nuxt-app <项目名>项目名称 默认回车就好 我选择的JavaScript 我选择的yarn 是否选用UI框架 按…

前端 css、js属性 API 浏览器 是否 兼容查询网站 (https://caniuse.com/)

有的时候 js和css用到 一个属性 &#xff0c;为了兼容 需要知道 &#xff0c;各个主流浏览器是否兼容以及&#xff0c;兼容到哪个版本&#xff0c;这时就需要 查询了。前端兼容性查询工具。 caniuse网站&#xff1a;caniuse网站 https://caniuse.com/ 示例-支持 检索 可以 点…

前端工具文档网站推荐(印记中文、程序员盒子、前站)

印记中文 印记中文&#xff0c;号称是唯一与官方文档同步的前端中文文档站。由腾讯AlloyTeam创立 & 维护。 这个网站 里 收集了很多 工具、库等等的文档。 印记中文 - 深入挖掘国外前端新领域&#xff0c;为中国 Web 前端开发人员提供优质文档&#xff01;-https://docsc…

免费主题装修wordpress网站(3步骤)

上一篇文章搭载好了本地环境&#xff0c;安装好wordpress并测试OK&#xff0c;即使自己是建站方面的“半吊子”但也不能半途而废&#xff0c;我必须得选一个好的主题来装饰我的网站啊&#xff0c;毕竟运营推广再怎么厉害也要产品好。 安装好的wordprss里已经默认有3个主题了&am…

网站前端导入Excel数据表到数据库,excel表格自动insert插入

引入jar包&#xff0c;maven工程或者springboot项目工程&#xff0c;在pom.xml文件中加入如下代码&#xff1a; <!-- 下面两个是导入excel到数据库的jar包, 注意一定要是3.15这个版本&#xff0c;其它版本可能会出现问题 --><dependency><groupId>org.apach…

我不会代码能做SEO吗?

SEO需要会代码吗&#xff1f; 这是我经常听到一些刚做独立站的朋友的提问。 答案是至少要会一些简单的html标签&#xff0c;这样会让你的SEO事半功倍&#xff0c;因为搜索引擎的蜘蛛爬取的是html代码&#xff0c;你的文章写得再生动&#xff0c;再有说服力&#xff0c;也不及…

谷歌SEO排名受哪些因素的影响?(一)

通过多年的SEO实践经验&#xff0c;并结合国外SEO业界大神们的分享经验&#xff0c;归纳如下&#xff08;文章太长会分为两篇&#xff09; &#xff1a; 能够影响谷歌关键词排名有以下九个大的板块&#xff1a; 第一大板块&#xff1a;域名因素 第二大板块&#xff1a;页面级…