抓取某一个网站整站的记录 【记录】

news/2024/5/8 17:27:03/文章来源:https://blog.csdn.net/weixin_30268921/article/details/98901735

      经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题:

软件下载地址:http://download.csdn.net/detail/ityouknow/9506423

工具截图:

 

测试抓取的网站为简单心理:www.jiandanxinli.com

抓取后的效果图

一般我会选择复制100级基本上也就把网站的东西全部copy下来了,但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符,或者gbk编码的文件就会出现乱码如下图:

当然手动在浏览器选择UTF-8也可以,但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫:TelePort乱码修复工具(siteRepair-v2.0),经过测试可以解决乱码的问题,这款工具也会清除一些无效的链接和html符号等。

软件下载地址:http://download.csdn.net/detail/ityouknow/9506429

软件截图:

绝大数网站再经过这两个步骤应该都已经OK了,但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码,类似下面的URL地址:

http://www.xxxx.com/.com/question/除了加锁,还有什么方法解决资源竞争的问题?/解决方案.html

这样网站的结构抓取下来就会出现两种乱码:1)文件夹名乱码 2)文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错,我估计是不能识别乱码的文件夹或者文件吧。

 

后来在网上找了一个PHP的程序,进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

 1 <?php
 2 function listDir($dir)
 3 {
 4     if(is_dir($dir))
 5     {
 6         if ($dh = opendir($dir)) 
 7         {
 8             while (($file = readdir($dh)) !== false)
 9             {
10                 if((is_dir($dir."/".$file)) && $file!="." && $file!="..")
11                 {
12                     rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));
13                     listDir($dir."/".$file."/");
14                 }
15                 else
16                 {
17                     if($file!="." && $file!="..")
18                     {
19                          $name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));
20                          echo '路径:'.$dir."/".$file.'<br />';
21                          echo '结果: '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';
22                     }
23                 }
24             }
25             closedir($dh);
26         }
27     }
28 }
29 ?>
30 <?php
31 //开始运行
32 listDir("./convert");
33 
34 ?>

在代码的同级目录下,新建 convert文件夹,把乱码的文件放入这个目录,然后执行convert.php即可。

转载于:https://www.cnblogs.com/CodeDeath/articles/5775523.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_851015.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谈谈个人网站的建立(三)—— 定时任务

欢迎访问我的网站http://www.wenzhihuai.com/ 。谢谢啊&#xff0c;如果可以&#xff0c;希望能在GitHub上给个star&#xff0c;GitHub地址https://github.com/Zephery/newblog 。 Quartz 先看一下Quartz的架构图&#xff1a;一.特点&#xff1a; 强大的调度功能&#xff0c;例…

同步、异步方式对SEO搜索引擎优化的影响

本人昨天去面试了&#xff0c;面试官问了这样一个问题“你知道SEO不&#xff1f;同步、异步对SEO有什么影响&#xff1f;”&#xff0c;我当时就懵了&#xff0c;这几个名词SEO、同步、异步我都知道&#xff0c;但是。SEO和同步异步有什么关系呢&#xff1f;面试官人很nice&…

记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库,每天定时爬取自动更新

爬取每天更新的新闻&#xff0c;使用scrapy框架&#xff0c;Python2.7&#xff0c;存入MySQL数据库&#xff0c;将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件&#xff0c;添加到计划任务程序中&#xff0c;自动爬取。 额… 1.在items文件中&#x…

6个线上视频音频转换网站

1.Zamzar Zamzar是一项免费的线上转换格式网站&#xff0c;把歌曲、图档、影像和文件转变成不同的格式。其服务特点是高品质的文件格式转换。基本的免费服务&#xff0c;可以让您转换的文件大小为100MB 。如果想拥有更多功能的服务&#xff0c;你可以注册成为基础会员&#xff…

四年大学下那些让我欲罢不能的网站

在本科学习期间&#xff0c;通过Google/百度搜索接触了各种各样的学习网站&#xff0c;收益匪浅&#xff0c;现在来分享一下吧 分为三种类型&#xff0c;“课程网站”&#xff0c;“编程网站”&#xff0c;“社区网站”&#xff0c;贵精不贵多&#xff0c;每种分享几个 课程网站…

Github Pages + jekyll 全面介绍极简搭建个人网站和博客

本文将会全面介绍一下如何使用Github Pages jekyll搭建个人站点&#xff0c;所谓极简的意思就是不用使用git和本地构建jekll服务&#xff0c;直接在Github网站上编辑设置即可&#xff0c;但会涉及到jekll的一些配置和编程控制。可以参看我的网站模板&#xff1a;https://scott…

css可以对网页干什么,css对网页的优势-专业SEO技术教程(33)

css对网页的优势-专业SEO技术教程(33)采用css布局相对于传统的table网页布局的显著优势1.表现和内容相分离将设计部分剥离出来的放在一个独立样式文件中&#xff0c;HTML文件中只存放文本信息。这样的页面对搜索引擎更加友好。2.提高页面浏览速度对于同一个页面视觉效果&#x…

【转载】IIS网站如何同时解析带www和不带www的域名

针对公网上线的网站系统&#xff0c;很多网站的域名会同时含有带www和不带www的域名解析记录&#xff0c;如果需要同时解析带www和不带www的域名信息&#xff0c;则需要在相应的域名解析平台(如阿里云域名解析平台、腾讯云域名解析平台)设置不带www的主域名以及带www的域名解析…

搜索引擎优化:常用的SEO六个指标

在做网站推广过程中&#xff0c;搜索引擎优化是一个重要点&#xff0c;绝大部分行业来自自然搜索的流量都是非常大的&#xff0c;正因为如此&#xff0c;一般企业隔一段时间就对网站自然搜索的情况作一个KPI考核&#xff0c;而这些重点指标不外乎&#xff1a;网页的收录数量、网…

阿里云上发布自己的网站的方法

在阿里云上发布自己的网站的方法&#xff1a; 一、在阿里云上发布自己的网站的方法&#xff1a; 进入我的电脑&#xff0c;在头部输入ftp&#xff1a;//60.205.48.122&#xff08;IP地址为自己注册的阿里云账号上的IP地址&#xff09; 进入以后登录自己的账号 用户名&#x…

java使用HttpURLConnection检索网站时403错误处理方式

java使用HttpURLConnection检索网站时403错误处理方式: 我们通过代码方式访问网站时会报错&#xff1a; 此种情况分2中类型&#xff0c; 1.需要登录才可以访问&#xff1b; 2.需要设置User-Agent来欺骗服务器。 connection.setRequestProperty("User-Agent", &qu…

解决某些网站,图片不能下载

如下图&#xff0c;右键图片&#xff0c;没有保存图片的选项 按下F12 拷贝src中的地址&#xff0c;输入到浏览器&#xff0c;这时候就可以保存图片了

给duckling网站加上cnzz网站统计信息

第一&#xff0c;注册cnzz帐号&#xff0c;网址http://www.cnzz.com/ 第二&#xff0c;登录帐号&#xff0c;获取代码&#xff1b; 第三&#xff0c;根据自己的需要&#xff0c;将代码加入网站的公共页面&#xff0c;比如说head、foot、version页面都可以。 第四&#xff0c…

网站压力测试工具Jmeter安装与使用

系统是Windows XP 配置此工具前&#xff0c;需要先在机器上安装jdk 如下是在jdk1.7的基础上配置的&#xff1b; 安装步骤如下&#xff1a; 第一步&#xff1a;解压apache-jmeter-2.8.zip文件至c盘&#xff0c;本文解压至C:\jmeter2.8目录下。 第二步&#xff1a;桌面上选择“我…

十大抢手的网站压力测试工具

原文链接&#xff1a;http://blog.163.com/weiwenjuan_bj/blog/static/1403503362010621111052355/ 两天&#xff0c;jnj在本站发布了《如何在低速率网络中测试 Web 应用》&#xff0c;那是测试网络不好的情况。而下面是十个免费的可以用来进行Web的负载/压力测试的工具&#x…

使用WinSCP 上传 jeecms 到linux centos中 显示乱码问题,网站无法使用的解决方法

第一、设置WinSCP上传时的编码为utf-8如下&#xff1a; 第二、将linux的默认字符集设置为zh_CN.UTF-8 vi /etc/sysconfig/i18n 内容如下&#xff1a; LANG"zh_CN.UTF-8" SUPPORTED"zh_CN.UTF-8:zh_CN:zh" SYSFONT"latarcyrheb-sun16" [rootcan…

如何使用firefox浏览器查看记住的网站密码

工具——》选项——》安全 如下图&#xff1a; 点击就出现浏览器记住的登录网站、帐号、密码了&#xff0c;密码是明码。

如何使用遨游浏览器查看记住的网站密码

点击“显示密码”即可&#xff0c;密码是明码&#xff01;

tomcat部署多个项目,通过不同域名解析访问不同的网站

win7、tomcat8、jdk1.7 第一&#xff1a;通过配置hosts文件模拟&#xff0c;hosts文件所在路径&#xff1a;C:\Windows\System32\drivers\etc 修改如下&#xff1a; #测试tomcat配置多个项目&#xff0c;用二级域名访问 127.0.0.1 www.ibelieve.com 127.0.0.1 bbs.ib…

.NET中实现网站的国际化

本文适当的修改了原文&#xff0c;&#xff0c;特此说明 原文地址&#xff1a;http://dotnet.9sssd.com/aspnet/art/949 网站在开发的过程中需要实现多语言版本&#xff0c;我们暂且认为有英语和汉语两个版本。网站结构包括&#xff0c;UI过程&#xff0c;rest服务&#xff0…