抓取某一个网站整站的记录

news/2024/5/19 8:46:43/文章来源:https://blog.csdn.net/weixin_34248023/article/details/86430969

      经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题:

软件下载地址:http://download.csdn.net/detail/ityouknow/9506423

工具截图:

image

测试抓取的网站为简单心理:www.jiandanxinli.com

抓取后的效果图

image

 

一般我会选择复制100级基本上也就把网站的东西全部copy下来了,但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符,或者gbk编码的文件就会出现乱码如下图:

image

 

当然手动在浏览器选择UTF-8也可以,但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫:TelePort乱码修复工具(siteRepair-v2.0),经过测试可以解决乱码的问题,这款工具也会清除一些无效的链接和html符号等。

软件下载地址:http://download.csdn.net/detail/ityouknow/9506429

软件截图:

image

 

绝大数网站再经过这两个步骤应该都已经OK了,但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码,类似下面的URL地址:

http://www.xxxx.com/.com/question/除了加锁,还有什么方法解决资源竞争的问题?/解决方案.html

这样网站的结构抓取下来就会出现两种乱码:1)文件夹名乱码 2)文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错,我估计是不能识别乱码的文件夹或者文件吧。

 

后来在网上找了一个PHP的程序,进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

<?php
function listDir($dir)
{if(is_dir($dir)){if ($dh = opendir($dir)) {while (($file = readdir($dh)) !== false){if((is_dir($dir."/".$file)) && $file!="." && $file!=".."){rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));listDir($dir."/".$file."/");}else{if($file!="." && $file!=".."){$name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));echo '路径:'.$dir."/".$file.'<br />';echo '结果: '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';}}}closedir($dh);}}
}
?>
<?php
//开始运行
listDir("./convert");?>

 

在代码的同级目录下,新建 convert文件夹,把乱码的文件放入这个目录,然后执行convert.php即可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_765357.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站中英文转换 php_Markdown 自动添加中英文空格

pangu「有研究顯示&#xff0c;打字的時候不喜歡在中文和英文之間加空格的人&#xff0c;感情路都走得很辛苦&#xff0c;有七成的比例會在 34 歲的時候跟自己不愛的人結婚&#xff0c;而其餘三成的人最後只能把遺產留給自己的貓。畢竟愛情跟書寫都需要適時地留白。與大家共勉之…

如何让sharepoint2010网站根据权限隐藏ribbon

项目要求让普通用户看不到“网站操作”&#xff0c;为了解决该问题&#xff0c;我找了好几篇博客&#xff0c;但都是sharepoint2007&#xff0c;按照sharepoint designer签出&#xff0c;签入&#xff0c;审批&#xff0c;发布。可能是sharepoint2007和sharepoint2010的区别&am…

手机端使用ghelper_手机建站的五个技巧让用户体验得到提升

现今移动设备的使用成为了人们生活中不可或缺的一部分&#xff0c;习惯了在移动端获取信息和购物。所以企业的目光也逐渐转移到移动端&#xff0c;进行移动端建站刻不容缓。但是&#xff0c;移动端网站该如何设计才能获得广大用户的喜爱呢&#xff1f;如何将友好性表达的淋漓尽…

WordPress小工具开发教程(网站公告)

WordPress小工具开发教程&#xff08;网站公告&#xff09; BY TIANQIXIN 2012 年 12 月 26 日 wordpress主题小工具&#xff0c;可以自由拖动到侧边栏&#xff0c;并在前台实现相应功能&#xff01;一般自带的小工具功能有限&#xff0c;我们可以通过自己开发小工具来增强wor…

跳转html时请求头怎么取,爬取网站时请求被拒绝?scrapy轻松解决请求头设置!就是不讲道理...

默认请求头命令行执行&#xff0c;新建爬虫scrapy startproject myspidercd myspider scrapy genspider scrapy_spider httpbin.org我们通过对 https://httpbin.org/get?show_env1 的请求&#xff0c;查看本次请求的浏览器信息&#xff0c;可以打开看一看是否是自己的浏览器信…

seo管理php源码_黑帽SEO,黑帽SEO优化隐身技术(二)

此系统文章总共分为四篇&#xff0c;分别是手法篇、工具篇、隐藏篇、总结篇&#xff1b;本篇为隐身篇&#xff0c;主要介绍黑帽seo中一些隐身的手段。黑帽seo与其他黑产行为不同的是&#xff0c;它需要时间去创造价值。如果是倒卖数据&#xff0c;只需要入侵服务器脱裤走人&…

计算机设置定时原理,可编程定时和计数器-微计算机原理-电子发烧友网站

第四节 可编程定时和计数器在控制系统中,经常需要有一些实时钟以实现实时或延时控制,如定时启动,定时检测,定时通信等,计数器 对外部事件计数.实现这些要求经常有三种方法:(1)设计数字逻辑电路,用硬件实现定时或计数功能,如用NE555芯片实现定时,用74LS163电路实现计数等.(2)软件…

关于算法介绍的一些网站

2019独角兽企业重金招聘Python工程师标准>>> 通过动画的形式展示常见排序算法的排序过程 Sorting Algorithm Animations | Toptal https://www.toptal.com/developers/sorting-algorithms/ 转载于:https://my.oschina.net/ray1421/blog/713796

phpcms选择文件无法加载插件怎么办_网站加速图片优化插件 Smush

如果要推荐一款网站加速图片优化插件&#xff0c;出现在我的推荐名单中应该有 Smush 的身影。别误会&#xff0c;这款插件没用给我广告费用&#xff0c;这篇文章也不是吹捧Smush插件的马屁文章。为了便于一站式集成化操作&#xff0c;所以我在亲测了多款图像压缩优化插件&#…

[网站摘录]数据库查询优化 之 MySQL索引

转载于:https://blog.51cto.com/10237569/1846380

5个基于Linux命令行的下载和网站浏览工具

为什么80%的码农都做不了架构师&#xff1f;>>> Linux命令行是GNU/Linux中最神奇迷人的部分&#xff0c;它是非常强大的工具。命令行本身功能多样&#xff0c;多种内建或者第三方的命令行应用使得Linux变得更加健壮和强大。Linux Shell支持多种不同类型的网络应用&…

url 收录工具_Python与seo的应用,sitemap.xml文件制作工具源码

sitemap.xml文件是严格按照xml语言编写的网站地图&#xff0c;用来引导搜索蜘蛛对本站点文章等内容的索引&#xff0c;它是由google提出来的概念。链接提交使用说明链接提交工具是网站主动向百度搜索推送数据的工具&#xff0c;本工具可缩短爬虫发现网站链接时间&#xff0c;网…

如何查看Drupal网站使用的模块

大家在学习使用Drupal的过程中&#xff0c;总喜欢去查看或借鉴那些做得十分优秀的drupal网站&#xff0c;很想知道这个drupal网站使用了哪些模块&#xff1f;其实很简单&#xff0c;已经有人帮我们实现了这个愿望。 那就是DrupalXray网站(link is external)&#xff0c;通过这个…

酷站欣赏:来自国外的一组耀眼的扁平化网站作品

扁平化设计对于印刷品设计、网页设计和移动操作系统的设计来都带去了新的变化。扁平化网页设计是指设计形式摒弃图案纹理背景&#xff0c;阴影文字以及网站盒模型的部分。谷歌是第一个使用扁平化设计准备对重构 Web 应用程序的公司&#xff0c;现在越来越多的公司正在效仿。 您…

CentOS配置Nginx+Fastcgi+PHP,多网站配置

为什么80%的码农都做不了架构师&#xff1f;>>> 今天帮朋友配置CentOS PHP Nginx环境&#xff0c; 记录一下&#xff0c;希望能帮到更多伙伴 安装nginx yum install nginx php5.x已自带php-fpm&#xff0c;如没有自带 yum install php-fpm 配置nginx.conf server…

字 掉落 炫酷 网站_游戏装备新选择,炫酷、低延迟—Tezo Spark 电竞耳机

前言&#xff1a;好看的皮囊千篇一律&#xff0c;有趣的灵魂万里挑一。蓝牙耳机已经成了百花齐放的时刻&#xff0c;耳机厂商都在各自擅长的领域发布着各具特色的产品&#xff0c;最近就收到了一款专注于电竞领域的耳机Tezo Spark&#xff0c;毫无疑问&#xff0c;延迟必然是这…

在 Debian 8 系统里安装 cmswing 网站程序

环境&#xff1a;Debian 8 64位&#xff0c;cmswing 1.1 过程&#xff1a; 1. curl -sL https://deb.nodesource.com/setup_8.x | bash - 添加node v8安装源 2. apt-get install -y nodejs git mariadb-server nginx 安装node v8 及其它软件 4. npm install -g pm2 --registry…

Python版——博客网站二构建前端编写API

2019独角兽企业重金招聘Python工程师标准>>> 开源地址&#xff1a;https://github.com/leebingbin/Python3.WebAPP.Blog 至此&#xff0c;ORM框架、Web框架和配置都已就绪&#xff0c;我们可以开始编写一个最简单的MVC&#xff0c;把它们全部启动起来。 通过Web框架…

实现RTSP摄像机硬盘录像机NVR网站网页微信H5直播方案EasyNVR部署问题之:ERR_CONTENT_LENGTH_MISMATCH

背景分析 接触到EasyNVR产品的开发者都知道&#xff0c;EasyNVR是一套功能齐全、简洁易用的流媒体解决方案&#xff0c;可作为能力曾前端接入摄像头&#xff0c;后端接入业务系统使用&#xff0c;也可以作为应用层&#xff0c;直接修改为属于企业用户自己的视频管理平台&#…

如何设置服务器2003系统,如何设置网站权限?(Windows2003系统)

1.首先添加用户&#xff0c;进入win2003服务器&#xff0c;我的电脑右键-管理-本地用户和组-用户2.鼠标指向用户右键 - 新用户 - 填写用户名、描述、密码 - 去掉“用户下次登录时须更改密码”这项&#xff0c;并勾选上下面两项 - 点击创建。3.回到用户列表&#xff0c;鼠标右键…