php抓取网站图片的程序

news/2024/5/10 12:10:25/文章来源:https://blog.csdn.net/weixin_33882443/article/details/92030097

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

此程序实现了网页源代码捕获,图片链接获取、分析、并将同样的图片链接合并功能,实现了图片抓取功能。利用php强大的网络内容处理函数将指定的网站上的所有图片抓取下来,保存在当前目录下,以下为代码:

<?php
/*完成网页内容捕获功能*/
function get_img_url($site_name){$site_fd = fopen($site_name, "r");$site_content = "";while (!feof($site_fd)) {$site_content .= fread($site_fd, 1024);}/*利用正则表达式得到图片链接*/$reg_tag = '/<img.*?\"([^\"]*(jpg|bmp|jpeg|gif)).*?>/';$ret = preg_match_all($reg_tag, $site_content, $match_result);fclose($site_fd);return $match_result[1];
}/* 对图片链接进行修正 */
function revise_site($site_list, $base_site){foreach($site_list as $site_item) {if (preg_match('/^http/', $site_item)) {$return_list[] = $site_item;}else{$return_list[] = $base_site."/".$site_item;}}return $return_list;
}/*得到图片名字,并将其保存在指定位置*/
function get_pic_file($pic_url_array, $pos){$reg_tag = '/.*\/(.*?)$/';$count = 0;foreach($pic_url_array as $pic_item){$ret = preg_match_all($reg_tag,$pic_item,$t_pic_name);$pic_name = $pos.$t_pic_name[1][0];$pic_url = $pic_item;print("Downloading ".$pic_url." ");$img_read_fd = fopen($pic_url,"r");$img_write_fd = fopen($pic_name,"w");$img_content = "";while(!feof($img_read_fd)){$img_content .= fread($img_read_fd,1024);}fwrite($img_write_fd,$img_content);fclose($img_read_fd);fclose($img_write_fd);print("[OK] ");}return 0;
}function main(){
/* 待抓取图片的网页地址 */$site_name = "http://image.cn.yahoo.com";$img_url = get_img_url($site_name);$img_url_revised = revise_site($img_url, $site_name);$img_url_unique = array_unique($img_url_revised); //unique arrayget_pic_file($img_url_unique,"./"); 
}main();
?>


转载于:https://my.oschina.net/weixinmi/blog/196530

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_778805.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

让网站不停止,永远持续运行

在公司内部服务器&#xff0c;运行很多网站(应用程序)&#xff0c;但每个网站都有自动化或是定时执行的事务。后来经整合&#xff0c;所有这些自动化或定时执行的事务&#xff0c;都移至一个单独的站点(asp.net)。这个站点&#xff0c;只要服务器没有关机&#xff0c;重启。它永…

张百川:“知道”网站安全体检初体验

昨天游侠写过一篇文章 [关于几个免费在线挂马检测网站] &#xff0c;说到了北京知道创宇公司的“知道网站安全体检中心”&#xff0c;他们的工作人员很及时的给我发了个内测账号&#xff0c;这里大体说下。当然网址是 http://www.scanv.com 大家可以去申请内测账号。流程基本是…

HTML5网站大观:12个精美的 HTML5 个人网站欣赏

本期的 HTML5 网站大观要与大家分享12个精美的 HTML5 个人网站作品。HTML5 是现在Web开发领域的热点&#xff0c;更多的开发人员开始使用HTML5来开发交互性强、效果出众的Web应用和游戏。希望这些 HTML5 网站实例能帮助大家更好的学习HTML5网站制作。 Tim Potter Henry Brown M…

在地址栏加上网站的标志、LOGO图片

为什么80%的码农都做不了架构师&#xff1f;>>> 第一步&#xff1a;首先你必须要制作一个看起来既清楚又容易辨识的.ico格式的小图片。 我们将图标的大小定义为16x16 像素。此外在制作图形文件的时候&#xff0c;你可能需要把色盘设定成只使用标准的 16 色 Windows…

Centos linux 下配置 apache ,创建虚拟网站访问路径

2019独角兽企业重金招聘Python工程师标准>>> 修改 httpd.conf 文件编辑&#xff1a; vim /etc/httpd/conf/httpd.conf添加内容&#xff1a; Alias /bieming "/opt/www" <Directory "/opt/www"> Options Indexes MultiViews …

网站挂马检测

2019独角兽企业重金招聘Python工程师标准>>> 网站挂马检测 在最近的一次网站优化项目中&#xff0c;我负责的一个网站出现了网站被挂马问题&#xff0c;所以网站的关键词排名很快就从首页消失了。把网站挂马问题解决后&#xff0c;花费了很多的精力才让关键词排名恢…

[Pholcus爬虫] 应对网站反爬虫的多项策略

2019独角兽企业重金招聘Python工程师标准>>> Pholcus应对网站反爬虫的核心思想就是&#xff1a;模仿人工操作 具体应对策略如下&#xff1a; 两次请求之间进行随机暂停 &#xff0c;该时间可以在操作界面设置当不需缓存cookie时&#xff0c;设置Spider.EnableCookie…

创建个人网站

微信公众号&#xff1a;Android部落格 个人网站&#xff1a;chengang.plus 1、方案 采用Github Pages Jekyll的方式。 2、安装Jekyll环境 2.1 安装Ruby 因为网络的原因&#xff0c;Ruby installer安装文件难得下载&#xff0c;下载网址是&#xff1a; https://rubyinstall…

播放rtmp在线网站及播放器

2019独角兽企业重金招聘Python工程师标准>>> 网站地址 http://www.cutv.com/demo/live_test.swf 推流地址 rtmp://ip:8005/live/32010020160918113426717107expxqe 或者采用flash player 也可以 -----------------------------------------------------------------…

跟着百度学PHP[14]-COOKIE的应用/网站登陆案例完整案例

先在数据库当中创建以下数据&#xff1a; mysql> create table user(-> id int not null auto_increment,-> username varchar(50) not null default ,-> password char(32) not null default ,-> email varchar(80) not null default ,-> allow_1 smallint …

网站加速哪家强?四大免费CDN服务评测大PK

之前我把市场上主流的、适合站长用的CDN都介绍了一遍&#xff0c;但随着加速乐与百度分家&#xff0c;百度自家推出云加速后&#xff0c;市场格局再度发生变化。本文&#xff0c;将结合卢松松的亲身体验&#xff0c;来对比360网站卫士、百度云加速、加速乐、安全宝&#xff0c;…

阿里云系列——3.网站备案初步核审(详细步骤)---2015-11.12

网站部署之~阿里云系列汇总 http://www.cnblogs.com/dunitian/p/4958462.html 流程图&#xff1a; 1.注册账号 进&#xff1a;https://beian.gein.cn/account/login.htm 注册一个账号&#xff0c;然后会收到邮件 立即备案 如何办理首次备案&#xff1f;如果您从未办理过备案&am…

WordPress 多站点建站教程(七):多站点函数

1、get_blog_details&#xff08;获取子站点信息&#xff09; 返回多站点博客信息即wp_blogs表。 //显示站点名称 $blog_details get_blog_details(1); echo Blog .$blog_details->blog_id. is called .$blog_details->blogname..;//显示站点总文章数 $blog_details ge…

百度蝶变SEO获奖诊断书分享

导读&#xff1a;这篇诊断书是百度蝶变行动SEO诊断中获奖的14篇中的一篇&#xff0c;诊断的站点本来就是高质量站点&#xff0c;所以可以称此诊断书是SEO进阶版&#xff0c;希望里面的一些SEO建议可以为站长带来帮助&#xff01;百度专家团点评&#xff1a;本届蝶变行动百度着重…

****一步步构建大型网站架构

之前我简单向大家介绍了各个知名大型网站的架构&#xff0c;MySpace的五个里程碑、Flickr的架构、YouTube的架构、PlentyOfFish的架构、WikiPedia的架构。这几个都很典型&#xff0c;我们可以从中获取很多有关网站架构方面的知识&#xff0c;看了之后你会发现你原来的想法很可能…

zabbix实战监控WEB网站性

我们怎么用zabbix监控web性能和可用性呢&#xff1f;我们这边分为几个步骤&#xff1a;打开网站、登陆、登陆验证、退出&#xff0c;一共4个小step。检测流程1. 打开网站&#xff1a;如果http code为200&#xff0c;并且响应的html中包含Zabbix SIA表示打开成功&#xff08;zab…

SEO深度解读之HITS链接分析算法

HITS(Hyperlink - Induced Topic Search)链接分析算法诞生在1997年&#xff0c;该算法是由康奈尔大学中的一位博士提出&#xff0c;并且该算法沿用于全球多个搜索引擎当中。当然&#xff0c;不同的搜索引擎针对于该算法的侧重点和内部公式都有不一的算法结构调整&#xff0c;并…

由 12306.cn 谈谈网站性能技术

http://www.oschina.net/news/24838/website-performance 原文出处&#xff1a;爱范儿 oschina 配图 12306.cn网站挂了&#xff0c;被全国人民骂了。我这两天也在思考这个事&#xff0c;我想以这个事来粗略地和大家讨论一下网站性能的问题。因为仓促&#xff0c;而且完全基于 本…

PMI网站中pdu查询

1、PMI官网&#xff1a;http://www.pmi.org/ 2、登录--->点击“myPMI”-->右侧“CERTIFICATION STATUS”&#xff08;国外网站常常加载慢 会加载不出来就不显示pdu信息&#xff0c;多加载几遍就出来了&#xff09; 转载于:https://www.cnblogs.com/wangcp-2014/p/600702…