关于最近学习的自动登录网站技术以及post get请求

news/2024/5/9 15:38:36/文章来源:https://blog.csdn.net/weixin_30493321/article/details/94943553

下面要列出2段内容,一个是目前做的工作,一个是之后要继续进行的工作.(以后完成一部分工作就将后者放到前者内容里面去更新)

1.目前进行的工作:

其实模拟自动登录就是用httpwatch软件进行抓包,,找到你想要的页面,分析post get请求,然后用程序进行模拟就好了,难点就是这个分析抓包的内容,

你想抓取什么,你的抓取信息是通过提交哪个页面的请求的来的,有的时候,得到的结果需要跟当前的网页网址进行合并成为一个新的网址,自己手动执行下看看是否是想要的结果,也就是说需要将一些零碎信息合并,进而得到想要的信息.下面举几个例子,看看相关的信息怎么抓取.

(1) http://book.chaoxing.com/ebook/read_11355849.html 

chaoxing_right_click

这个是超星数字图书馆的一本书.用chrome打开,右击书页-->审查元素,你会发现,这指向了一个图片:(image1)

chaoxing_img

这个图片就是上面的那个”导论及全书设计..”的这个书页,也就是说超星这个网站其实没有使用flash技术,将文档封装到flash里面,而只是将书页的image图片放到了一ifame控件里面了.(要是falsh技术的话,我目前还不会通过抓包读取到内容信息,以后需要研究的地方)

但是进一步发现在ie里面查看的话,上面image1图片里面的图片链接在当前的网页源代码里面并没有,那我们还怎么抓取呢?这个时候我们来进行抓包分析下,(其实这个图形的地址是通过一个post请求得到的)。

3

我们抓包后,直接用find的那个功能进行搜索img6,发现他在 http://readsvr.chaoxing.com/reader_0b5801e441d0b414fc1e08093702df407cad77c1e392ed0cd4619f8c80316c4cb26d8858bd22dddd5f5bdd3a1c6d2be7D4956F019B867DFC47E3B2F54F9BE913.shtml 发送get请求的时候,服务器返回的内容里面,返回的内容为 var str = "img6/041D6EEFF709DF390493FBE63D1B51C2A623C8D5031602DA3D3C8A261075B29913AC5FD377CB16D2E4F05342F5D7F6776E3D533979ED304719124CAA98DB28A32106BE1F16A829B6AEC38FB41FB0C78B126F9ECFFC3189F58A9DAB870934A502D35BB137D71DF8BA7F2FCB88EA5906A34A5C/b59/";而上面的这个连接地址所在位置其实是http://book.chaoxing.com/ebook/read_11355849.html 这个网页源代码里面的ifame框架里面的信息。如下


1

(ie里面的源代码)

 

2

(chrome里面的审查元素)

发现chrome比ie的源代码多了个#document,下面的内容就有img6.。。。。这个就是图片的地址了。由此推测chrome的审查元素可能在后台已经进行了一些post或者get请求,才得到的#document的那些ie源代码没有的内容。

现在总结下超星图书馆的图书的下载方法,主要是捕捉到image的信息,然后下载图片,转化为pdf,之后穿成一本书就好了。主要是怎么得到图片的地址:

http://book.chaoxing.com/ebook/read_11355849.html 源代码里面的iframe里面的http://readsvr.chaoxing.com/reader_0b5801e441d0b414fc1e08093702df407cad77c1e392ed0cd4619f8c80316c4cb26d8858bd22dddd5f5bdd3a1c6d2be7D4956F019B867DFC47E3B2F54F9BE913.shtml ,然后向这个地址发送get请求,得到服务器返回的页面,页面里面有“img6”相关的信息,捕捉到那个地址,然后和一些网址信息合并成为一个image地址,然后向这个地址发送get请求,得到的服务器信息是http://png2.5read.com/image/ss2jpg.dll?did=b59&pid=7E51BEF1B66C6672982807F5540145DD15E9C6ECBE97186ADAA4A2F3EEE6FBEBBAA741BC669867625834FC7A122A60792CBA352CA533E4F6586E602B59D6806C24AC4D5748C58456F24F91621E543A6F94C877ADE6BDE16B736A481457BA604C50543691E5F1CA0C0184F2175936E3114321&jid=/!00003.jpg&a=948DE211E581FF40B0055E94E606D4C5A25AEF4AB539D85C6D08914A7DF8E380FAE02DDB78E73755B070A9A33419DC4C973518B5E978A006E69105ABEB056D85FFCC&zoom=0这个网址,然后从这个网址再发送get请求,得到的才是最终的png流。(到时候看看怎么从这个图片地址下载到iamge图片

(2)飞信抓取的例子

飞信就说一下抓取遇到的问题吧,其实抓取过程跟上面的差不多,就是用httpwatch来进行抓包就好了。

捕获

看到左面的那个其实https://webim.feixin.10086.cn/WebIM/Login.aspx这个网址是登陆的网址,右面的那个返回的set-cookie里面的webim_sessionssid这项非常重要,这个每次你登陆的时候服务器返回值都不一样,这个是在之后的给别人发信息的时候,都需要用到的一个字串,并且在网页源代码里面没有,只能是通过服务器返回来进行截取,但是不管我用java,c#还是python都不能得到正确的set-cookie值,这个ssid就是不能得到。关于飞信这个抓取的具体过程及其代码可以参看litefetion这个开源实现,这个人写的java代码真是好看,我一看就懂了,没有什么乱七八糟的设计模式什么的,只是将一些方法和属性进行了封装,这样挺好的,不要上来就来什么设计模式,太累了。看的恶心。

(3)关于qq的通信协议的抓起和分析以及一些其他的免积分,免权限看对方空间照片的一些分析。

据说qq的通信协议分析起来比较难,因为进行了加密,这个要看看开源实现lunaqq,也是java写的,到时候下载了看看如何分析的。

因为飞信和qq这种东西跟及时消息通知,或者是什么聊天机器人,和之后的自动化控制都能联系上,所以用处是很大的。要好好研究。

(4)百度 豆丁这些网上文库,免积分下载要研究下,因为他们基本上都是用的flash插件技术,基于这个技术是用的什么协议,得进一步研究了。

这些有点cracker的意思了,可能难度会比较大。得请教高人。

以后要做的事情:

(1)飞信中的ssid如何获取?大问题

  • 回答:已经解决了,原因竟然是我用的登陆网址错误,我**,应该是https://webim.feixin.10086.cn/WebIM/Login.aspx 但是原来我抓包写的是https://webim.feixin.10086.cn/Login.aspx 我后来又抓包 发现真的是错了,晕。当时咋抓的包呀,真晕。
  • 问题:php模拟登陆飞信用curl 但是模拟登陆博客园的时候成功了,哪里出错了?没有写好header?不懂 (php模拟的话,可能会有这样那样的问题,还是以客户端的方式写吧,或者是python或者是java,纯php这种网络应用,确实不擅长这个事情,会有问题,吧软件做到网络上,看来问题多多呀

(2)qq的通讯协议分析。还有qq客户端的抓包技术,客户端的协议怎么抓取呢?

(3)百度 豆丁文库的flash swf技术将文档的url加密起来,这个怎么破解

(4)免权限看对方的空间相册什么的,这种crack技术是怎么来的呢?

最近有别的事情,这些东西先记着了,以后有时间的话,好好研究下。

转载于:https://www.cnblogs.com/no13bus/archive/2013/02/20/2918477.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_811848.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IOS破解软件,比较全的网站。

转载于:https://blog.51cto.com/14259888/2369621

mouseenter和mouseover的区别

mouseover:当鼠标移入目标元素或者移入目标元素的子元素,都会触发该事件。所以有一个重复触发,冒泡的过程。对应的一出事件mouseout。 mouseenter:当鼠标移入目标元素时(不包括子元素),会触发该…

好久没有更新了,上传一个网站上通用的验证效果的函数吧。

之前觉得在注册表单的时候,当填写表单失去焦点进行验证的效果很酷,自己也经历了很多的版本的改进,不过都是JS的代码,现在感觉已经成形了。所以发到网上让大家PK一下。 1/**//* 2 函数名:检验表单的函数 3 作者&a…

列出一些当前所见到过的基于sharepoint的漂亮的internet网站(update 2007-10-18)

老外的网站:传说中的夏威夷航空网站 一个食品网站一个提供解决方案的公司门户 update(10-18) 几个非常不错的 sharepoint网站 中文的: sharepoint爱好者易联工作室 sharepoint中国台湾的一个sharepoint教学网 update (2007-10-16) KenTCj的个人网站 转载…

为什么一个网站的资源会存在于多个域名中?

转自:http://www.toutiao.com/i6432298910575755777/ 大致可以这样理解,为什么一个网站的资源会存在于多个域名中? 在很多的网站中,如果我们打开开发者工具查看source选项,会发现下面会有很多个域名。例如某度首页的so…

Step by Step WebMatrix网站开发之二:使用WebMatrix(1)

第一次运行WebMatrix会看到如图1所示的窗口。 图1 第一次运行WebMatrix显示的窗口 我的网站 进入“我的网站”可看到自己设计过的网站。 从Web库创建网站 可以从“从Web库创建网站“中理由网络上开源的网站系统创建网站,如名气比较响的WordPress、phpwind等…

自定义事件和windows phone访问网站取得数据

昨天看了一位园友的自定义事件的文章,我以前学习过这方面的内容,但在实际工作中基本没用过自定义事件,前天就边看着,自己写了写代码把这个知识点复习了。下面上代码 事件类代码 public class EvevtClass:EventArgs {public st…

减少HTTP请求之将图片转成二进制并生成Base64编码,可以在网页中通过url查看图片(大型网站优化技术)...

在网站开发过程中,对于页面的加载效率一般都想尽办法求快。那么,怎么让才能更快呢?减少页面请求 是一个优化页面加载速度很好的方法。上一篇博文我们讲解了 “利用将小图标合成一张背景图来减少HTTP请求”,那么,这一篇…

请求的站点不可用或无法找到怎么解决_seo优化怎么做能快速被收录

原标题:seo优化怎么做能快速被收录网站在做seo优化时,不被收录是一件头疼的事,网站不被收录会影响接下来的seo优化工作,无法做关键词优化,但是网站被收录都有一个时间过程,很少有网站秒收录的,快…

利用github pages做免费静态网站个人免费域名空间

如图所示点击加号新建一个项目,然后填写 xxx.github.ip 为项目名 xxx表示你的账号 别填错了,乱填也无法开通。 必须是public属性,勾选readme 最后点创建 在项目里新建index.html文件 和CNAM文件 按图示新建即可 为保能快速开通 建议加上CNAM 如果不知道怎…

如何把自己的网站部署在网上_如何制作自己的网站,你需要看看这篇

在这个互联网时代,有许多的人已经有了属于自己的博客,自己的网站,你是不是都会羡慕不已呢?有了自己的网站就可以发表一些自己的文章,好的文章也可以给你的网站带来不少的粉丝。今天八爪网就给大家分享如何制作自己的网…

技术干货:使用静态缓存提升网站性能的五种方法!

摘要: 静态缓存,一般指web类应用中,将图片、js、css、视频、html等静态文件/资源通过磁盘/内存等缓存方式,提高资源响应方式,减少服务器压力/资源开销的一门缓存技术。本文主要通过五个方面展开,跟着小编一…

ASP.NET学习(1)-网站配置文件读取/保存

虽然做了几个网站,但是一直有个问题困扰我,就是网站配置文件的保存问题,网上有人说保存在数据库,有人说保存在XML中。保存在数据库中是个方便的选择,但是有个问题,每张表都应该有个主键,如果网站…

Matomo – 搭建一个属于自己的网站统计分析站点

https://www.sooele.com/index.php/2018/03/18/%E3%80%8E%E6%95%99%E7%A8%8B%E3%80%8Fmatomo-%E6%90%AD%E5%BB%BA%E4%B8%80%E4%B8%AA%E5%B1%9E%E4%BA%8E%E8%87%AA%E5%B7%B1%E7%9A%84%E7%BD%91%E7%AB%99%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90%E7%AB%99/地址 http://www.bigf.inf…

网站实现扫描二维码关注微信公众号,自动登陆网站并获取其信息

原文:初始方案: https://www.cnblogs.com/cmyxn/p/7803117.html 优化方案 http://www.cnblogs.com/cmyxn/p/7814120.html 需求 网站实现扫描二维码关注微信公众号,如果已经关注公众号就自动登陆网站并获取其微信昵称,头…

使用Google WebP图片格式帮助控制网站页面大小

日期:2013-3-16 来源:GBin1.com 不管你相信或者不相信,随着互联网的快速发展网页也在持续不断的变大。 使 网页迅速膨胀的罪魁祸首不是大量使用的JavaScript库,CSS和无尽的共享按钮,而是精美的图片。根据HTTPArchive的…

网站服务器的管理,网站服务器的管理

网站服务器的管理 内容精选换一换域名注册(Domain Registration)是用户付费获取Internet上某一域名一段时间使用权的过程。华为云域名注册服务提供域名的注册、购买、实名认证以及管理功能。华为云的域名注册服务与新网合作,因此通过华为云注册的域名其注册商为新网…

富士通服务器怎么修复,BIOS维修网站www.biosrepair.com-富士通E8410 BIOS刷新修复

接修一台富士通E8410笔记本,故障原因是用户自升级BIOS后无法开机;对于维修来说,BIOS损坏是最容易修复的故障,只要重写BIOS芯片即可,当然维修BIOS,最关键的问题是BIOS文件。由于明确机器故障,因此…

杨建:网站加速--服务器编写篇

杨建:网站加速--服务器编写篇(上) --提升性能的同时为你节约10倍以上成本From: http://blog.sina.com.cn/iyangjian一,如何节约CPU二,怎样使用内存三,减少磁盘I/O四,优化你的网卡五,…

nginx的http2.0性能太逆天了,HTTPS网站性能优化

m## 关于http2.0 请阅读: [HTTP 2.0的那些事][(http://mrpeak.cn/blog/http2/) 背景 我们七层负载层,使用了5台24U64G内存的物理机支行nginx做https加解密与proxy_pass。每天上下班时段,5台机CPU基本在50%左右,算是计算型。 优…