java jsoup爬取动态网站_java笔记|爬取华软mysise所有课程信息

news/2024/5/20 7:48:55/文章来源:https://blog.csdn.net/weixin_34146759/article/details/112083490

本次内容:

使用java爬取网页数据,并进行数据清洗,熟悉爬取操作;爬取华软课程信息:http://class.sise.com.cn:7001/sise/index.jsp

//源码

package com.sise.studentInfoSystem.demo;import com.sise.studentInfoSystem.bean.Course;import org.jsoup.Jsoup;import org.jsoup.nodes.Element;public class test {    public static void main(String[] args) {        //获取登录mysise需要的input参数        String re = new Post().sendPost("http://class.sise.com.cn:7001/sise/login.jsp", "param").replaceAll(" ", " ");        //清洗html        org.jsoup.nodes.Document doc = (org.jsoup.nodes.Document) Jsoup.parseBodyFragment(re);        Element element1 = doc.getElementsByTag("form").get(0).getElementsByTag("input").get(0);        Element element2 = doc.getElementsByTag("form").get(0).getElementsByTag("input").get(1);        Element element3 = doc.getElementsByTag("form").get(0).getElementsByTag("input").get(2);        //获取input name value        String name1 = element1.attr("name");        String name2 = element2.attr("name");        String name3 = element3.attr("name");        String value1 = element1.attr("value");        String value2 = element2.attr("value");        String value3 = element3.attr("value");        System.out.println("===========================清洗结果=================================");        System.out.println("获取数据[name:" + name1 + " , value:" + value1 + "]");        System.out.println("获取数据[name:" + name2 + " , value:" + value2 + "]");        System.out.println("获取数据[name:" + name3 + " , value:" + value3 + "]");        //mysise账号和密码:        String username = "username";//        String password = "password";//        String param = name1 + "=" + value1 + "&"                + name2 + "=" + value2 + "&"                + name3 + "=" + value3 + "&"                + "username=" + username + "&"                + "password=" + password;        //模拟登录获取登录成功的cookie        String cookie = new Post().GetLoginCookie("http://class.sise.com.cn:7001/sise/login_check_login.jsp", param);        //判断是否登录成功        if (cookie.equals("")) {            System.out.println("登录失败,密码或用户名错误!");        } else {            System.out.println(cookie);            //抓取华软所有课程信息            String html = Post.sendPost("http://class.sise.com.cn:7001/sise/module/selectclassview/selectclassallcourse_view.jsp", cookie);            org.jsoup.nodes.Document document = (org.jsoup.nodes.Document) Jsoup.parseBodyFragment(html);            Element element = document.getElementsByTag("table").get(3).getElementsByTag("tbody").get(0);            System.out.println("==============读取华软所有课程===============");            System.out.println("总共爬取到:"+element.getElementsByTag("tr").size()+"条课程记录");            for (int i = 0; i < element.getElementsByTag("tr").size(); i++) {                Element element12 = element.getElementsByTag("tr").get(i);                for (int j = 0; j < element12.getElementsByTag("td").size(); j++) {                    System.out.print(element12.getElementsByTag("td").get(j).text() + "\t\t\t\t");                }                String id = element12.getElementsByTag("td").get(0).text();                String name = element12.getElementsByTag("td").get(1).text();                String dept = element12.getElementsByTag("td").get(2).text();                String credit = element12.getElementsByTag("td").get(3).text();                String type = element12.getElementsByTag("td").get(4).text();                Course course = new Course();                course.setId(id);                course.setName(name);                course.setDept(dept);                course.setCredit(credit);                course.setType(type);                //保持到数据库                //courseMapper.InsertCourse(course);                System.out.println("\n---------------------------------------------------------------------------------------------------------------------------");                //return "Hello world!"+"\n"+userMapper.Sel(1).toString();            }        }    }}

//运行结果

2fb6f6a787227a4f1ee37b08970572b2.png

a6c532afeb5c15b1781e11583c2ef81d.png

end

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_803579.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

win7关于无线连接的服务器,win7怎样解除无线连接限制_网站服务器运行维护,win7,无线连接...

win10系统如何重置密码_网站服务器运行维护win10系统重置密码的方法是&#xff1a;1、右键点击开始图标&#xff1b;2、在弹出的选项列表中&#xff0c;点击选项【Windows PowerShell(管理员)】&#xff1b;3、执行命令【net user 用户名 新密码】即可。win7解除无线连接限制的…

网站服务器和seo,网站所在服务器与网站SEO排名之间的关系

想让你的网站在搜索引擎中获得好的排名&#xff0c;得到更多的客户认可。作为一个合格的SEOer&#xff0c;你就得把网站服务器作为一个重要事项来做。大家都知道网站是由域名、服务器及页面文件组成的&#xff0c;从这个你也就可以看出服务器的重要性。SEO优化包含的面非常广&a…

java 热点词排名_利用seo技术排名热点新闻词引流(日IP增加2万+)

一个很普通的热点&#xff0c;很容易被各大媒体平台炒到高流量&#xff0c;所以很多人希望能够通过新闻热点来蹭到一部分流量&#xff0c;但大多数的情况下&#xff0c;百度上的新闻热点内容都被大平台拿走了&#xff0c;咱们今天也来教教大家&#xff0c;如何拿到一部分热点流…

调试-Chrome删除某个特定网站的Cookie

方法1 设置 → 高级 → 隐私设置和安全性 → 网站设置 → Cookie和网站数据 → 查看所有Cookie和网站数据 方法2 设置 → 搜索框中输入“Cookie”→ 根据提示一个个点开选项卡找即可

一个可以动态创建响应动画GIF的网站,AjaxLoad

呵呵&#xff0c;使用Ajax做Web开发的必备品看看样式&#xff1a;呵呵&#xff0c;还有许多样式&#xff0c;如果你想要&#xff0c;可以到这个网站自己生成喔http://www.ajaxload.info/ 转载于:https://www.cnblogs.com/fengmk2/archive/2006/10/21/535988.html

服务器搭建个人网站(阿里云服务器)

服务器搭建个人网站 一丶购买服务器 这里我选的是阿里云服务器&#xff0c;进入阿里云官网阿里云-上云就上阿里云 阿里云提供了几种服务器&#xff0c;云服务器ESC、轻量应用服务器&#xff0c;ESC更好一点儿&#xff0c;我选了轻量级应用服务器。购买好了之后&#xff0c;在…

每天第一个登录sharepoint 网站的人

在IIS里面设置下&#xff1a; 1.找到你的sharepoint站点对应的应用程序池&#xff1b; 2.设置这个应用程序池的回收时间。 不想每天早上速度慢&#xff0c;就取消回收啦。呵呵&#xff01; 远程桌面连接-148.71-666666-开始程序-IIS管理器-Internet信息服务-应用程序池-ShareP…

网站能带来什么

网站到底有什么用&#xff1f;如果说社交网站能为网友带来朋友&#xff0c;新闻网站能为网民带来信息&#xff0c;视频网站能给网民娱乐&#xff0c;那企业网站到底能带来什么&#xff1f;或者说是给企业或者给网民客户带来什么&#xff1f; 网站现在到处都是&#xff0c;并且现…

宝塔绑定域名访问不了_千字长文教你使用 宝塔面板 快速搭建网站

本文将教大家使用 宝塔面板 快速搭建网站&#xff0c;云服务器购买 以及 域名注册 部分请自行上网搜索了解&#xff0c;亦可留言联系小编进行咨询。如果是和下方一样本地搭建演示的话&#xff0c;则不需要付费购买域名和主机。宝塔面板 的是 提升运维效率 的 服务器管理 软件&a…

seo代码优化工具_大咖带你玩转企业SEO搜索引擎优化视频

搜索引擎营销作为现代企业常见的一种网络营销方式&#xff0c;对于提升企业品牌曝光已经口碑有着重要的营销价值。本课程主要讲解的知识包括搜索引擎工作原理、SEO必备工具、关键词选择方法、网站首页/URL/TDK标签优化技巧、SEO站内优化、代码优化及外链优化等。学员通过学习可…

不同网站不同网卡_【网站推荐】丰富导出,满足不同人群不同需求

由于微信公众号调整了推送的排序机制&#xff0c;目前是根据大家对公众号的喜欢程度、阅读频率来【智能排序】&#xff0c;如果是你不常用不常访问的公众号&#xff0c;出现在订阅号列表中的频率就会越来越低&#xff0c;所以为了不错过猿猿的干货分享&#xff0c;大家可以给“…

解决Asp.net Web网站发布到服务器上运行时,某界面传参数过多,造成的“此请求的查询字符串的长度超过配置的 maxQueryStringLength 值”错误。...

今天遇到了一个以前没遇到过的问题&#xff0c;网站在本地运行时是没有任何问题的。昨晚调试好的&#xff0c;本来以为今天可以舒一口气&#xff0c;结果为了确保系统稳定性&#xff0c;我再一次发布到了服务器上测试新增的功能。还真别说&#xff0c;一发布到服务器上&#xf…

网易云音乐刷听歌量_还有人记得这个网站吗? 网易云音乐一键刷听歌量,1s听歌300首。...

戳上方蓝字关注『教程姬』&#xff0c;获取更多软件干货&教程&#xff01;这一切都要从一只蝙蝠说起……在家闲的无聊&#xff0c;在某云领了一个月的试用云服务器。1G内存1M宽带&#xff0c;是真的垃圾。不过对于我这样的小白来说&#xff0c;也够用了。所以就上传了网站源…

js百度地图信息窗口添加链接_网站百度秒收录方法大全

快速收录操作步骤近期普遍困惑站长的收录问题&#xff0c;本人给各位提供个详细的操作步骤说明&#xff0c;实测有效&#xff0c;不喜勿喷&#xff0c;相互交流。1.注册百度资源平台账号https://ziyuan.baidu.com/1、添加站点用户中心-站点管理-添加站点2、按照要求添加&#x…

关键词词云怎么做_百度网站关键词优化应该怎么做?看这里

百度网站关键词优化应该怎么做&#xff1f;在回答这个问题之前&#xff0c;我们先来看看&#xff0c;下面几个问题。1、为什么百度网站关键词优化要做&#xff1f;&#xff1f;答案应该你很熟悉&#xff0c;作为企业花费大量的资金做出一个网站的目的是什么&#xff1f;是让客户…

华谊兄弟出现什么问题_网站文章被长期采集会出现什么问题?

定期更新站内的文章几乎是每一个网站都会做的事情&#xff0c;当然不是每网站都注重原创&#xff0c;也不是每个网站都愿意花这个时间去做原创的文章&#xff0c;不少人就在用采集的方式在更新自己的网站文章。且不说大量采集他人文章的网站会怎么样&#xff0c;这里根据自己网…

js修改所有网站上带有关键字的_「无废话」基础知识速查手册 of NODE.JS

参考资料&#xff1a;1.《Node.js 权威指南》一、Node.js 中的控制台console.log&#xff1a;标准化打印console.time && console.timeEnd&#xff1a;测试函数执行时间console.trace&#xff1a;打印函数调用栈console.assert&#xff1a;穷人版单元测试二、Node.js 中…

简单网页布局的html代码网站,一个简单的网页布局代码

先来看看效果图&#xff1a;再来看源代码(下面的源代码其实是一个标准的XHTML模板)This is titleheaderlistuserpicsfooter再来看CSS文件。CHARSET "UTF-8";*{padding:0;margin:0;}body{width:960px;margin:0 auto;background:#FFF}#header{width:auto;height:150px;…

Mysql在大型网站的应用架构演变

Scale Out&#xff08;也就是Scale horizontally&#xff09;横向扩展&#xff0c;向外扩展 Scale Up&#xff08;也就是Scale vertically&#xff09;纵向扩展&#xff0c;向上扩展 无论是Scale Out&#xff0c;Scale Up&#xff0c;Scale In&#xff0c;实际上就是一种架构的…

Mysql在大型网站的应用架构演变

Scale Out&#xff08;也就是Scale horizontally&#xff09;横向扩展&#xff0c;向外扩展 Scale Up&#xff08;也就是Scale vertically&#xff09;纵向扩展&#xff0c;向上扩展 无论是Scale Out&#xff0c;Scale Up&#xff0c;Scale In&#xff0c;实际上就是一种架构的…