爬一爬哪个操蛋的药品网站,建立药品库

news/2024/5/19 18:56:41/文章来源:https://blog.csdn.net/huangjinjin520/article/details/100035413

阅读文本大概需要5分钟。

互联网医疗公司,有一个完整、完全、正确的药品库非常重要;今天来说一说小编在上一个东家为了建立一个自己的药品库是怎么做的。首先我们是一家小公司,但是我们有一个纽约敲钟的梦想,虽然就要闹得发不了工资、最终还闹上了劳动仲裁委,就是不说了,满满的都是泪,“宝宝,我没有用~~~”。

首先分析对手,目前国内做互联网医疗的公司非常多,但是做的还可以的就那么几家,而且做医药商城、药品比较齐全的主要有京东医药、360好药、阿里健康等,但是他们也不是最全的,药品最全的要数国家药监局

 

今天就来看看怎么使用JAVA把这个网站的数据爬下来,要爬数据,首先要先分析一下网站的结构。分析网站发现这个国家级的网站,身负华夏千千万万人生命的药品的网站,做的确实烂,不知道找了国内哪个大学的、还没毕业的研究生做了。并不想黑哪个大学或者那些研究生。打开谷歌浏览器的js调试器,发现代码中大量充斥debugger对象,是一个测试网站吗?

步骤一: 在药品列表页随便找一条药品数据查看代码

<a href="javascript:commitForECMA(callbackC,'content.jsp?tableId=63&amp;tableName=TABLE63&amp;tableView=药品注册补充申请备案情况公示&amp;Id=1214',null)">2.胆炎康胶囊 (贵州百灵企业集团制药股份有限公司CYZB0801888黔)</a>

 

步骤二: 继续分析点击一下任何一条药品数据

http://app1.sfda.gov.cn/datasearchcnda/face3/content.jsp?tableId=63&tableName=TABLE63&tableView=%D2%A9%C6%B7%D7%A2%B2%E1%B2%B9%B3%E4%C9%EA%C7%EB%B1%B8%B0%B8%C7%E9%BF%F6%B9%AB%CA%BE&Id=1213&MmEwMD=GBK-29dira8NcGmy70MjYEuX.g4LnWi1GvHrOnsfFiCvyQ88RHewUbaSGAiUTgUgq4YevKCVC8bQ9_NkyfOXyuK.obd1rHWx0w4F3O.LrNzVU4u07._EXZzoUlnc4n.0NrH0l3vOaSMEdonpH9Sjx5A2mk_ZJiRP7ZFIqhLxWBKZD35rIIbLjt85LnM8mxObiJQ9zjUmlIuqbvj5tPQLesVJWcdQhTtqztm4TDOx1ywoanmtLWFGYzIkfECO0IJkPatXMvKmGrUomdOU2YzBwFf0_R2GDJUAyT.7k53qL2VpCBTuDsSAgOBzWwKVXoFWm7b96ttDBw8SdPT9rw9ZTEJ1jUQpOyTHV5BaXxqKvej6InqgEoAgY0444vleOaf28sStAhm3XvTbgErp_Dx_hGGbjXEUKhOheptsDWTE35ZD2n3FevH

经过以上两个步骤分析等到如下结论

步骤一:

content.jsp?tableId=63&amp;tableName=TABLE63&amp;tableView=药品注册补充申请备案情况公示&amp;Id=1214

步骤二:

http://app1.sfda.gov.cn/datasearchcnda/face3/

把这两个拼起来并加以整理:

http://app1.sfda.gov.cn/datasearchcnda/face3/content.jsp?tableId=63&tableName=TABLE63&tableView=药品注册补充申请备案情况公示&Id=1214

这个链接放到浏览器访问数据就出来了,再继续分析一下这个链接有如下参数: tableId、tableName、tableView和Id

tableId、tableName、tableView这三个参数都有table,可以知道一定有存在什么关联。找啊找啊发现下图

所有的tableId、tableName、tableView这三个参数的值都在这个界面的所有链接里了;而Id参数,猜测是对应的药品的Id,来验证一下,这个链接是前面拼出来的

http://app1.sfda.gov.cn/datasearchcnda/face3/content.jsp?tableId=63&tableName=TABLE63&tableView=药品注册补充申请备案情况公示&Id=1214

把这个Id改成1215,你会发现惊奇的;数据果然出来了。

就可以大胆推测这个Id是药品的唯一主键,再大胆推测一下,是不是一个自增的Id,写一个循环从0到int类型的最大值就可以把某一种类型的药品的数据全部爬下来了。然后按照这些字段就可以把药品名称、规格、批准文号等爬下来了。

 

这个毕竟是国家级网站,这里代码就给出了,这里给大家点一下。要访问网站,首页就必须用到httpclient

<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.7</version>
</dependency>

分析网站知道返回的是HTML代码,这样的话需要解释HTML代码,这样就要使用到

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version>
</dependency>

也可以使用(但是htmlparser已经很久没更新了,jsoup是新一代HTML解析器)

<dependency><groupId>org.htmlparser</groupId><artifactId>htmlparser</artifactId><version>2.1</version>
</dependency>

推荐阅读

Spring Boot 最流行的 16 条实践

SSM框架的面试常见问题

【分布式】缓存穿透、缓存雪崩,缓存击穿解决方案

阿里P7给出的一份超详细 Spring Boot 知识清单

关注我每天进步一点点

你点的每个在看,我都认真当成了喜欢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_725923.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始写项目终极【维护网站、修复Bug】

url自动携带jsessionid在我使用浏览器收藏了我写的网站的时候&#xff0c;有的时候会访问不了页面。看了一下原因&#xff0c;是由于url携带了jsessionId&#xff0c;我就奇怪为啥会自动携带jsession了。我分析是由“记住我“功能引起的这个bug&#xff0c;于是我就去查找了一下…

classname帝国怎么用php调用,分享帝国cms怎么调用栏目别名考虑到seo优化

在新模板制作过程中&#xff0c;由于栏目名称比较长&#xff0c;用在标题上没有问题&#xff0c;对seo有利&#xff0c;但是在页面上不希望这么长&#xff0c;简单即可&#xff0c;提过提供了栏目别名&#xff0c;如果能调用就方便了&#xff0c;请留意下面的修改方法修改后栏目…

监听器应用【统计网站人数、自定义session扫描器、踢人小案例】(修订版)

前言只有光头才能变强。文本已收录至我的GitHub仓库&#xff0c;欢迎Star&#xff1a;https://github.com/ZhongFuCheng3y/3y从第一篇已经讲解过了监听器的基本概念&#xff0c;以及Servlet各种的监听器。这篇博文主要讲解的是监听器的应用。统计网站在线人数ps:这个可以使用We…

大型分布式网站架构设计与实践

阅读文本大概需要3分钟。SOA和RPC随着互联网规模发展&#xff0c;面向服务的体系架构(SOA)成为主流的架构方式&#xff0c;SOA的本质思想是高内聚、低耦合地实现分治&#xff0c;各个系统之间通过服务的方式进行交互&#xff0c;这样保证了交互的标准性&#xff0c;这对于一个复…

为什么有些网站域名不以www开头?什么是二级域名?

本文公众号来源&#xff1a;漫话编程 作者&#xff1a;漫话编程我在初学的时候不清楚啥叫顶级域名&#xff0c;啥是二级域名以及为啥我们输入网站地址的时候可以省略www&#xff01;这篇文章通俗易懂地告诉你&#xff01;38女神节那一天&#xff0c;女朋友问我淘宝网国际站的…

大型网站技术架构剖析

阅读文本大概需要3分钟。大型网站系统特点高并发&#xff0c;大流量高可用海量数据用户分布广泛&#xff0c;网络情况复杂安全环境恶劣需求快速变更&#xff0c;发布频繁渐进式发展大型网站发展演化过程一台服务器特点&#xff1a;没人应用程序、数据库、文件都在一个服务器。应…

[网站优化实战]公共CDN库/Nginx启用Gzip/全站CDN加速

本文公众号来源&#xff1a;Rude3Knife 作者&#xff1a;蛮三刀把刀网站加载优化的过程&#xff08;主要针对静态资源&#xff09;&#xff0c;思路可以借鉴一下&#xff01;前言接触到CDN的起因&#xff1a;我自己搭建的网站https://price.monitor4all.cn/网页打开的速度一直…

《大型网站系统与Java中间件》读书笔记(上)

前言 只有光头才能变强。 文本已收录至我的GitHub仓库&#xff0c;欢迎Star&#xff1a;https://github.com/ZhongFuCheng3y/3y 这本书买了一段时间了&#xff0c;之前在杭州没带过去&#xff0c;现在读完第三章&#xff0c;来做做笔记 这本书前三章都在科普和回顾中间件/分布式…

《大型网站系统与Java中间件》读书笔记 (二)

前言只有光头才能变强。文本已收录至我的GitHub仓库&#xff0c;欢迎Star&#xff1a;https://github.com/ZhongFuCheng3y/3y回顾上一篇&#xff1a;《大型网站系统与Java中间件》读书笔记&#xff08;一&#xff09;这周周末读了第四章&#xff0c;现在过来做做笔记&#xff0…

《大型网站系统与Java中间件》读书笔记 (中)

前言 只有光头才能变强。 文本已收录至我的GitHub仓库&#xff0c;欢迎Star&#xff1a;https://github.com/ZhongFuCheng3y/3y 回顾上一篇&#xff1a; 《大型网站系统与Java中间件》读书笔记&#xff08;一&#xff09; 这周周末读了第四章&#xff0c;现在过来做做笔记&am…

几个简单步骤可以提高网站浏览体验

摘要&#xff1a; STEP 1确定网站定位 你的网站定位是要以企业形象官网为主&#xff0c;或是以单纯贩售商品的购物网站&#xff0c;还是要跟使用者做互动活动的网站&#xff1f; 每个网站的目的都不尽相同&#xff0c;形象官网&#xff0c;可能需要着重于品牌理念、品牌故事、…

一次面试引发的思考(中小型网站优化思考)

前言 故事的起因是这样的&#xff0c;由于本人地处偏僻工作地点在美丽的冰城哈尔滨虽然地方很美丽&#xff0c;但是这里的软件行业实在是算不上“美丽”&#xff0c;这么多年由于个人原因或者公司原因经常换工作&#xff0c;因为这里都是中小型公司&#xff0c;没有什么大公司。…

我采访了同事,让他掏出了每天都会浏览的干货网站...这几个网站也太牛了吧!

前言 在周六的晚上&#xff0c;我日常去到公司写文章。想写一篇程序员常浏览的网站&#xff0c;刚好同事在我后面看我在干什么。于是我就对他进行了采访&#xff0c;问了一下他常去的网站有哪些。 这次我采访的是鸡蛋&#xff0c;他跟我一样大&#xff0c;但是技术比我优秀实在…

Django项目实践4 - Django网站管理(后台管理员)

http://blog.csdn.net/pipisorry/article/details/45079751 上篇&#xff1a;Django项目实践3 - Django模型 Introduction 对于某一类站点&#xff0c; 管理界面 是基础设施中很重要的一部分。这是以网页和有限的可信任管理者为基础的界面&#xff0c;它能够让你加入&#xff0…

亿级流量网站构架核心技术

高并发原则无状态拆分系统维度&#xff1a;根据系统功能/业务进行拆分功能维度&#xff1a;对一个系统进行功能再拆分读写维度&#xff1a;根据读写比例进行拆分AOP维度&#xff1a;根据访问特征模块维度&#xff1a;比如按照基础或代码维护特征进行拆分服务化&#xff1a;进程…

Python教程 - 廖雪峰的官方网站

2019独角兽企业重金招聘Python工程师标准>>> https://www.liaoxuefeng.com/ 转载于:https://my.oschina.net/u/3563297/blog/1622686

这也许是破解所有网站

您还担心各种资源获取不到吗&#xff1f;这里聚集了广大网友的智慧结晶所在&#xff01; 现在的技术真的是越来厉害了&#xff0c;而且相比于以往复杂的操作 现在的黑科技仿佛特别“亲民” 比如 我之前发过在“baidu”后面加“wp” 就能高速下载百度云资源 而且自己不需要…

thinkphp5项目--企业单车网站(五)

thinkphp5项目--企业单车网站&#xff08;五&#xff09; 项目地址 fry404006308/BicycleEnterpriseWebsite: Bicycle Enterprise Websitehttps://github.com/fry404006308/BicycleEnterpriseWebsite 一、BeyondAdmin使用 1、里面的功能真的超级全&#xff0c;连编辑器都有&…

使用Nginx实现多台服务器网站负载均衡的配置方法介绍

使用Nginx实现网站负载均衡的配置方法介绍1.准备工作1.1 Linux系统安装Nginx1.2 准备三台服务器1.3配置主服务器nginx访问路径1.4访问主服务器2.Nginx负载均衡的几种不同方式介绍2.1 轮询2.2 权重2.3 iphash2.4 最少连接2.5 fair服务器的响应时间来分配3.Nginx配置1.准备工作 …

Laravel访问网站页面空白

配置好了Laravel之后进行网站访问&#xff0c;发现是空白页面&#xff0c;第一次使用Laravel很迷茫。使用fiddler查看的时候出现500错误&#xff0c;网上查了下是因为根目录下的storage目录没有777权限&#xff0c;如图&#xff1a; 解决方法&#xff1a;使用chmod -R 777 s…