使用阿里云开放搜索服务快速搭建资源搜索网站

news/2024/5/9 10:09:10/文章来源:https://blog.csdn.net/longqizhanshen/article/details/109453170

下面我们就一步一步来搭建这个简单的资源搜索网站

一、搭建前的一些准备和分析

资源搜索网站有如下几个关键点:

1、原始数据

没有个几百万条初始搜索数据,都不好意思和别人说是做资源站的,在这个案例里面,我们采用了simplecd官方制作的电驴地址打包,虽然年代比较久远,但也有百万条左右,下载地址为:

https://www.douban.com/group/topic/17230136/

请注意保护版权!

2、数据存储与检索

十多年前资源的数量以百万计算,现在一个饱满的资源站的资源数量应该早已过亿,数据库大小也应该在50G以上,这样的数据,使用阿里云RDS MySQL数据库具有较高的性价比,数据量再大一些还可以结合DRDS分布式数据库一同使用

对于具体的检索技术,不同的数据库的全文索引、分词等技术各不相同,甚至连MySQL的各种版本之间的处理都有区别,而由于数据库我是确实不会。。要是会的话就不至于一直用Linq ORM了。。我想象中的100万条数据全文检索的速度应该在0.01秒左右,但自己操作MySQL进行配置和优化,始终达不到这样的查询效率

因此今天这里选择了阿里云的开放搜索服务,让阿里云来处理这些难点。

这也是今天的一个主要讲解重点,实测证明,确实检索效率很高!

3、数据爬虫与更新

初始数据载入后,后续的数据更新也非常重要,主要靠爬虫程序进行每日更新,重点在于爬虫程序的效率的所爬目标的资源质量,这里有两个难点

1)所爬目标资源。电影站、软件站、BT搜索站等等,都可以是爬虫目标资源,而如果掌握了搜索引擎的高级用法,并引入无限数量的代理IP,则可以对搜索引擎直接进行定向爬取,效果更加。如能做到每日新增10万左右新资源,则是一个比较完美的效果。

2)爬虫程序。如果仅仅是对HTML进行查询和分析,则需要很高的正则使用技巧,而如果涉及到语义分析的话,更需要很强的语言分析相关技术。爬虫程序的逻辑编写,我想.NET Framework 4.5是再适合不过了,拥有先进的多线程并行库和丰富而全面的HTTP访问手段,完胜其他各种新型语言

经过以上的分析,设计出如下的系统架构图:

image

二、具体的搭建步骤

1、购买一个阿里云RDS数据库并进行相关配置

因为本项目纯属测试,所以买个便宜点的按时计费的MySQL RDS

image

每天7块多钱,还算可以接受的范围内。

购买完成后,申请一个外网地址(用于初始数据迁移)

image

image

最后获得了内外网的地址:

image

2、使用Navicat Premium(请支持正版,)打开下载好的SQLite格式的电驴初始数据

image

image

根据表结构可以看出相关数据存储方式,由于今天的案例比较简单,我们仅需要title、updatetime、ed2k这3个字段

3、根据需要的字段,在购买的RDS数据库中,建立数据库和表

image

image

通过Navicat Premium连接到阿里云

image

建立一个电驴资源表

image

4、通过Navicat Premium的数据迁移工具,将初始化数据导入RDS

由于没有直接的导入方式,我们先将SQlite数据导出为文本文件

image

 

再将文本文件导入到最终表中

image

image

image

image

image

5、通过阿里云开放搜索服务,与RDS连接并建立索引

image

image

选择通过数据源创建应用

image

image

设置ID为主键

image

默认定义了如下索引结构

image

我们只需要用到Title的检索,需要展示的内容则是title,ed2k,因此修改为如下:

image

创建完成后进行激活,选择了3G容量,每秒6次的配置(好像价格不便宜哦~)

image

激活完成后,会进行大约半个小时左右的索引,索引建立好之后,我们测试一下搜索效果

imaged

注意用时:用时0.008791秒

这比自己处理数据库,真是要高不少效率!看来使用阿里云开放搜索服务确实是一个值得尝试的新思路!

6、基本配置完成后,就是如何使用开放搜索服务了

先看一下官方文档的结构

image

标红的地方可以重点了解,在今天的案例里面,我们只需要用到API接口里面的Search接口,这是最简单的调用方式

image

文档还是比较简单,很容易就看懂了,签名这块阿里做的有些混乱,不过用官方提供的SDK,也能快速的使用服务

7、下面就在.NET中测试一下效果

先到官网下载一下.NET的SDK

image

然后建一个控制台测试程序,代码如下:

image

模拟进行搜索美食

返回成功

image

8、继续新建一个简单的asp.net Web Application,做一下前端访问首页

服务输出使用一个一般处理程序RS.ashx,代码如下:

image

页面就一个单页面

image

JS逻辑也很简单

image

访问效果如下:

image

好了,今天这个资源搜索网站就搭建好了

麻雀虽小五脏俱全,这个案例还是具备很强的实践性和延展性的,后续可以做的事情有如下:

1)完善爬虫程序

2)实现一个独立的管理后台,管理爬虫数据和开放搜索服务数据同步

3)增加用户管理

4)增加广告等营收

【阿里云】2020双十一优惠:

https://www.aliyun.com/1111/new?userCode=fggt3m9n

 

【阿里云】永久优惠:

https://www.aliyun.com/minisite/goods?userCode=fggt3m9n

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_783473.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VuePress如何搭建个人网站?

作者: 南宫__https://www.jianshu.com/p/37509da5a020前言只听过vue,没听过vuepress?它可是新的vue全家桶成员之一,尤雨溪大神于2018年4月12日推出。不信?请看Evan You github。star数已过万。vuepress用于迅速搭建技术文档网站与…

网站优化,这十个工具你可以看看

转载自:Jarttos bloghttp://jartto.wang工欲善其事,必先利其器。在「网站优化实战:http://jartto.wang/2019/02/16/web-optimization/」中我们提到了一些优化的相关经验,并没有对优化工具展开讨论,这节就让我们一起上手…

网站监控笔记(一) — Performance

What is website monitoring?什么是网站监控?其实我们主要是实时监控网站性能,是否存在异常资源、请求、代码出错 、页面加载消耗时长 等 一系列问题!如果出现这些问题,你能不能及时定位问题原因? 在之前的 《如何优化祖传代码》…

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

2019独角兽企业重金招聘Python工程师标准>>> 一、Apache ①、通过修改 .htaccess 文件 修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选): 可用代码 (1): RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (^$|FeedDem…

见多识广:CodePen项目网站简介

见多识广:CodePen项目网站简介 by zhangxinxu from http://www.zhangxinxu.com 本文地址:http://www.zhangxinxu.com/wordpress/?p2499 一、CodePen是干嘛的? CodePenclick for visit!顾名思意,codepen, 即“代码笔”&#xff0c…

大型网站技术架构(六)网站的伸缩性架构

2019独角兽企业重金招聘Python工程师标准>>> 网站系统的伸缩性架构最重要的技术手段就是使用服务器集群功能,通过不断地向集群中添加服务器来增强整个集群的处理能力。“伸”即网站的规模和服务器的规模总是在不断扩大。 1、网站架构的伸缩性设计 网站的…

postgre sql 括字段_啥?我写的一条SQL让公司网站瘫痪了...

【51CTO.com原创稿件】一条慢查询会造成什么后果?之前我一直觉得不就是返回数据会慢一些么,用户体验变差?图片来自 Pexels其实远远不止,我经历过几次线上事故,有一次就是由一条 SQL 慢查询导致的。那次是一条 SQL 查询耗时达到 2-3 秒「没有…

Nginx配置网站适配PC和手机

背景 访问同一个域名,需要实现在电脑访问时,访问电脑版,在移动端访问时,访问手机版。 传统的做法可能是进入一个页面时,判断屏幕宽度,根据宽度显示电脑版还是手机版,其实Nginx也可以完成这个判…

如何访问局域网的网站【路由器设置端口映射】

转载请注明出处。 原文作者:宋发元 原文链接:http://blog.csdn.net/u011019141/article/details/53709668 一直以来,在开发中我都使用花生壳对内网的地址做映射,以此达到访问内网的网站资源。但是这之间经过花生壳转发这一折腾&…

概要设计 重要性_深度剖析外贸网站设计必须要做的SEO关键词布局 - 外贸老船长强烈推荐...

外贸网站设计最全面的SEO优化布局导读:设计高质量的外贸营销型网站其中关键词布局优化非常重要,如果你的外贸网站仅仅是设计的很美观好看,但是关键词没有做优化布局的话,相当于一个“花瓶”,客户搜索不到你的网站&…

毕业设计html旅游网站,毕业设计--旅游网站的设计与实现(论文)

毕业设计--旅游网站的设计与实现(论文) 旅游网站的设计与实现旅游网站的设计与实现 论文论文 学 生 姓 名 ** 学 号 专 业 班 级 计算机网络 指 导 教 师 123 I 摘 要 随着计算机技术,网络技术的迅猛发展,Internet 的不断普及,网络在各个领域…

反向索引和自增索引区别_网站建设SEO优化和SEM搜索引擎营销,区别与联系全在这里了...

经常会有人问网站建设SEO优化和SEM搜索引擎营销到底存在什么关系,我找了一个做优化的是不是就可以不再招sem人员了?也有一部分新入行的小伙伴也常常会混淆他们之间的关系,所以我决定一次性把这个问题真正的讲清楚,说透彻。一、什么是SEO优化…

火星浏览器_【工具网站】火星个人导航

现在已存在的网站已经超过十亿,(同时每时每刻也有网站在不断诞生和消失)。有许多网站可能已经融入我们的生活,给我们带来价值,但是也有一些网站可能你都没用过,甚至没听说过。别人不知道的,如果自己知道了,…

网站下面的文件找不到_收藏好这些网站应该没有找不到的字体了!

字体对于一幅设计作品的重要性应该是无需多言了。不同的字体,对应着不同的气质,也就对应着不同的设计风格。但有时候我们费劲千辛万苦也找不到一款合适的字体,甚至都不知道应该去哪里找!这可不蛋疼吗,再找不到好看的字…

阿里P9架构师讲解从单机至亿级流量大型网站系统架构的演进过程

阶段一、单机构建网站网站的初期,我们经常会在单机上跑我们所有的程序和软件。此时我们使用一个容器,如tomcat、jetty、jboos,然后直接使用JSP/servlet技术,或者使用一些开源的框架如mavenspringstructhibernate、mavenspringspri…

无法从该网站添加应用_降低跳出率的9个网站设计技巧

在登陆网站的前几秒钟内,用户决定是否要进一步滚动或退出该网站。一种强大的Web设计是一种鼓励用户留在网站上而不跳到其他网站的设计。要创建这样的网页设计,这里有一些简单的技巧,可以极大地提高跳出率。1.制定计划:第一步不应该…

《HTML CSS设计与构建网站》书评之-异类的风格,不一样的效果

《HTML & CSS设计与构建网站》 书评之 异类的风格,不一样的效果很高兴在此向大家推荐一本制作网页所需要的书籍,它就是《HTML & CSS设计与构建网站》-五星畅销书籍,本书是由(美)达科特(Duckett, J.) 著,刘涛&a…

那些著名网站的90年代

它们都是显赫一时的品牌,Smashing Apps 几个月前曾发过一篇文章,介绍27个著名品牌的网站 ,它们引领当今 Web 设计风潮,然而,从没有哪个领域象 Web 设计这样,10年便恍若隔世,本文搜集一些著名品牌…

win10iis网站服务器,win10iis无法开启|如何开启win10专业版系统iis

win10iis无法开启|如何开启win10专业版系统iis1、我们只要按下键盘上的Windows X 进入后我们点击”控制面板“ 选项,打开进入;2、然后在打开控制面板下面我们点击“程序”选项,然后我们打开进入细节如下图所示;3、在进入到程序管理界面中我们点击“启用…

华为云该网站服务器错了,验证服务器出错

验证服务器出错 内容精选换一换如果请求因错误导致未被处理,则会返回一条错误响应。错误响应中包括错误码和具体错误描述。表1列出了错误响应中的常见错误码。如果您已经完成了域名授权验证配置,且域名验证未生效,请参照本章节进行处理。操作…