使用Rust开发小型搜索引擎

news/2024/7/27 11:30:30/文章来源:https://blog.csdn.net/weixin_43114209/article/details/136529054

一、概述

用Rust创建搜索引擎是探索该语言在性能和安全性方面具有优势的绝佳方式。
这个项目将索引和搜索概念转移到Rust的生态系统中,由于Rust独特的语法和范式,这是一个挑战,但也是有益的。

二、构建搜索引擎

步骤1,创建项目

使用如下命令创建一个Rust新项目:

cargo new shrimp_engine
cd shrimp_engine
code .

步骤2,加入依赖项

需要一些crate来帮助解析和数据处理。例如:
tantivy:用于索引和搜索文本(类似于Java世界中的Lucene)

serde和serde_json:用于JSON解析
将这两个库加入到Cargo.toml文件中:

[dependencies]
tantivy = "0.17"
serde = "1.0"
serde_json = "1.0"

步骤3,定义数据结构

定义我们要索引的文档的结构。定义一个简单的结构体,它表示带有标题和正文的文档。

use serde::{Serialize, Deserialize};#[derive(Serialize, Deserialize, Debug)]
struct Document {title: String,body: String,
}

步骤4,创建索引

使用tantivy,根据数据结构创建索引模式,然后将文档添加到索引中。

use tantivy::{doc, schema::*, Index};fn create_index() -> Index {// 定义Schemalet mut schema_builder = Schema::builder();schema_builder.add_text_field("title", TEXT | STORED);schema_builder.add_text_field("body", TEXT);let schema = schema_builder.build(); // 在目录中创建索引let index = Index::create_in_ram(schema.clone()); // 获取索引写入器let mut index_writer = index.writer(50_000_000).unwrap(); // 添加文档let title = schema.get_field("title").unwrap();let body = schema.get_field("body").unwrap();let doc = doc!(title => "Example Title", body => "This is the body of the document.");let _ = index_writer.add_document(doc); // 将文档提交到索引let _ = index_writer.commit();index
}

Schema定义索引的结构,指定应该索引哪些字段(这里是标题和正文)以及如何(例如,存储、文本分析)创建一个内存索引,并将文档添加到该索引中。添加的每个文档都由Document结构体定义,然后对其进行序列化以进行索引。将更改提交到索引中,使其可搜索。

步骤5,搜索

实现一个搜索索引的函数。我们需要创建一个搜索器和查询解析器。

use tantivy::query::QueryParser;
use tantivy::collector::TopDocs;fn search_index(index: &Index, query_str: &str) -> tantivy::Result<()> {let reader = index.reader()?;let searcher = reader.searcher();let schema = index.schema();let title = schema.get_field("title").unwrap();let body = schema.get_field("body").unwrap();let query_parser = QueryParser::for_index(index, vec![title, body]);let query = query_parser.parse_query(query_str)?;let top_docs = searcher.search(&query, &TopDocs::with_limit(10))?;for (_, doc_address) in top_docs {let retrieved_doc = searcher.doc(doc_address)?;println!("{:?}", retrieved_doc);}Ok(())
}

步骤6,测试搜索引擎,修改main函数

fn main() -> Result<(), TantivyError> {println!("Hello, Shrimp!");// 创建索引并存储它let index = create_index();// 在创建的索引中搜索search_index(&index, "Example")?;Ok(())
}

运行结果如下:

Hello, Shrimp!
Document { field_values: [FieldValue { field: Field(0), value: Str("Example Title") }] }
tantivy crate中的组件用于构建搜索引擎的核心功能,从创建索引到查询索引。

tantivy crate中的组件用于构建搜索引擎的核心功能,从创建索引到查询索引。

搜索引擎的核心机制

1,索引读取器和搜索器:

为了搜索索引,将实例化一个索引读取器,创建一个能够对索引执行查询的搜索器。

2,查询解析和执行

查询解析器解释查询的字符串,并根据已定义的Schema将其转换为查询对象。然后,搜索者使用该查询来查找相关文档并对其进行排序。

3,检索和显示结果

检索并显示最匹配的文档(在一定范围内)。基于搜索查询、提取和审查索引内容。

总结

本示例旨在为你提供构建搜索引擎的起点。Rust的所有权和并发模型,以及它的类型系统,为构建更复杂和高性能的搜索引擎提供了坚实的基础。
我们可以通过添加实时索引、高级文本处理和自定义评分算法等特性来扩展这个项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1005757.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

32单片机基础:输入捕获测频率

接线图如下图所示&#xff1a; 我们复制之前写过的代码6-3 PWM驱动LED呼吸灯 在PWM模块中&#xff0c;执行的逻辑是&#xff0c;初始化TIM2的通道1&#xff0c;产生一个PWM波形&#xff0c;输出引脚是PA0&#xff0c;通过SetCompare1的函数&#xff0c;可以调节CCR1寄存器的值…

spring中事务失效的场景有哪些?

异常捕获处理 在方法中已经将异常捕获处理掉并没有抛出。 事务只有捕捉到了抛出的异常才可以进行处理&#xff0c;如果有异常业务中直接捕获处理掉没有抛出&#xff0c;事务是无法感知到的。 解决&#xff1a;在catch块throw抛出异常。 抛出检查异常 spring默认只会回滚非检…

Ant Design Vue 表格单选选中改变当前行颜色

像这样鼠标移开后&#xff0c;背景色就不见了&#xff0c;但是确实是选中了这条数据 这种就是点击了选中的行后背景变色在点击别的别的变色 代码&#xff1a; <ele-pro-tableref"tableRef"row-key"userExtendId":columns"columns":rowClassN…

数据结构---二叉树

文章目录 一、二叉树的概念二、二叉树的形状三、二叉树的性质四、二叉树的存储。五、二叉树的遍历六、二叉树相关习题1.判断二叉树是否为完全二叉树2.寻找最近公共祖先3.从中序与后序遍历序列构造二叉树 一、二叉树的概念 二叉树是一个由结点构成的有限集合。 该集合可以为空&a…

【牛客】HJ62 查找输入整数二进制中1的个数

题目链接&#xff1a;查找输入整数二进制中1的个数_牛客题霸_牛客网 (nowcoder.com) 解题思路&#xff1a; 解法一: 可以举一个八位的二进制例子来进行分析&#xff0c;对于二进制操作&#xff0c;我们直到&#xff0c;除以一个2&#xff0c;原来的数字会减少一个0.如果除的过程…

企业微信高效沟通的秘诀

在数字化营销的浪潮中&#xff0c;企业微信已成为连接企业和客户的重要渠道。为了提升客户服务效率&#xff0c;许多企业通过设置快捷回复语来优化客户接待流程。然而&#xff0c;随着客户量的激增&#xff0c;传统的快捷回复已无法完全满足需求。今天&#xff0c;我要为大家介…

使用 Git 跟踪项目文件

本章内容为&#xff1a;用Django 写学习笔记程序第三章.2部署程序摘录&#xff0c;详情内容查看请跳转下方链接&#xff1a; 用Django 写学习笔记程序第三章.2部署程序 文章目录 使用 Git 跟踪项目文件虚拟环境中安装 gitgit 是什么git 安装完成后的简单配置创建项目忽略文件初…

[AutoSar]BSW_Com013 CAN TP 模块配置

目录 关键词平台说明一、缩写对照表二、Functional Description&#xff08;vector&#xff09;2.1 Asynchronous and Synchronous behavior of CanTp_Transmit2.1.1 asynchronous 2.1.2 synchronous2.2 Separation Time by Application 三、CanTpChannels3.1 接收端3.2 发送端…

element---tree树形结构(返回的数据与官方的不一样)

项目中要用到属性结构数据&#xff0c;后端返回的数据不是官方默认的数据结构&#xff1a; <el-tree:data"treeData":filter-node-method"filterNode":props"defaultProps"node-click"handleNodeClick"></el-tree>这是文档…

运行springboot项目提示:java: 错误: 不支持发行版本 18、java: 错误: 无效的源发行版:18

java: 错误: 不支持发行版本 18 解决方法&#xff1a;修改字节码版本&#xff0c;可以多试几次。 java: 错误: 无效的源发行版&#xff1a;18 解决方法&#xff1a; 出现这些错误原因&#xff1a; spring版本与jdk版本不对应 我的spring boot版本是3.2.2&#xff0c;对应的j…

5、设计模式之原型模式(Prototype)

一、什么是原型模式 原型模式属于创建型设计模式。通过复制现有的实例来创建新的实例&#xff0c;无需知道相应类的信息。 简单的讲就是当我需要创建一个指定的对象时&#xff0c;刚好现在就有这个对象&#xff0c;但又不能直接使用&#xff0c;所以简单的方式就是克隆一个一摸…

【阿里云系列】-基于云效构建部署Springboot项目到ACK

介绍 为了提高项目迭代的速度加速交付产品给客户&#xff0c;我们通常会选择CICD工具来减少人力投入产生的成本&#xff0c;开源的工具比如有成熟的Jenkins&#xff0c;但是本文讲的是阿里云提高的解决方案云效平台&#xff0c;通过配置流水线的形式实现项目的快速部署到服务器…

Golang入门简介与基本语法学习

简介 Golang的出现背景 Go语言&#xff0c;或我们通常称之为Golang&#xff0c;它的设计哲学深受其创造者的软件开发经验影响&#xff0c;它旨在实现快速编译、高性能、静态类型检查以及简洁明了的代码风格。 是由Google开发的一个开源编程语言&#xff0c;它首次公布于2009…

Qt(C++) | QPropertyAnimation动画(移动、缩放、透明)篇

动画类继承关系图 # QPropertyAnimation QPropertyAnimation是一个可以在Qt应用程序中使用的动画框架。它可以用于创建各种动画效果,包括但不限于以下几种: 1. 移动动画:可以将一个对象从一个位置平滑地移动到另一个位置。比如,你可以创建一个按钮,当用户点击它时,按钮…

短视频解析接口分发系统

宝塔面板&#xff1a;Nginx系统 php7.2 Mysql 5.6-5.7 伪静态Thinkphp 上传文件直接访问域名安装即可 可以自备 听说后边要出saas去水印小程序 下载地址&#xff1a;https://pan.xunlei.com/s/VNskSEelfRVIzoSm5P5Rcw34A1?pwdqzhh# 接口演示&#xff1a; 前端演示…

王道机试C++第 5 章 数据结构一:向量vector和蓝桥杯13年两个程序 Day31

5.1 向量 有限个类型相同的变量的线性集合&#xff0c;组成数组的各个变量称为数组的元素。给每个元素分配唯一的一个下标&#xff0c;就能用这个下标指代该元素。还可通过下标直接访问数组中的任何一个元素&#xff0c;并且这些访问能在常数时间内完成。 1&#xff0e;STL-v…

TortoiseSVN 报错:The server unexpectedly closed the connetion

前言 CentOS7Linux 安装subversionmod_dav_svn&#xff0c;搭建subversion(svn)服务器 The server unexpectedly closed the connetion 解决办法 重启Apache服务 shell> systemctl restart httpd

【Ubuntu】将多个python文件打包为.so文件

1.为什么要将python打包为.so文件&#xff1f; 保护源码 2.实战例子 a.安装相应的包 pip install cython 验证安装是否成功 cython --version b.实战的文件目录和内容 hi.py # This is a sample Python script.# Press ShiftF10 to execute it or replace it with your…

安装包逆向1

1.找到程序的入口点 在IDA中我们看到函数非常多&#xff0c;但是一般都是有主要的入口的&#xff0c;所以找一下有没有主函数 可以直接 CtrF直接查找 CNsInstaller::CNsInstaller 这里搞半天在获取文件路径 CNsInstaller::StartInstall CNsInstaller::InstallFunc char…

苍穹外卖学习-----2024/03/010---redis,店铺营业状态设置

1.Redis入门 2.在Java中操作Redis 3.店铺营业状态设置 BUG!!! 今天在启动项目时&#xff0c;用到了Redis缓存数据库&#xff0c;但是却出现了报错信息&#xff1a; ERR Client sent AUTH, but no password is set。Caused by: io.lettuce.core.RedisCommandExecutionException…