Langchain 与 Elasticsearch:创新数据检索的融合实战

news/2024/7/27 9:02:41/文章来源:https://blog.csdn.net/wojiushiwo987/article/details/135579214

1、简介

在信息爆炸的时代,有效地检索和处理数据变得至关重要。Langchain 和 Elasticsearch 的结合,为我们提供了一个强大的工具,以更智能的方式进行数据检索和分析。

作为一名拥有多年 Elasticsearch 实战经验的技术博主,我将在本文中详细介绍这两种技术的整合应用。

2、LangChain 简介

Langchain是一个旨在简化自然语言处理任务的库。它允许开发者轻松地集成和使用各种 AI 模型,如 GPT-3,来处理复杂的语言任务。

3、Elasticsearch 简介

Elasticsearch 是一个高度可扩展的开源全文搜索和分析引擎。它允许用户快速、实时地进行和分析大量数据。

4、LangChain 与 Elasticsearch 的整合

结合 Langchain和 Elasticsearch,我们可以利用 AI 模型的强大语言处理能力,与 Elasticsearch 的高效数据检索功能,实现智能化的搜索解决方案。

d4d9526728c82dd5842f74d1a8a7e990.jpeg

4.1 案例1:Langchain 连接 Elasticsearch

以下是一个实际的代码示例,展示了如何使用 Langchain与 Elasticsearch 进行数据检索:

python
Copy code
import ssl
import openai
from elasticsearch import Elasticsearch
from langchain_community.vectorstores import ElasticsearchStore
from langchain_openai import OpenAIEmbeddingsfrom langchain.text_splitter import CharacterTextSplitter
from langchain_community.document_loaders import TextLoader# 设置代理访问 API
os.environ["HTTP_PROXY"] = "http://127.0.0.1:33210"
os.environ["HTTPS_PROXY"] = "http://127.0.0.1:33210"
os.environ["ALL_PROXY"] = "socks5://127.0.0.1:33211"# 加载文档
file_path = 'conf/state_of_the_union.txt'
encoding = 'utf-8'
loader = TextLoader(file_path, encoding=encoding)
documents = loader.load()# 文档分割
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)# 连接 Elasticsearch
conn = Elasticsearch("https://127.0.0.1:9200",ca_certs = "certs/http_ca.crt",basic_auth = ("elastic", "changeme"),verify_certs=False
)# 创建索引并进行检索
embeddings = OpenAIEmbeddings()
db = ElasticsearchStore.from_documents(docs, embeddings, index_name="test_index", es_connection=conn)
db.client.indices.refresh(index="test_index")
query = "What did the president say about Ketanji Brown Jackson"
results = db.similarity_search(query)
print(results)

这段代码展示了如何加载、处理文档,并通过 Langchain 结合 Elasticsearch 进行智能检索。

执行结果:

ff10633bc6c6075f91de97360e97a0a8.png 133b34cd22bd65cb892f397f519f9c76.png

4.2 案例2:精细化处理

进一步,我们可以为文档添加更丰富的元数据,并利用这些元数据进行更精细化的搜索:

# 添加元数据
for i, doc in enumerate(docs):doc.metadata["date"] = f"{range(2010, 2020)[i % 10]}-01-01"doc.metadata["rating"] = range(1, 6)[i % 5]doc.metadata["author"] = ["John Doe", "Jane Doe"][i % 2]# 再次连接 Elasticsearch
conn = Elasticsearch("https://127.0.0.1:9200",ca_certs = "certs/http_ca.crt",basic_auth = ("elastic", "changeme"),verify_certs=False
)# 创建带有元数据的索引
db = ElasticsearchStore.from_documents(docs, embeddings, index_name="test-metadata", es_connection=conn)# 执行检索
query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].metadata)# 应用过滤条件
docs = db.similarity_search(query, filter=[{"term": {"metadata.author.keyword": "John Doe"}}])
print(docs[0].metadata)

执行结果:

  • 1、写入 Elasticsearch 索引,效果图:

5f097f9e6a26372ea93172394cb09d45.png
  • 2、执行检索效果:

33141a20c022ef823fba83bdaf238b52.png

在这个案例中,我们通过添加元数据来增强文档的描述性,使得检索结果更加精确和有用。

5、问题解决

在实际应用中,我们可能会遇到各种问题,例如网络连接问题、配置错误或代码逻辑问题。

在这种情况下,确保你的环境设置正确,并且仔细检查代码中的每个步骤,以确保所有操作按预期进行。

6、总结

通过结合 Langchain 和 Elasticsearch,我们可以构建一个强大的数据检索系统,不仅能处理大量数据,还能以智能和高效的方式进行搜索和分析。

官网代码都不能跑起来,需要自己摸索好长时间!

这种技术的融合,为处理复杂的信息检索任务提供了新的可能。

希望这篇博客能够帮助读者更好地理解 Langchain和 Elasticsearch 如何结合,以及如何在实际项目中应用这些技术。这种整合为数据检索和自然语言处理的未来发展开辟了新的道路。

7、参考资料

Langchain 官方文档:

https://python.langchain.com/docs/integrations/vectorstores/elasticsearch

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

ef6b8511df4438a1d6a3164aefb1b7de.jpeg

更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

efe0b677e6e15e830b52c6f4f3e8ba1c.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_925848.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

注意:温度太高电路板表面会氧化导致不上锡

不上锡的情况为什么大多发生在热天? 因为天气太热,室内和室外温差太大,如把PCB板从30多度的室外转移到温度更低的室内就会导致PCB板表面“流汗”现象,PCB板表面有水份就会让其氧化PCB板拆封后,SMT工厂内部环境不好或温…

DC电源模块在新能源领域的应用前景

BOSHIDA DC电源模块在新能源领域的应用前景 DC电源模块在新能源领域有着广阔的应用前景。随着可再生能源技术的发展和普及,如太阳能和风能等的应用逐渐增多,DC电源模块在这些领域的应用越来越重要。 首先,DC电源模块可以用于太阳能发电系统…

记一次 .NET某收银软件 非托管泄露分析

一:背景 1. 讲故事 在我的分析之旅中,遇到过很多程序的故障和杀毒软件扯上了关系,有杀毒软件导致的程序卡死,有杀毒软件导致的程序崩溃,这一篇又出现了一个杀毒软件导致的程序非托管内存泄露,真的是分析多…

mac 上 ssh: connect to host localhost port 22: Connection refused

1。 问题 在搭建hadoop环境的时候 发现ssh localhost 在报错 2. 解决 打开系统设置 -> 共享 -> -> 在左边服务中选择 远程登录 注意红框这些选项慎重选择!!! 修改后,在终端再次 ssh localhost 发现登录成功了 如果…

SpringBoot Redis入门(四)——Redis单机、哨兵、集群模式

单机模式:单台缓存服务器,开发、测试环境下使用;哨兵模式:主-从模式,提高缓存服务器的高可用和安全性。所有缓存的数据在每个节点上都一致。每个节点添加监听器,不断监听节点可用状态,一旦主节点…

Vue3 + Vite + Css3切换主题

1、css3中变量的作用 一个系统或者说一个项目中,往往涉及到很多颜色,但是如果系统看起来样式规整统一的话可能在色值方面偏靠一个色系,字体,颜色,背景颜色,图标颜色等等。 所有可以在css中定义统一的变量&…

智能时代,让AI为你撰写专业应用文

大家好我是在看,记录普通人学习探索AI之路。 何谓应用文?简单来说,应用文是指在日常生活中以及工作中撰写的,旨在传递信息、处理事务的一种文体类型。其范畴广泛,涵盖了诸如请假条、通知书、辞职信、检查报告、欠条、…

6.1810: Operating System Engineering 2023 <Lab7 lock: Parallelism/locking>

一、本节任务 二、要点 2.1 文件系统(file system) xv6 文件系统软件层次如下: 通过路径树我们可以找到相应的文件: fd(文件描述符)是进程用来标识其打开的文件的手段,每个进程有自己的文件…

SaaS模式、springboot框架医院云HIS系统源码

HIS系统作为医院信息化的核心业务系统,如今已成为各个医疗机构的必备品了。大到三级二级医院,小到社区卫生服务中心,门诊(门诊管理系统也可以理解为门诊的his系统,只是功能简单,模块较少)。随着…

010:vue结合el-table实现表格小计总计需求(summary-method)

文章目录 1. 实现效果2. 核心部分3. 完整组件代码4. 注意点 1. 实现效果 2. 核心部分 el-table 添加如下配置&#xff0c;添加 show-summary 属性&#xff0c;配置 summary-method 函数 <el-table.......show-summary:summary-method"getSummaries" >...... …

Gartner发布CPS安全2024年预测:安全形势动荡的四大向量

随着威胁形势、自动化和人工智能采用的步伐以及供应商形势不断快速发展&#xff0c;我们为安全和风险管理领导者提供了四项预测&#xff0c;以规划 2024 年及以后 CPS 安全的未来发展方向。 主要发现 随着人工智能的采用加速增加网络物理系统&#xff08; CPS&#xff09;的“智…

【Internet Protocol】ip介绍,如何组局域网实现远程桌面和文件共享

文章目录 1.何为“上网”1.1 定义1.2 为什么连了WiFi就能上网了&#xff1f; 2.ip2.1 什么是ip2.2 为什么区分广域网和局域网&#xff0c;ip的唯一性2.3 如何查看设备的ip2.4 什么叫"ping"2.5 区分是否两个ip是否在同一局域网2.5.1 最稳妥的方式&#xff1a;ip&m…

mysql group_concat函数使用

CREATE TABLE aa (id int(11) DEFAULT NULL,name varchar(50) DEFAULT NULL ) ENGINEInnoDB DEFAULT CHARSETutf8mb41、基本查询 SELECT * FROM aa;2、以id分组&#xff0c;把name字段的值打印在一行&#xff0c;逗号分隔(默认) select id,group_concat(name) from aa group …

精确掌控并发:漏桶算法在分布式环境下并发流量控制的设计与实现

这是《百图解码支付系统设计与实现》专栏系列文章中的第&#xff08;16&#xff09;篇&#xff0c;也是流量控制系列的第&#xff08;3&#xff09;篇。点击上方关注&#xff0c;深入了解支付系统的方方面面。 本篇重点讲清楚漏桶原理&#xff0c;在支付系统的应用场景&#x…

解决打开 json 文件中文乱码的问题

如下图&#xff0c;pycharm 打开是下面的样子 右下角的编码尝试了好久&#xff0c;依然打不开 用代码打开就成功了 import jsonwith open(./Mydata/garbage_classification.json,encodingutf8,moder) as f:data json.load(f) print(data)控制台结果&#xff1a;

2024年“华数杯”国际大学生数学建模竞赛B题思路

本题难点在于数据获取和定性定量分析&#xff0c;代码部分没有太大价值、就不更新了 •中国的电力供应和许多因素相互作用。请研究它们之间的关系&#xff0c;并预测2024年至2060年中国电力供应的发展趋势。 首先得获取数据&#xff0c;中国的宏观数据相对容易&#xff08;包括…

两数之和(Hash表)[简单]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给定一个整数数组nums和一个整数目标值target&#xff0c;请你在该数组中找出"和"为目标值target的那两个整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元…

C#MQTT编程07--MQTT服务器和客户端(wpf版)

1、前言 上篇完成了winform版的mqtt服务器和客户端&#xff0c;实现了订阅和发布&#xff0c;效果666&#xff0c;长这样 这节要做的wpf版&#xff0c;长这样&#xff0c;效果也是帅BBBB帅&#xff0c;wpf技术是cs程序软件的福音。 wpf的基础知识和案例项目可以看我的另一个专…

单向不带头链表的使用

单向不带头链表的使用 链表的创建&#xff1a; typedef struct LNode {SLDataType data;struct LNode* next; }LNode,*LinkList; 按位查找 LNode* GetElem(LinkList L, int i) {int j 1;LNode* p L->next;if (i < 0)return NULL;if (i 0)return L;while (p &&…

一天一个设计模式---组合模式

基本概念 组合模式是一种结构型设计模式&#xff0c;它允许客户端统一对待单个对象和对象的组合。组合模式通过将对象组织成树形结构&#xff0c;使得客户端可以一致地使用单个对象和组合对象。 主要角色&#xff1a; Component&#xff08;组件&#xff09;&#xff1a; 定…