Elasticsearch：了解和解决文档更新后 Elasticsearch 分数的变化

news/2024/5/4 7:27:48/文章来源:https://blog.csdn.net/UbuntuTouch/article/details/130313637

问题

问卷中有如下这样的文档，开发者想通过 match query 搜索这些文档来使用分数。

POST sample-index-test/_doc/1
{"first_name": "James","last_name" : "Osaka"
}

以下是对上述文档的示例查询：

GET sample-index-test/_explain/1
{"query": {"match": {"first_name": "James"}}
}

上述命令给出来的结果是：

{"_index": "sample-index-test","_id": "1","matched": true,"explanation": {"value": 0.2876821,"description": "weight(first_name:james in 0) [PerFieldSimilarity], result of:","details": [{"value": 0.2876821,"description": "score(freq=1.0), computed as boost * idf * tf from:","details": [{"value": 2.2,"description": "boost","details": []},{"value": 0.2876821,"description": "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:","details": [{"value": 1,"description": "n, number of documents containing term","details": []},{"value": 1,"description": "N, total number of documents with field","details": []}]},{"value": 0.45454544,"description": "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:","details": [{"value": 1,"description": "freq, occurrences of term within document","details": []},{"value": 1.2,"description": "k1, term saturation parameter","details": []},{"value": 0.75,"description": "b, length normalization parameter","details": []},{"value": 1,"description": "dl, length of field","details": []},{"value": 1,"description": "avgdl, average length of field","details": []}]}]}]}
}

如你所知，Elasticsearch 根据相关性对文档进行评分。在为该文档建立索引后，让我们现在搜索索引。我们目前只有一份关于该索引的文档。

GET sample-index-test/_search
{"query": {"match": {"first_name": "James"}}
}

搜索后，你将看到以下结果：

{"took": 0,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": {"value": 1,"relation": "eq"},"max_score": 0.2876821,"hits": [{"_index": "sample-index-test","_id": "1","_score": 0.2876821,"_source": {"first_name": "James","last_name": "Osaka"}}]}
}

我想提请你注意结果的 _score 字段。如你所见，我们文档的 _score 值为 0.2876821 。例如，当你多次更新文档时，假设我们使用以下请求更新了记录 10 次：

POST sample-index-test/_update/1
{"script" : "ctx._source.first_name = 'James'; ctx._source.last_name = 'Cena';"
}或者 POST sample-index-test/_doc/1
{"first_name": "James","last_name" : "Cena"
}

不会有任何添加到索引中。我们又有了一份文件，没有了。我们刚刚更新了文档的 last_name 字段。让我们再次进行精确搜索并尝试查看结果：

GET sample-index-test/_search
{"query": {"match": {"first_name": "James"}}
}

上面的命令显示的结果是：

{"took": 0,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": {"value": 1,"relation": "eq"},"max_score": 0.046520013,"hits": [{"_index": "sample-index-test","_id": "1","_score": 0.046520013,"_source": {"first_name": "James","last_name": "Cena"}}]}
}

正如你在此处看到的，分数发生了变化。该文档的分数现在为 0.046520013 。但根据 TF/IDF 计算，我们需要看到与我们的第一个搜索响应相同的分数。因为当我们将它与文档的第一个状态进行比较时，没有任何变化。即使我没有更改 first name 字段，我也只是更改了 last_name 字段并继续搜索 first_name 。让我们对 _explain 端点进行更多挖掘。

GET sample-index-test/_explain/1
{"query": {"match": {"first_name": "James"}}
}

Explain API 端点将为查询和特定文档计算得分解释。上述请求的结果如下所示：

{"_index": "sample-index-test","_id": "1","matched": true,"explanation": {"value": 0.046520013,"description": "weight(first_name:james in 0) [PerFieldSimilarity], result of:","details": [{"value": 0.046520013,"description": "score(freq=1.0), computed as boost * idf * tf from:","details": [{"value": 2.2,"description": "boost","details": []},{"value": 0.046520017,"description": "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:","details": [{"value": 10,"description": "n, number of documents containing term","details": []},{"value": 10,"description": "N, total number of documents with field","details": []}]},{"value": 0.45454544,"description": "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:","details": [{"value": 1,"description": "freq, occurrences of term within document","details": []},{"value": 1.2,"description": "k1, term saturation parameter","details": []},{"value": 0.75,"description": "b, length normalization parameter","details": []},{"value": 1,"description": "dl, length of field","details": []},{"value": 1,"description": "avgdl, average length of field","details": []}]}]}]}
}

去掉一些对我们来说是可选的部分。现在让我们关注 IDF 计算。如你所知，反向文档频率（Inverse Document Frequency）查看一个词在语料库中的常见（或不常见）程度。这意味着我们将使用索引中的文档数来计算 IDF。有关 IDF 的更多知识，请阅读文章 “Elasticsearch：分布式计分”。

idf, computed as log(1 + (N - n + 0.5) / (n + 0.5))

正如你在上面看到的，我们使用的是文档总数，但问题是我们在索引中有一个文档，但它显示的是 10。

              {"value": 10,"description": "n, number of documents containing term","details": []},{"value": 10,"description": "N, total number of documents with field","details": []}

因此，如果你使用此分数来计算其他服务的内容，这就是问题所在。

为什么会这样？

Elasticsearch 使用 Lucene 并将所有文档存储在段中。段（segment）是不可变的，文档更新操作有两步过程。更新文档时，将创建一个新文档，并将旧文档标记为已删除。所以，当你在 Elasticsearch 索引中创建第一个文档时，Elasticsearch 会将它保存在一个段中，并且只有一个文档。然后你更新同一个文档 10 次；在任何更新操作中，Elasticsearch 都会在一个段中创建另一个文档，并将最旧的文档标记为已删除。但是当你搜索索引时，你会从段中找到最新的文档状态。暂时删除的文档数量为10。你会再次搜索到文档的最新状态，但 Elasticsearch 会继续在内部统计它们以进行IDF 计算。因此，每次更新后，“the number of documents with field” 和 “number of documents containing term” 都会发生变化。

解决方案

如你所知，如果你知道什么是段，这个问题会在一段时间后自行解决。所以，如果你想自己做这件事而不等待，你需要使用 _forcemerge。我需要在这里放一个来自 Elasticsearch 文档的解释。在我们稍微等一段时间后，我们再去搜索，我们将会看到最终的分数和我们刚开始搜索的结果是一样的。

合并通过将其中的一些合并在一起来减少每个分片中的段数，并且还释放已删除文档所使用的空间。合并通常会自动发生，但有时手动触发合并很有用。
我们建议只强制合并只读索引（意味着索引不再接收写入）。

为了对我们的索引执行 _forcemerge，我们使用了以下请求：

POST sample-index-test/_forcemerge

根据你的索引大小，此请求可能需要一些时间，你可以通过在 Kibana 上执行以下请求来完成任务：

GET _tasks?actions=*forcemerge*&detailed

另一种方法就是等待。 Elasticsearch 还有一个调度程序和合并策略来自动合并段。在使用强制合并之前，我建议仔细阅读相关的官方文档。

最后，还有一个索引生命周期操作，用于使用策略执行强制合并操作。根据你的逻辑，你可以使用不同的解决方案来获得更好的搜索评分结果。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_102091.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Elasticsearch：了解和解决文档更新后 Elasticsearch 分数的变化

问题

为什么会这样？

解决方案

相关文章

贾其萃 : 笃行实践筑梦扬帆 | 提升之路系列（二）

LeetCode特训 --- Week2 (主打滑动窗口 + 字符串匹配题目)

有什么好用的远程工具吗

Java核心技术卷1-总结-10

【Linux】uptime命令详解平均负载

ChatGPT实战100例 - (06) 10倍速可视化组织架构与人员协作流程

知识变现海哥|你为什么知识却不富有，是你不懂这个道理

初识C++之C++11

【Python】如何用pyth做游戏脚本（太简单了吧）

基于OpenCV与深度神经网络——实现证件识别扫描并1比1还原证件到A4纸上

云智慧助力MLOps加速落地

玩机搞机----root面具的安装更新隐藏root 德尔塔面具等等综合解析

“码”上反馈，自动留痕：二维码助力湖塘街道人居环境巡查高效化

【youcans 的 OpenCV 学习课】21. Haar 小波变换与 Haar 特征检测（上）

selenium应用之抓取b站黑马视频目录建立学习计划Excel

经典算法之快速排序

【广州华锐互动】火电厂3D沉浸式事故体验，提高员工安全意识和应急处理能力

【多线程】Java中是如何保证多线程间的数据共享的？

Adobe国际认证证书，深化设计师个人优势！

SpringBoot实现导出Excel功能