Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

arXiv-2022-An Analysis of Fusion Functions for Hybrid Retrieval #374

Open
BrambleXu opened this issue Aug 8, 2024 · 1 comment
Open
Assignees
Labels
SS(T) Semantic Search

Comments

@BrambleXu
Copy link
Owner

BrambleXu commented Aug 8, 2024

Summary:

本文分析了文本搜索中混合搜索的融合函数,具体探讨了词汇搜索和语义搜索的融合方法,包括凸结合(Convex Combination, CC)和相互排名融合(Reciprocal Rank Fusion, RRF),并揭示了它们各自的优点和潜在问题。研究发现,RRF对参数敏感,而CC对分数正则化的选择一般不敏感,CC在域内和域外设置中均优于RRF。此外,CC在少量训练例的情况下,能够有效调整目标域唯一参数。

Resource:

  • pdf
  • [code](
  • [paper-with-code](

Paper information:

  • Author:
  • Dataset:
  • keywords:

Notes:

重要要点
混合搜索的重要性:

词汇搜索和语义搜索互为补充,融合可以提高搜索质量。
融合方法的比较:

比较了凸结合(CC)和相互排名融合(RRF)两种融合方法。
CC对分数正则化一般不敏感,而RRF对参数敏感。
CC的优势:

CC在域内和域外设置中均表现出优于RRF的性能。
CC能够在少量训练数据情况下高效调整参数。
RRF的问题:

RRF对参数敏感,尤其在域外数据集上难以泛化。
忽略分数分布,可能丢弃重要信息。
正则化的作用:

在凸结合中,分数正则化很重要,但具体正则化方法选择并不那么重要。
结论
本文详细分析了混合搜索中融合函数的特性,表明凸结合(CC)优于相互排名融合(RRF)。CC对分数正则化选择一般不敏感,能在少量训练例下高效调整,且在域内外数据集中表现一致。而RRF对参数敏感,尤其在域外数据集上难以泛化。本文的分析为混合搜索研究提供了重要见解。

Model Graph:

Result:

Thoughts:

下面是Elasticsearch的文章,提供了CC和RBF两种融合方法

Elasticsearch Hybrid Search

Next Reading:

@BrambleXu BrambleXu added the SS(T) Semantic Search label Aug 8, 2024
@BrambleXu BrambleXu self-assigned this Aug 8, 2024
@BrambleXu
Copy link
Owner Author

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
SS(T) Semantic Search
Projects
None yet
Development

No branches or pull requests

1 participant