硬负面挖掘的教师模型

 

通常使用更先进的模型来收集具有挑战性的难样本。在我们的研究中,我们使用了四种模型来研究教师模型对挖掘难样本的影响,从经典词汇模型 bm25 到高级密集模型,例如我们的 sfr-embedding-mistral。研究结果表明,与 bm25 相比,所选的密集模型可作为更优秀的教师模型,并且通常,更强大的模型可以产生更有效的难样本(sfr-embedding-mistral > e5-mistral > bge-base)。未来,探索多轮训练对两个方面的影响将会很有趣:(a) 使用 sfr-embedding-mistral 进行难样本 (hn) 挖掘,以及 (b) 利用已识别的 hn 来改进和完善 sfr-embedding-mistral。

我们展示了 bge-large 和我们

的 sfr-embedding-mistral 模型在查询/问题长度(左图)和文档长度(右图)方面对正面文档的排名差异。更准确地说,y 轴表示排名(黄金文档 | bge-large)- 排名(黄金文档 | sfr-embedding-mistral),这意味着绝对值越高,两个模型 手机号码数据 之间的对比度越大。

在这两个图中,sfr-embedding-mistral 模型对正面文档的排名总体上优于 bge 模型。更重要的是,我们观察到,在某个长度阈值之后,即查询为 25,文档为 700,由于 llm 固有的表示长上下文的能力,bge 模型将黄金文档的排名高于 sfr-embedding-mistral 的可能性明显较小。对于下游 rag 应用程序来说,它变得特别有吸引力,因为在这些应用程序中保持文档结构完整是必不可少的。例如,rag系统在摘要过程中通过理解和检索各个章节来维护长 ig 号码 篇法律文件的结构,确保摘要准确地捕捉案件的本质和法律推理,这对于法律背景至关重要。

对 mteb 的全面评估

mteb(海量文本嵌入基准)是迄今为止评估嵌入模型最全面的基准,涵盖七种任务类型的 56 个数据集:七种任务:分类、聚类、对分类、重新排名、检索、sts 和摘要。

根据 mteb 排行榜(截至 2024 年 2 月 27 日)显示,sfr-embedding-mistral 在 150 多个嵌入模型中名列前茅,其中包括几个专有模型,例如 voyage-lite-02-instruct、openai text-embedding-3-large 和 cohere-embed-english-v3.0。特别值得注意的是它在检索任务上的表现,检索任务被认为是所有 mteb 任务类型中最关键的。sfr-embedding-mistral 以 59.0 的平 档案来识别最近购买过 均得分表现出色,远远超过第二名的模型(57.4)。这一结果凸显了我们的模型在不同任务和领域中的出色表现。

滚动至顶部