相同业务场景和文本下新增抽取实体和关系后召回率差异极大 #340

1happyWDC · 2023-09-22T07:18:17Z

环境为:
python3.7
paddlepaddle-gpu 2.4.2.post117
paddlenlp 2.5.2
cuda-version 11.7
GPU：A800

问题描述：在合同文本中抽取关系，合同文本长度有几千到一万字不等，由于有的关系涉及到的实体间隔比较远（该情况概率较小），在标注的时候是将整篇合同文本放进去进行标注的。在第一版的时候通过实体关系标注抽取的时候召回率和f1都有0.85左右，在第二版新增了实体种类和关系种类的时候，召回率为0.3，f1为0.4，较第一版差距比较大。同时，两版抽取schema中相同的实体和关系，第二版的效果也要远低于第一版的，不知道是不是被第二版标注的其他数据给影响到了整个的效果。

eg：全部合同文本涉及到多个类别，共有700份文件进行了标注，其中各类别分布不均匀，有的类别有100多个样本，有的类别是由10多个样本，但是部分样本在100的类别抽取效果也很不好。为了验证我尝试过将该类别样本单独提取出来做训练和推理，发现仅有该类别的情况下仍然效果不好。

eg：注释的schema是效果好一点的那一版，没注释的是效果比较差的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

相同业务场景和文本下新增抽取实体和关系后召回率差异极大 #340

相同业务场景和文本下新增抽取实体和关系后召回率差异极大 #340

1happyWDC commented Sep 22, 2023

相同业务场景和文本下新增抽取实体和关系后召回率差异极大 #340

相同业务场景和文本下新增抽取实体和关系后召回率差异极大 #340

Comments

1happyWDC commented Sep 22, 2023