We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
环境为: python3.7 paddlepaddle-gpu 2.4.2.post117 paddlenlp 2.5.2 cuda-version 11.7 GPU:A800
问题描述:在合同文本中抽取关系,合同文本长度有几千到一万字不等,由于有的关系涉及到的实体间隔比较远(该情况概率较小),在标注的时候是将整篇合同文本放进去进行标注的。在第一版的时候通过实体关系标注抽取的时候召回率和f1都有0.85左右,在第二版新增了实体种类和关系种类的时候,召回率为0.3,f1为0.4,较第一版差距比较大。同时,两版抽取schema中相同的实体和关系,第二版的效果也要远低于第一版的,不知道是不是被第二版标注的其他数据给影响到了整个的效果。
eg:全部合同文本涉及到多个类别,共有700份文件进行了标注,其中各类别分布不均匀,有的类别有100多个样本,有的类别是由10多个样本,但是部分样本在100的类别抽取效果也很不好。为了验证我尝试过将该类别样本单独提取出来做训练和推理,发现仅有该类别的情况下仍然效果不好。 eg:注释的schema是效果好一点的那一版,没注释的是效果比较差的
The text was updated successfully, but these errors were encountered:
No branches or pull requests
环境为:
python3.7
paddlepaddle-gpu 2.4.2.post117
paddlenlp 2.5.2
cuda-version 11.7
GPU:A800
问题描述:在合同文本中抽取关系,合同文本长度有几千到一万字不等,由于有的关系涉及到的实体间隔比较远(该情况概率较小),在标注的时候是将整篇合同文本放进去进行标注的。在第一版的时候通过实体关系标注抽取的时候召回率和f1都有0.85左右,在第二版新增了实体种类和关系种类的时候,召回率为0.3,f1为0.4,较第一版差距比较大。同时,两版抽取schema中相同的实体和关系,第二版的效果也要远低于第一版的,不知道是不是被第二版标注的其他数据给影响到了整个的效果。
eg:全部合同文本涉及到多个类别,共有700份文件进行了标注,其中各类别分布不均匀,有的类别有100多个样本,有的类别是由10多个样本,但是部分样本在100的类别抽取效果也很不好。为了验证我尝试过将该类别样本单独提取出来做训练和推理,发现仅有该类别的情况下仍然效果不好。
![微信图片_20230922115050](https://private-user-images.githubusercontent.com/145737041/269860430-f4c39be6-7f98-4849-865d-81a8461ab402.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkwMDI4NzksIm5iZiI6MTczOTAwMjU3OSwicGF0aCI6Ii8xNDU3MzcwNDEvMjY5ODYwNDMwLWY0YzM5YmU2LTdmOTgtNDg0OS04NjVkLTgxYTg0NjFhYjQwMi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIwOFQwODE2MTlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1lNjJjMmJhODQ4ODVkMjIwNmI4YzhjN2ZjZWJkMjQ2YmVlOWE1NTNjODk2ODk4ODk4MjRjODMxZTEyOWY4N2M1JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.lhGaoCz1WNQ-NoIH8rwiiCFKsskkJiVY4tOjbUxVKmc)
![微信图片_20230922115038](https://private-user-images.githubusercontent.com/145737041/269860498-37735257-9540-46fc-b1a4-d4bf6a81bb0b.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkwMDI4NzksIm5iZiI6MTczOTAwMjU3OSwicGF0aCI6Ii8xNDU3MzcwNDEvMjY5ODYwNDk4LTM3NzM1MjU3LTk1NDAtNDZmYy1iMWE0LWQ0YmY2YTgxYmIwYi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjA4JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIwOFQwODE2MTlaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT01ZDRlY2NhMzA0MDZkMDM4YzA4MTc3OGNiZGRhOTQ2ZTgxZGQxNjY4NjY2OWQwZTg3Mzc3MGNiYzkyNjBhOWI1JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.AJ0r3HUrYZWHPCeeKeTz_yVLk_tkJ0dXsZ0uDHAB_tA)
eg:注释的schema是效果好一点的那一版,没注释的是效果比较差的
The text was updated successfully, but these errors were encountered: