Skip to content

Commit

Permalink
deploy: ad469e2
Browse files Browse the repository at this point in the history
  • Loading branch information
Joker1212 committed Sep 30, 2024
1 parent 1f59143 commit e77acba
Show file tree
Hide file tree
Showing 16 changed files with 80 additions and 60 deletions.
4 changes: 2 additions & 2 deletions docs/blog/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -771,8 +771,8 @@ <h1 class="content-title mb-0">
id: 8 ,
href: "\/TableStructureRec\/docs\/blog\/table_rec_evaluate\/",
title: "三个表格识别算法评测",
description: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.",
content: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.get(\"image:FILE\") gt = one_data.get(\"label\") pred_str, _ = table_engine(img_path) scores = teds(gt, pred_str) content.append(scores) print(f\"{img_path}\\t{scores:.5f}\") avg = sum(content) / len(content) print(f'{avg:.5f}') "
description: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS TEDS-only-structure deepdoctection(rag-flow) 0.59975 0.69918 ppstructure_table_master 0.61606 0.73892 ppsturcture_table_engine 0.67924 0.78653 table_cls + wired_table_rec v1 + lineless_table_rec 0.68507 0.75140 StructEqTable 0.67310 0.81210 RapidTable 0.71654 0.81067 table_cls + wired_table_rec v2 + lineless_table_rec 0.73702 0.80210 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3.",
content: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS TEDS-only-structure deepdoctection(rag-flow) 0.59975 0.69918 ppstructure_table_master 0.61606 0.73892 ppsturcture_table_engine 0.67924 0.78653 table_cls + wired_table_rec v1 + lineless_table_rec 0.68507 0.75140 StructEqTable 0.67310 0.81210 RapidTable 0.71654 0.81067 table_cls + wired_table_rec v2 + lineless_table_rec 0.73702 0.80210 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.get(\"image:FILE\") gt = one_data.get(\"label\") pred_str, _ = table_engine(img_path) scores = teds(gt, pred_str) content.append(scores) print(f\"{img_path}\\t{scores:.5f}\") avg = sum(content) / len(content) print(f'{avg:.5f}') "
}
);
index.add(
Expand Down
3 changes: 1 addition & 2 deletions docs/blog/index.xml
Original file line number Diff line number Diff line change
Expand Up @@ -49,8 +49,7 @@
RapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。
lineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。
wired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。
指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist
from modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.</description>
指标结果 link 方法 TEDS TEDS-only-structure deepdoctection(rag-flow) 0.59975 0.69918 ppstructure_table_master 0.61606 0.73892 ppsturcture_table_engine 0.67924 0.78653 table_cls + wired_table_rec v1 + lineless_table_rec 0.68507 0.75140 StructEqTable 0.67310 0.81210 RapidTable 0.71654 0.81067 table_cls + wired_table_rec v2 + lineless_table_rec 0.73702 0.80210 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3.</description>
</item>

</channel>
Expand Down
4 changes: 2 additions & 2 deletions docs/blog/lineless_table_rec/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -854,8 +854,8 @@ <h3 id="参考资料">参考资料 <a href="#%e5%8f%82%e8%80%83%e8%b5%84%e6%96%9
id: 8 ,
href: "\/TableStructureRec\/docs\/blog\/table_rec_evaluate\/",
title: "三个表格识别算法评测",
description: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.",
content: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.get(\"image:FILE\") gt = one_data.get(\"label\") pred_str, _ = table_engine(img_path) scores = teds(gt, pred_str) content.append(scores) print(f\"{img_path}\\t{scores:.5f}\") avg = sum(content) / len(content) print(f'{avg:.5f}') "
description: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS TEDS-only-structure deepdoctection(rag-flow) 0.59975 0.69918 ppstructure_table_master 0.61606 0.73892 ppsturcture_table_engine 0.67924 0.78653 table_cls + wired_table_rec v1 + lineless_table_rec 0.68507 0.75140 StructEqTable 0.67310 0.81210 RapidTable 0.71654 0.81067 table_cls + wired_table_rec v2 + lineless_table_rec 0.73702 0.80210 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3.",
content: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型。\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS TEDS-only-structure deepdoctection(rag-flow) 0.59975 0.69918 ppstructure_table_master 0.61606 0.73892 ppsturcture_table_engine 0.67924 0.78653 table_cls + wired_table_rec v1 + lineless_table_rec 0.68507 0.75140 StructEqTable 0.67310 0.81210 RapidTable 0.71654 0.81067 table_cls + wired_table_rec v2 + lineless_table_rec 0.73702 0.80210 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.get(\"image:FILE\") gt = one_data.get(\"label\") pred_str, _ = table_engine(img_path) scores = teds(gt, pred_str) content.append(scores) print(f\"{img_path}\\t{scores:.5f}\") avg = sum(content) / len(content) print(f'{avg:.5f}') "
}
);
index.add(
Expand Down
Loading

0 comments on commit e77acba

Please sign in to comment.