diff --git a/guide-clean.html b/guide-clean.html index d4ee81f..4e9818b 100644 --- a/guide-clean.html +++ b/guide-clean.html @@ -3,7 +3,7 @@ -SpaCE2022评测数据清洗工作指南_0330 V3 +SpaCE2022评测数据清洗工作指南_0330V2
-

SpaCE2022中文空间语义理解评测数据清洗工作指南

欢迎大家参与本次数据清洗工作!

任务简介

语料来源

选项说明

标注工具使用说明


任务简介

1. SpaCE2022课题组通过计算机程序收集了大量自然文本语料,用途是进行句子空间方位语义理解研究。

2. 收集到的自然文本语料已经过计算机程序自动分词和词性标注处理,并对方位词趋向动词处所词名词进行了高亮。

3. 通过上述途径得到的语料存在5类问题,需要人工进行逐句审核,找出问题,即所谓的语料数据清洗。清洗工作的目的是对每个句段中的问题进行标识,有的还需要修改。下表概括了句段中存在问题的范围、对问题的具体描述,标注时对应的选项,以及具体的标注方式。

问题范围/焦点问题描述标注时对应的选项标注方式
整段无空间方位义、复杂难懂、句段不完整该段落不表达空间方位义/复杂难懂/不完整不做其他标识,仅归类
整段字、词、符号错误该段落存在错别字以及符号错误标识+归类+修改
方位词并不表达空间方位义红色词(方位词)不表达空间方位义标识+归类
趋向动词并不表达空间方位义橙色词(趋向动词)不是表达空间方位义的趋向动词标识+归类
句段中高亮的方位词、趋向动词、处所词、名词实际上并不是正确的方位词、趋向动词、处所词、名词高亮词存在分词错误标识+归类
    

 

语料来源

选项说明

【该段落是正常的含有空间方位义的文本】

注意事项

标注工具使用说明

+

SpaCE2022中文空间语义理解评测数据清洗工作指南

欢迎大家参与本次数据清洗工作!

任务简介

语料来源

选项说明

标注工具使用说明


任务简介

1. SpaCE2022课题组通过计算机程序收集了大量自然文本语料,用途是进行句子空间方位语义理解研究。

2. 收集到的自然文本语料已经过计算机程序自动分词和词性标注处理,并对方位词趋向动词处所词名词进行了高亮显示。

3. 通过上述途径得到的语料存在5类问题,需要人工进行逐句审核,找出问题,即所谓的语料数据清洗。清洗工作的目的是对每个句段中的问题进行标识,有的还需要修改。下表概括了句段中存在问题的范围、对问题的具体描述,标注时对应的选项,以及具体的标注方式(其中“归类”通过点选按钮完成,详见“选项说明”部分)。

问题范围/焦点问题描述标注时对应的选项(按钮)标注方式
整段无空间方位义、复杂难懂、句段不完整该段落不表达空间方位义/复杂难懂/不完整归类
整段字、词、符号错误该段落存在错别字以及符号错误标识+归类+修改
方位词并不表达空间方位义红色词(方位词)不表达空间方位义标识+归类
趋向动词并不表达空间方位义橙色词(趋向动词)不是表达空间方位义的趋向动词标识+归类
句段中高亮的方位词、趋向动词、处所词、名词实际上并不是正确的方位词、趋向动词、处所词、名词高亮词存在分词错误标识+归类

 

语料来源

选项说明

【该段落是正常的含有空间方位义的文本】

注意事项

标注工具使用说明