GitHub - ZihanJin/Chinese_Polyphone_Disambiguation: 论文复现，使用pos标记进行中文多音字消歧

中文多音字消歧——利用POS标记，论文复现

Baseline地址：

https://github.com/hjzin/PolyphoneDisambiguation.git

原论文：

A BLSTM Approach for Polyphone Disambiguation in Mandarin Chinese

模型流程

文件说明：

data：语料数据集。

注：数据集保密，只给出样例

metadata_txt_pinyin.csv：带有句子全部注音的，并且进行了儿化音连读和变调处理
offconti.csv：取消儿化音连读的数据，使得每一个汉字都有一个发音
addcorpus.txt：增加的语料库，只标记了句子中多音字的发音
addcorpus.csv：格式化之后的数据
polychar.txt：自定义的多音字库

myprocess：数据处理脚本

commonfun.py：常用的自定义函数集，具体说明请看脚本内注释
dictionary.py：加载多音字字典的类
offconti.py：用于处理metadata_txt_pinyin.csv，取消儿化音连读的脚本，并且导出成新的文件offcontidata.csv
add.py：用于处理addcorpus.txt，处理成与offcontidata.csv一样格式的脚本，并且导出成新的文件addcorpus.csv
pos.py：加载offcontidata.csv和addcorpus.csv，制作pos标记的三元组，生成训练验证测试文件

DataProcessing

configure.py：配置文件
num_of_polyphone.py：统计多音字
preprocessing.py：制作mini batch

main：

disambiguation.py：BLSTM训练主程序
pre.py：单条数据的前向预测脚本，可以单独直接运行
param.pkl：模型文件

训练自己的模型运行顺序：

step 1. 添加对应格式的语料到metadata_txt_pinyin.csv或者addcorpus.txt中 step 2. 运行add.py和offconti.py step 3. 运行disambiguation.py

用已经训练好的模型跑单条数据的预测结果

main文件夹下的param.pkl是我已经训练好的模型，想要直接测试模型，请打开pre.py脚本，修改一下想要测试的多音字，直接运行pre.py即可，注意，格式必须是 pos + 多音字_pos + pos

注意

如果有任何错误，请修改DataProcessing下的配置文件

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
DataProcessing		DataProcessing
data		data
main		main
myprocess		myprocess
A_BLSTM_Approach_for_Polyphone_Disambiguation_in_Mandarin_Chinese.pdf		A_BLSTM_Approach_for_Polyphone_Disambiguation_in_Mandarin_Chinese.pdf
Readme.md		Readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

中文多音字消歧——利用POS标记，论文复现

Baseline地址：

原论文：

模型流程

文件说明：

data：语料数据集。

myprocess：数据处理脚本

DataProcessing

main：

训练自己的模型运行顺序：

用已经训练好的模型跑单条数据的预测结果

注意

About

Releases

Packages

Languages

ZihanJin/Chinese_Polyphone_Disambiguation

Folders and files

Latest commit

History

Repository files navigation

中文多音字消歧——利用POS标记，论文复现

Baseline地址：

原论文：

模型流程

文件说明：

data：语料数据集。

myprocess：数据处理脚本

DataProcessing

main：

训练自己的模型运行顺序：

用已经训练好的模型跑单条数据的预测结果

注意

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages