语音转意图

整体架构

关于NLU部分结构图解数据流程如图模型整个图中括号内的数字表示tensor的shape

如何运行

环境：
Windows==10
Anaconda==4.10.1
python==3.6

安装库

安装pytorch:

查看自己的cuda版本, 命令: nvcc -V
我的是cuda 11

选择自己的情况后, 在pytorch官网查看安装命令
比如我的情况: Stable(1.8.1)+Windows10+pip...+CUDA11 (推荐使用pip安装 conda似乎有问题)

安装其他库

见根目录下的requirements.txt文件可以一个一个单独安装, 但版本尽量不要差异太大, 某些库不同版本模型的位置不同
更推荐使用命令(在根目录下)

pip3 install -r requirements.txt

语音识别(asr)注册

需要去别的平台注册, 注册后的信息放在"./asr/asrConfig.yml"中一个例子大概如下:

APPID: "xxx"
SECRET_ID: "xxx"
SECRET_KEY: "xxx"
ENGINE_MODEL_TYPE: "xxx"
SLICE_SIZE: 111

不想要asr

可以直接运行根目录下的test_nlu.py, 输入命令后测试

命令行参数

--do_load
load之前训练的模型，一般存在根目录下*_model文件中, 默认False
--do_valid
是否用数据集下的valid数据集验证结果，一般可以用来预判一下模型是否正常(acc>0.9一般就没啥问题), 默认False
--device
模型是在cpu或者哪块gpu上运行，比如 --device cuda:1 则是在1号GPU运行, 默认"cuda 0"

Replay

把需要重放的文件放在"./replay"文件夹下，运行replay.py，命令行参数的普通运行的命令行参数一样

结果说明

asr result: 语音转文字的识别结果
jieba cut: 使用jieba分词后的结果
predict intent: 预测的意图
predict slot: 预测的实体，和分词的顺序对应，表示每个词属于哪一类

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
asr		asr
data		data
gui		gui
model		model
network		network
preprocess		preprocess
.gitignore		.gitignore
AudioProcessor.py		AudioProcessor.py
README.md		README.md
architecture.vsdx		architecture.vsdx
main.py		main.py
replay.py		replay.py
requirements.txt		requirements.txt
test_nlu.py		test_nlu.py
trainer.py		trainer.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

语音转意图

整体架构

如何运行

安装库

安装pytorch:

安装其他库

语音识别(asr)注册

不想要asr

命令行参数

Replay

结果说明

About

Releases

Packages

Languages

fkjslee/Audio_to_Intent

Folders and files

Latest commit

History

Repository files navigation

语音转意图

整体架构

如何运行

安装库

安装pytorch:

安装其他库

语音识别(asr)注册

不想要asr

命令行参数

Replay

结果说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages