作者:杨夕
项目地址:https://github.com/km1994/NLP-Interview-Notes
个人论文读书笔记:https://github.com/km1994/nlp_paper_study
【注:手机阅读可能图片打不开!!!】
由于计算机无法识别 文本语言,所以需要将文本数字化,one-hot 方法最早的一种将 文本数字化的方法。
用一个很长的向量来表示一个词,向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。
- 维度长:向量的维度为 词典大小;
- 一一其零:每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置;
- 维度灾难:容易受维数灾难的困扰,每个词语的维度就是语料库字典的长度;
- 离散、稀疏问题:因为 one-Hot 中,句子向量,如果词出现则为1,没出现则为0,但是由于维度远大于句子长度,所以句子中的1远小于0的个数;
- 维度鸿沟问题:词语的编码往往是随机的,导致不能很好地刻画词与词之间的相似性。
TF-IDF 是一种统计方法,用以评估句子中的某一个词(字)对于整个文档的重要程度。
- 对于 句子中的某一个词(字)随着其在整个句子中的出现次数的增加,其重要性也随着增加;(正比关系)【体现词在句子中频繁性】
- 对于 句子中的某一个词(字)随着其在整个文档中的出现频率的增加,其重要性也随着减少;(反比关系)【体现词在文档中的唯一性】
如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;
- 词频 (Term Frequency,TF)
- 介绍:体现 词 在 句子 中出现的频率;
- 问题:
- 当一个句子长度的增加,句子中 每一个 出现的次数 也会随之增加,导致该值容易偏向长句子;
- 解决方法:
- 需要做归一化(词频除以句子总字数)
- 公式
- 逆文本频率(Inverse Document Frequency,IDF)
- 介绍:体现 词 在文档 中出现的频率
- 方式:某一特定词语的IDF,可以由总句子数目除以包含该词语的句子的数目,再将得到的商取对数得到;
- 作用:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力
- 公式:
某一特定句子内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
- 容易理解;
- 容易实现;
其简单结构并没有考虑词语的语义信息,无法处理一词多义与一义多词的情况。
- 搜索引擎;
- 关键词提取;
- 文本相似性;
- 文本摘要