cs224n-9.子词模型

语音学中将语音看作连续不断变化的声音流，音韵学将语音划分为不同的单位-音位（phoneme），同一个词的读法中音位的不同，对于不同群体理解可能有不同的含义。但是由于发音对于文本的理解并无意义，将此思想借鉴到单词形态分析上，形成了这种（parts of word）的思想

如何对词进行拆分以更好地理解当前的单词（有点中文里的看半边猜词的味道，英文里去掉前缀后缀看词根）

当前字符级别模型主要有两个主要方向

English-Czech WMT 2015 Results

Fully Character-Level Neural Machine Translation without Explicit Segmentation

Stronger character results with depth in LSTM seq2seq model

模型较小使用word-level，较大使用character-level

源于一种字符压缩算法，将共同出现频率较高的两个压缩成字典中不存在的新字符。

为了解决NMT翻译中的问题以及英语中不同后缀含义不同，使用子词单元嵌入代替词语，利用BPE思想，每次选择词库中出现频率最高的词语对（不一定长度为2），作为新词典中的一个词，不断按照上述方式选择，直到达到词典目标大小。

google在BPE的基础上形成了两种类型的模型

bert使用了一种变种wordpiece模型

对字符卷积获得词嵌入向量

不使用卷积，使用bi-LSTM输入字符，输出词语嵌入

将两种划分方式区分开

基于character-level 和 word2vec，改善word2vec获得的词向量对于词典外词语（oov）以及词语的各种变形不适应的情况。