Word2vec 的未来发展
作者:Tomas Mikolov
源地址:http://www.machinelearning.ru/wiki/images/d/db/MikolovWord2vecSlides.pdf
下一步工作
- 各种对 word2vec 的诠释
- 分布式稀疏表示
- 形态特征
- 处理一词多义现象
- 句子与文档的表示
Word2vec 与分布式语义
- Word2vec 与之前的 (非神经网络的) 方法密切相关
- 比较上下文计数与上下文预测语义矢量 (Baroni et al, 2014)
- 平均而言 word2vec 比分布式语义技术更好并且更强壮
- 作为隐式矩阵分解 (Levy & Goldberg 2014)
- Golve: Global Vetors for Word Representation (Pennington et al. 2014)
- Word2vec 使用的技巧可以被用于传统的分布式语义技术
若干争议
- Golve
- Socher: “Glove 11% better on word analogies than word2vec!!!”
- Goldberg: “at least train the models on the same data …”
- Glove 表现不如 word2vec, 并且后者速度更快,且内存消耗小得多;Levy (2005)
分布式稀疏表示
- Word2vec: 把 1-of-N 表示变成 D 维连续矢量
- 连续矢量可被转换回稀疏表示,构成 M-of-N 编码:适用于速度要求高的应用
- 可通过随机投影 + 量化或者 max() 函数实现
- 细节在 word2vec 论坛里
形态特征
- 许多作者讨论过
- 往输入/输出层添加更多特征来表达词语结构
- 对结构丰富的语言很有用
- 有助于构造训练中未见过的单词的表示
一词多义
Word2vec 论坛提到的一些想法
- 学习 word2vec 矢量
- 对每个词库中的单词,通过搜集其近邻单词矢量来获得其统计特征
- 对每个词库中的单词进行 k-means 聚类
- 用 k-means 的聚类中心和每个单词的上下文矢量来标注训练集
- 训练多义 word2vec 模型
句子、段落,以及文档的表示
- 基于 RNN 的方法
- Sequence to sequence learning (Stutskever et al. 2014)
- Skip-throught vectors (Kiros et al. 2015)
- 这些方法是否给出比加权 bag-of-ngrams 方法好的句子表示?经常不清楚
- RNN 真的需要吗?能否通过更简单和更快的方法获得更好的表示?这是未来研究的内容。