词向量

众所周知，不管是机器学习还是深度学习本质上都是对数字的数字，Word Embedding(词嵌入)做的事情就是将单词映射到向量空间里，并用向量来表示

update 2019-5-2

> 从信息论的角度来看，就是引入了新的信息，所以能做更多的事情

> 还有TF-IDF词向量的词频+一定的权重值进行统计描述，缺点是单纯考虑词频，而忽略了词之间的位置信息和相互关系。

end

对应的词所在的位置设为1，其他为0；

例如：King, Queen, Man and Woman这句里面Queen对应的向量就是 $[0, 1, 0, 0] "> [0, 1, 0, 0]$

不足：难以发现词之间的关系，以及难以捕捉句法（结构）和语义（意思）之间的关系

基本思想是把每个词表征为 $K "> K$

举个最经典的例子：

king- man + woman = queen

实际上的处理是：从king提取了maleness的含义，加上了woman具有的femaleness的意思，最后答案就是queen.

借助表格来理解就是：

	animal	pet
dog	-0.4	0.02
lion	0.2	0.35

比如，animal那一列表示的就是左边的词与animal这个概念的相关性

功能：根据当前词预测上下文
原理分析
- 和CBOW相反，则我们要求的概率就变为 $P (C o n t e x t (w) | w) "> P (C o n t e x t (w) | w)$
- 以上面的句子为例，数据集的构成 $， (i n p u t ， o u t p u t) "> ， (i n p u t ， o u t p u t)$
损失函数
- 如果假设当前词为 $w "> w$
- 也就是： $L (θ) = \prod (- m \leq j \leq m, j \neq 0) P (w t + j | w t; θ) "> L (θ) = \prod (? m \leq j \leq m, j \neq 0) P (w t + j | w t; θ)$
- 在概率中也经常有： $J (θ) = - 1 T l o g L (θ) = - 1 T \sum t = 1 T \sum l o g (P (w t + j | w t; θ)) "> J (θ) = ? 1 T l o g L ( θ ) = ? 1 T \sum T t = 1 \sum l o g ( P ( w t + j |$
- 概率示意 $P (o | c) = e x p (u o T v c) \sum w = 1 v e x p (u w T v c) "> P (o | c) = e x p ( u T o v c ) \sum v w = 1 e x p ( u T w v c )$
  - $v c "> v c$
  - $u c "> u c$
优点
- 在数据集比较大的时候结果更准确
不足
- 词的顺序不重要，并没有考虑到中文的语法
- 一词多义：比如tie的意思有很多个，要如何聚类，可以分出tie-1，tie-2等

sklearn

相关