论文浅尝 | 动态词嵌入进行语义演化的发现

 

Citation:Zijun Yao, Yifan Sun, Weicong Ding, Nikhil Rao, and Hui Xiong.2018. Dynamic Word Embeddings for Evolving Semantic Discovery. In WSDM 2018:The Eleventh ACM International Conference on Web Search and Data Mining,February 5–9, 2018, Marina Del Rey, CA, USA. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3159652.3159703

动机

词语的演化伴随着意思和相关词汇的改变,是语言演化的副产品。通过学习词语的演化,能够推测社会趋势和人类历史中不同时期的语言结构,传统的词语表示技术并不能够捕获语言结构和词汇信息。本文提出了动态统计模型,能够学习到具有时间感知的词向量,同时解决了相邻时间片段中词向量的“对齐”,实现了用来进行语义发现的动态词向量模型。

贡献

  1. 本文的动态词向量模型可以看作传统“静态”词向量方法(如:word2vec)的提升。
  2. 本文通过在所有时间片段上并行的学习临时词向量,实现词向量的联合学习,然后通过正则化项平滑词向量的变化,解决了对准问题。实验结果表明,本文通过正则化项实现对准的方法优于传统动态词向量中分步进行训练和对准的方法。
  3. 本文利用块坐标下降方法来解决所有时间序列上词向量联合学习造成的计算问题。
  4. 本文的方法在不同的时间片段中,共享了大多数词的信息。这使得本文的方法针对数据稀疏问题,具有健壮性,使得能够处理一些时间片段中的罕见词汇。

模型

本文为不同的时间范围学习到了不同的向量表示,并通过距离的定义,选出和一个词相似的“邻居”。为不同的时间周期训练不同的词向量,一个关键问题,就是不同时间中的词向量如何对准;通常来说训练词向量的 cost function 具有旋转不变性,这样在不同时间对同一个词学习到的向量可能不在相同的潜在空间中,这使得为不同时间片段训练词向量时,词的位置可能变的杂乱无章,无法和上一个时间段的词向量进行对准。本文通过对所有时间序列上的词向量进行联合学习,避免单独解决对准问题。具体的,通过在所有时间片段上并行的学习临时词向量,然后通过正则化项平滑词向量的变化,最后利用块坐标下降方法来解决时间序列上进行词向量联合学习的计算问题。

对于静态词向量的训练,本文计算了所有词汇之间的点互信息 PMI,把训练词向量中求内积的操作看作是点互信息值,那么类似于负采样这种词向量训练技巧可以看作点互信息 PMI 的低秩分解,真实数据往往非常稀疏,存在高效的低秩分解方法。通过在每一个时间片段上进行低秩分解,来为词向量引入时间参数:

 

词向量 U(t) 可以通过分解 PPMI(t,L) 得到,通过最小化连续时间片段中词向量的 L2 范数来进行对准;整合以上内容,时态词向量的计算方法通过以下目标函数的最小化来得到:

实验

本文使用的数据是从 New York Times 上抓取的 99872 篇文章。在定性分析中,apple,amazon,obama,trump 的词义变化轨迹如下所示:

实验结果中,词义的变化轨迹通过“邻居”词汇的变化给出,能够清晰的看到语义的演化过程。表明了本文的动态词向量方法能够有效的捕获词义的演化。

 

论文笔记整理:李林,东南大学硕士,研究方向为知识图谱构建及更新。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

发表评论

邮箱地址不会被公开。 必填项已用*标注