展开

词向量

最后发布时间 : 2023-10-27 14:25:47 浏览量 :

zotero://select/library/items/D24QVHPU

用向量来表示词,最为常见的词表示方式是 One-hot Representation,其向量维度为整个语料库中词的总数,每一维代表语料 库中的一个词。

假设原始语料库经过分词处理之后是

“用中医药对阴虚火旺型心悸病进行诊断与治疗”
“笔者用小承气汤治疗多种病症,每获良效,举例如下” 
“虽然随军医生用了很多方法,但都不能治愈”

那么此语料库的词集为:

{用,中医药,对,阴虚火旺型,心悸病, 进行,诊断,与,治疗,笔者,小承气汤,多种,病症,每,获,良效, 举例,如下,虽然,随军,医生,用了,很多,方法,但,都,不能,治 愈},

其对应的“One-hot Representation”表达方式为:

[1000000000000000000000000000] ->用 
[0100000000000000000000000000] ->中医药 
[0010000000000000000000000000] ->对 
[0001000000000000000000000000] ->阴虚火旺型 
[0000100000000000000000000000] ->心悸病 
[0000010000000000000000000000] ->进行 
[0000001000000000000000000000] ->诊断 
[0000000100000000000000000000] ->与
[0000000010000000000000000000] ->治疗
[0000000001000000000000000000] ->笔者 
[0000000000100000000000000000] ->小承气汤 
[0000000000010000000000000000] ->多种 
[0000000000001000000000000000] ->病症 
[0000000000000100000000000000] ->每 
[0000000000000010000000000000] ->获
[0000000000000001000000000000] ->良效
[0000000000000000100000000000] ->举例
[0000000000000000010000000000] ->如下
[0000000000000000001000000000] ->虽然
[0000000000000000000100000000] ->随军
[0000000000000000000010000000] ->医生 
[0000000000000000000001000000] ->用了 
[0000000000000000000000100000] ->很多
[0000000000000000000000010000] ->方法 
[0000000000000000000000001000] ->但 
[0000000000000000000000000100] ->都
[0000000000000000000000000010] ->不能 
[0000000000000000000000000001] ->治愈

“One-hot Representation”表达方式会造成两个大问题:(1)维 度灾难;(2)“语义鸿沟”现象:只能表达词本身是否出现,而无法表 达词与词之间的关系。如上述例子中,“治疗”与“治愈”两个词,语义 之间的关系将无法体现。