同义词挖掘(二)-同义词列表
2023-05-30 14:33:25
上一篇主要介绍了近几年同义词领域相关的两篇论文,今天着重介绍同义词在搜索场景下的方案。
杰缘:同义词挖掘方法(一)4 赞同 · 0 评论文章
1. 同义词在搜索场景下的特点
在搜索业务的场景下,搜索”同义词"的表现与学术定义上的同义词有所出入,原本同义词是指意义相同或相近的词。但是在搜索业务中会由于用户输入有误,字符打错等造成同音字,同形字等也会被视为搜索同义词。例如“暗夜行者”,用户输入可能是“谙夜行者”,“黯夜行者”等。搜索业务的同义词挖掘的核心是对非标准搜索实体的标准化过程,搜索实体应用一般在优质垂类结果的展现上。比如下图:
不过搜索系统比较复杂,整个搜索链路的流程也比较长,上述结果也可能通过纠错,或者改写的方法来进行更正。各家搜索引擎的做法也都不一样,不过个人来看,纠错可能重在单个字的读写错误,拼音相近等方面。改写的方法针对单个实体的表现比较难,主要是针对整个query的改写。同义词与纠错,改写存在不少交集,至于具体划分可能依据各家业务的理解。
2. 搜索场景下同义词挖掘方法
由于搜索业务会存在用户和网页的点击交互行为,同义词挖掘可以有效的利用用户点击的反馈结果来进行同义词的挖掘,相对于之前介绍的基于文本语料的同义词挖掘,具有天然的业务特征优势。
1)核心前提假设:
搜索场景下,对于一些含有非标准实体query的搜索,搜索引擎根据query与网页关键词倒排等相关性往往可以返回一些包含标准实体的网页title 和summary信息。例如“黯夜行者” (下图2):
因此搜索业务下的同义词挖掘,本质是基于用户搜索反馈以及包含实体query与网页结果语义特征相关性的非标准实体到标准实体的映射。
2)挖掘流程思路
(1) 方案框架图
(2) 主要步骤:
+ 基于实体词表过滤搜索query,产生同义词挖掘模板。
+ 审核过滤模板,利用网页结果包含标准实体的页面结果title,进行reduce,聚合所有展现点击过当前title的搜索query集合。
+ 从title中提取命中的标准实体名称,从query集合利用模板或者实体识别的方法,挖掘query中的候选同义词实体。
+ 通过搜索点击的共现特征,query中与title中的语义特征构建同义词对特征。
+ 标注数据训练同义词对判定模型(这里可根据历史同义词数据进行半监督或有监督的数据集扩充)
+ 产出同义词表,丰富实体词表。
这里模型方法就不具体介绍[手动狗头],依据业务理解和要求可以选用基于深度学的文本相似类的模型(ESIM,BERT)或者依据词频、共现性特征、字面量相似的统计方法模型(Xgb,GBDT)等。欢迎关注个人公众号:
以上就是关于《同义词挖掘(二)-同义词列表》的全部内容,本文网址:https://www.7ca.cn/baike/41107.shtml,如对您有帮助可以分享给好友,谢谢。
声明