我们前面章节对分词的讲解全是基于英文文本的。本章,我们就来看看如何对中文短语进行分词。Elasticsearch中,最常用的中文分词器就是IK。
一、IK分词器
1.1 安装
首先,从GitHub上下载预编译好的IK包,比如,我的Elasticsearch版本是v7.6.0,我就下载7.6.0版本的IK:https://github.com/medcl/elasticsearch-analysis-ik/releases。
IK和Elasticsearch主要的版本对照如下表:
IKversion | ESversion |
---|---|
master | 7.x->master |
6.x | 6.x |
5.x | 5.x |
然后解压缩放置到YOUR_ES_ROOT/plugins/ik/
目录下,最后,重启Elasticsearch即可。
1.2 基本使用
IK分词器有两种analyzer: ik_max_word 、 ik_smart ,但是一般是选用 ik_max_word 。
- ik_max_word:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”等等,会穷尽各种可能的组合。
- ik_smart:只做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。
我们可以看下用IK分词器的分词效果,先将改变指定字段的mapping:
PUT /my_index
{
"mappings": {
"properties": {
"text": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
}
然后看下分词效果:
GET /my_index/_analyze
{
"text": "美专家称疫情在美国还未达到顶峰",
"analyzer": "ik_max_word"
}
1.3 配置文件
IK的配置文件存在于YOUR_ES_ROOT/plugins/ik/config
目录下,我们可以看下这个目录下的各个文件的作用:
- main.dic: IK原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起;
- quantifier.dic: 放了一些单位相关的词;
- suffix.dic: 放了一些后缀;
- surname.dic: 中国的姓氏;
- stopword.dic: 英文停用词。
如果我们希望自定义词库,比如加入一些当下的流行词,就可以修改IKAnalyzer.cfg.xml
的ext_dict
,配置我们扩展的词库,然后重启ES就可以生效了。
二、热更新词库
上一节中,如果我们希望自定义词库,每次都必须修改配置文件然后重启Elasticsearch,这种做法只适合测试环境。如果在生产环境,我们希望热更新词库,比如基于MySQL中的热点数据来更新词库,那该怎么做呢?
目前有两种方案,业界一般采用第一种:
- 修改IK分词器源码,然后每隔一定时间,自动从MySQL中加载新的词库;
- 基于IK分词器原生支持的热更新方案:部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新。
修改IK的源码,网上有很多现有示例,我这边就不再赘述了。
三、总结
本章,我介绍了IK中文分词器的安装及基本使用,生产环境中,我们一般会修改IK的源码,使它支持热更新词库。