2023-08-08
原文作者:Ressmix 原文地址:https://www.tpvlog.com/article/146

我们前面章节对分词的讲解全是基于英文文本的。本章,我们就来看看如何对中文短语进行分词。Elasticsearch中,最常用的中文分词器就是IK。

一、IK分词器

1.1 安装

首先,从GitHub上下载预编译好的IK包,比如,我的Elasticsearch版本是v7.6.0,我就下载7.6.0版本的IK:https://github.com/medcl/elasticsearch-analysis-ik/releases。

IK和Elasticsearch主要的版本对照如下表:

IKversion ESversion
master 7.x->master
6.x 6.x
5.x 5.x

然后解压缩放置到YOUR_ES_ROOT/plugins/ik/目录下,最后,重启Elasticsearch即可。

1.2 基本使用

IK分词器有两种analyzer: ik_max_wordik_smart ,但是一般是选用 ik_max_word

  • ik_max_word:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”等等,会穷尽各种可能的组合。
  • ik_smart:只做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

我们可以看下用IK分词器的分词效果,先将改变指定字段的mapping:

    PUT /my_index 
    {
      "mappings": {
          "properties": {
            "text": {
              "type": "text",
              "analyzer": "ik_max_word"
            }
          }
      }
    }

然后看下分词效果:

    GET /my_index/_analyze
    {
      "text": "美专家称疫情在美国还未达到顶峰",
      "analyzer": "ik_max_word"
    }

1.3 配置文件

IK的配置文件存在于YOUR_ES_ROOT/plugins/ik/config目录下,我们可以看下这个目录下的各个文件的作用:

  • main.dic: IK原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起;
  • quantifier.dic: 放了一些单位相关的词;
  • suffix.dic: 放了一些后缀;
  • surname.dic: 中国的姓氏;
  • stopword.dic: 英文停用词。

如果我们希望自定义词库,比如加入一些当下的流行词,就可以修改IKAnalyzer.cfg.xmlext_dict,配置我们扩展的词库,然后重启ES就可以生效了。

二、热更新词库

上一节中,如果我们希望自定义词库,每次都必须修改配置文件然后重启Elasticsearch,这种做法只适合测试环境。如果在生产环境,我们希望热更新词库,比如基于MySQL中的热点数据来更新词库,那该怎么做呢?

目前有两种方案,业界一般采用第一种:

  1. 修改IK分词器源码,然后每隔一定时间,自动从MySQL中加载新的词库;
  2. 基于IK分词器原生支持的热更新方案:部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新。

修改IK的源码,网上有很多现有示例,我这边就不再赘述了。

三、总结

本章,我介绍了IK中文分词器的安装及基本使用,生产环境中,我们一般会修改IK的源码,使它支持热更新词库。

阅读全文