Elasticsearch基础（十七）——IK中文分词

我们前面章节对分词的讲解全是基于英文文本的。本章，我们就来看看如何对中文短语进行分词。Elasticsearch中，最常用的中文分词器就是IK。

一、IK分词器

1.1 安装

首先，从GitHub上下载预编译好的IK包，比如，我的Elasticsearch版本是v7.6.0，我就下载7.6.0版本的IK：https://github.com/medcl/elasticsearch-analysis-ik/releases。

IK和Elasticsearch主要的版本对照如下表：

IKversion	ESversion
master	7.x->master
6.x	6.x
5.x	5.x

然后解压缩放置到YOUR_ES_ROOT/plugins/ik/目录下，最后，重启Elasticsearch即可。

1.2 基本使用

IK分词器有两种analyzer： ik_max_word 、 ik_smart ，但是一般是选用 ik_max_word 。

ik_max_word：会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”等等，会穷尽各种可能的组合。
ik_smart：只做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

我们可以看下用IK分词器的分词效果，先将改变指定字段的mapping：

    PUT /my_index 
    {
      "mappings": {
          "properties": {
            "text": {
              "type": "text",
              "analyzer": "ik_max_word"
            }
          }
      }
    }

然后看下分词效果：

    GET /my_index/_analyze
    {
      "text": "美专家称疫情在美国还未达到顶峰",
      "analyzer": "ik_max_word"
    }

1.3 配置文件

IK的配置文件存在于YOUR_ES_ROOT/plugins/ik/config目录下，我们可以看下这个目录下的各个文件的作用：

main.dic： IK原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起；
quantifier.dic： 放了一些单位相关的词；
suffix.dic： 放了一些后缀；
surname.dic： 中国的姓氏；
stopword.dic： 英文停用词。

如果我们希望自定义词库，比如加入一些当下的流行词，就可以修改IKAnalyzer.cfg.xml的ext_dict，配置我们扩展的词库，然后重启ES就可以生效了。

二、热更新词库

上一节中，如果我们希望自定义词库，每次都必须修改配置文件然后重启Elasticsearch，这种做法只适合测试环境。如果在生产环境，我们希望热更新词库，比如基于MySQL中的热点数据来更新词库，那该怎么做呢？

目前有两种方案，业界一般采用第一种：

修改IK分词器源码，然后每隔一定时间，自动从MySQL中加载新的词库；
基于IK分词器原生支持的热更新方案：部署一个web服务器，提供一个http接口，通过modified和tag两个http响应头，来提供词语的热更新。

修改IK的源码，网上有很多现有示例，我这边就不再赘述了。

三、总结

本章，我介绍了IK中文分词器的安装及基本使用，生产环境中，我们一般会修改IK的源码，使它支持热更新词库。

Java 面试宝典是大明哥全力打造的 Java 精品面试题，它是一份靠谱、强大、详细、经典的 Java 后端面试宝典。它不仅仅只是一道道面试题，而是一套完整的 Java 知识体系，一套你 Java 知识点的扫盲贴。

它的内容包括：

大厂真题：Java 面试宝典里面的题目都是最近几年的高频的大厂面试真题。
原创内容：Java 面试宝典内容全部都是大明哥原创，内容全面且通俗易懂，回答部分可以直接作为面试回答内容。
持续更新：一次购买，永久有效。大明哥会持续更新 3+ 年，累计更新 1000+，宝典会不断迭代更新，保证最新、最全面。
覆盖全面：本宝典累计更新 1000+，从 Java 入门到 Java 架构的高频面试题，实现 360° 全覆盖。
不止面试：内容包含面试题解析、内容详解、知识扩展，它不仅仅只是一份面试题，更是一套完整的 Java 知识体系。
宝典详情：https://www.yuque.com/chenssy/sike-java/xvlo920axlp7sf4k
宝典总览：https://www.yuque.com/chenssy/sike-java/yogsehzntzgp4ly1
宝典进展：https://www.yuque.com/chenssy/sike-java/en9ned7loo47z5aw

目前 Java 面试宝典累计更新 400+ 道，总字数 42w+。大明哥还在持续更新中，下图是大明哥在 2024-12 月份的更新情况：

想了解详情的小伙伴，扫描下面二维码加大明哥微信【daming091】咨询

同时，大明哥也整理一套目前市面最常见的热点面试题。微信搜[大明哥聊 Java]或扫描下方二维码关注大明哥的原创公众号[大明哥聊 Java] ，回复【面试题】即可免费领取。

阅读全文