> 文章列表 > ElasticSearch第九讲 ES 分词器与安装使用分析器

ElasticSearch第九讲 ES 分词器与安装使用分析器

ElasticSearch第九讲 ES 分词器与安装使用分析器

什么是 Analysis

顾名思义,文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在 ES 中,Analysis 是通过分词器(Analyzer) 来实现的,可使用 ES 内置的分析器或者按需定制化分析器。

举一个分词简单的例子:比如你输入 Mastering Elasticsearch,会自动帮你分成两个单词,一个是 mastering,另一个是 elasticsearch,可以看出单词也被转化成了小写的。

关于ES的一些分析器以及过程可以参考我的这篇博客:ElasticSearch第十讲 ES的核心概念以及什么是倒排索引和分析器

分词器

分词器是专门处理分词的组件,分词器由以下三部分组成:

  • Character Filters:针对原始文本处理,比如去除 html 标签
  • Tokenizer:按照规则切分为单词,比如按照空格切分
  • Token Filters:将切分的单词进行加工,比如大写转小写,删除 stopwords,增加同义语
    同时 Analyzer 三个部分也是有顺序的,依次经过 Character Filters,Tokenizer 以及 Token Filters,这个顺序比较好理解,一个文本进来肯定要先对文本数据进行处理,再去分词,最后对分词的结果进行过滤。

其中,ES 内