> 文章列表 > 《Elasticsearch实战》学习笔记

《Elasticsearch实战》学习笔记

《Elasticsearch实战》学习笔记

        1.默认情况下,计算文档相关性得分的算法是 TF-IDF(term frequency-inverse document frequency, 词频-逆文档频率)。

  • 词频——所查找的单词在文档中出现的次数越多,得分越高。
  • 逆文档词频——如果某个单词在所有文档中比较少见,那么该词的权重越高,得分也会越高。

        2.至少在Elasticsearch中,文档比数据表的行更为灵活。这主要是因为文档可以是具有层次型的 。

        3.端口 9300 默认用于节点之间的通信,称为transport。

        4.端口 9200 默认用于 HTTP 的通信。 应用程序使用 RESTAPI 时连接这个端口。

        5.逻辑设计一一搜索应用所要注意的 。 用于索引和搜索的基本单位是文挡,可以将其认为是关系数据库里的一行。文档以类型来分组,类型包含若干文档,类似表格包含若干行。 最终,一个或多个类型存在于同一索引中,索引是更大的容器,类似SQL世界中的数据库 。

        6.物理设计一一在后台 Elasticsearch是如何处理数据的。 Elasticsearch将每个索引划分为分 片, 每份分片可以在集群中的不同服务器问迁移。

        7.在 Elasticsearch 中文档有几个重要的属性 。

它是自我包含的。 一篇文档同时包含宇段(如 name )和它们的取值(如lElasticsearch Denver )。

它可以是层次型的。 文档中还包含新的文挡。

它拥有灵活的结构。文档不依赖于预先定义的模式。