1.ElasticSearch对比Solr？

2.ElasticSearch插入百万级的数据怎么做？

思路1：索引层面。 8亿条分散到多个索引、多个副本当中
思路2：Mapping映射设计层面。举例，设计高效检索Number类型建议改成keyword
思路3：检索DSL优化层面注意：能使用filter过滤检索的就不要使用query
思路4：返回字段层面，有没有检索的使用source:限定返回的字段，如果没有，会全字段返回，数据量大的话，也会慢。
思路5：DSL 调试调试方法：DSL执行语句中加上profile:true . 或者借助：xpack可视化插件排查。这样，会打印出对应查询的细节花费时间，让你明明白白知道那里慢了。
思路6：日志查询查询的时候，查询ES日志，看看有没有大量的gc。看看有没有错误日志，错误日志的处理就是优化的方向。
思路7：借助cerebro或者xpack mointer监视集群状态看一看，集群堆内存、cpu、负载的使用情况。
思路8：外部思维想一想，查询的时候，有没有并行的写入操作？那么查询的时候慢，是不是写入压力大队集群造成的影响。
思路9：排除网络慢的原因内网查询还是外网映射查询，返回时间也不一样。
思路10：其他问题结合业务场景进行分析，自己的业务代码逻辑的问题。一定要转成DSL进行最小化定位。

数据库的索引是B+tree结构；ES基于的是倒排索引。
ES可以处理分词后的全文搜索，对于mysql关系型数据库而言完全是灾难。比如查询包含关键字mysql的like "%word%" mysql全表查，es只需要查"word"这个词包含的文档id 速度明显不是一个级别。
ES可以处理海量数据的搜索
搜索方面，ES提供了更加丰富的功能。

默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个复制。假如集群中有两个节点，你的索引将会有5个主分片和另外5个复制分片（1个完全拷贝），这样的话每个索引总共就有10个分片。
分片可以预防索引过大，存不下。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任一节点都没有这样大的磁盘空间；
分片在多个节点上进行分布式的、并行的操作，进而提高性能/吞吐量。
副本在分片/节点失败的情况下，提供了高可用性。
副本可以扩展你的搜索量/吞吐量，因为搜索可以在所有的复制上并行运行
复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。

es基于restful构建查询，传递json参数就可以操作es。
DSL 其实是 Domain Specific Language 的缩写，中文翻译为领域特定语言（下简称 DSL），es通过DSL语言对传递的JSON的具体格式和内容做了限定。
那es的dsl，就是传递符合限定的json字符串。
json的组合构成了具体的功能:
- 索引操作
- 映射操作
- 文档操作
- 查询操作
- 过滤操作
- 聚合操作
- 分页、高亮
常见的查询有：
- match、match_phrase、query_string、multi_match等。
常见的过滤有：
- term、range、exists、wildcard、prefix、fuzzy等
学习es的功能，就是学习es可以传递哪些格式的json字符串。
es6.3版本后支持sql，缩减了dsl的学习成本

发表时间：2024-07-14 12:07