通用技术 Elasticsearch 查询及聚合类 DSL 语句宝典

京东云开发者 · 2022年12月27日 · 5642 次阅读

作者：京东科技纪海雨

前言
随着使用 es 场景的增多，工作当中避免不了去使用 es 进行数据的存储，在数据存储到 es 当中以后就需要使用 DSL 语句进行数据的查询、聚合等操作，DSL 对 SE 的意义就像 SQL 对 MySQL 一样，学会如何编写查询语句决定了后期是否能完全驾驭 ES，所以至关重要，本专题主要是分享常用的 DSL 语句，拿来即用。

一、match
如果 match 查询数字，日期，布尔值或者 not_analyzed 的字符串时，会精确匹配搜索值，不做分词解析；如果 match 查询全文本，会对查询词做分词解析，然后搜索。

比如对 keyword 类型的 tag 查询，"京东总部"不会分词，必须完全相等的词才会被搜索出来

{a
"query": {
"match": {
"content" : {
"tag" : "京东总部"
}
}
}
}
比如"宝马多少马力"会被分词为"宝马多少马力", 所有有关"宝马多少马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。并且根据 lucene 的评分机制 (TF/IDF) 来进行评分

{
"query": {
"match": {
"content" : {
"query" : "宝马多少马力"
}
}
}
}
二、match_phrase
如果想要精确匹配所有同时包含"宝马多少马力"的文档，就要使用 match_phrase 了

{
"query": {
"match_phrase": {
"content" : {
"query" : "宝马多少马力"
}
}
}
}
三、mult_match
如果我们希望两个字段进行匹配，其中一个字段有这个文档就满足的话，使用 multi_match

{
"query": {
"multi_match": {
"query" : "我的宝马多少马力",
"fields" : ["title", "content"]
}
}
}
四、term
关键字精确匹配，不分词解析。注意 term 包含（contains）操作，而非等值（equals）判断。如果文档包含 full_text 及其他词，也会命中返回。

使用 term 要确定的是这个字段是否 “被分析”(analyzed)，默认的字符串是被分析的。

比如下面的例子，其中的 full_text 是被分析过的，所以 full_text 的索引中存的就是 [quick, foxes]，而 extra_value 中存的是 [Quick Foxes!]

PUT my_index
{
"mappings": {
"my_type": {
"properties": {
"full_text": {
"type": "string"
},
"exact_value": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
}

PUT my_index/my_type/1
{
"full_text": "Quick Foxes!",
"exact_value": "Quick Foxes!"

}
请求不出数据的，因为 full_text 分词后的结果中没有 [Quick Foxes!] 这个分词

GET my_index/my_type/_search
{
"query": {
"term": {
"full_text": "Quick Foxes!"
}
}
}
五、terms
指定多值精确匹配，如果字段包含了指定值中的任何一个值，那么文档满足条件。类似 sql 中的 in

{
"terms": {
"tag": [
"search",
"full_text",
"nosql"
]
}
}
六、range
数字/时间的区间查询，操作符：

•gt > greater than

•gte >=

•lt < litter than

•lte <=

{
"query":{
"range": {
"age": {
"gte": 20,
"lt": 30
}
}
}
}
七、wildcard
通配符索引。* 表示全匹配，？表示单一匹配。扫描所有倒排索引，性能较差

{
"query": {
"wildcard": {
"companyName": "京东"
}
}
}
八、regexp
正则索引。扫描所有倒排索引，性能较差

{
"query": {
"regexp": {
"postcode": "W[0-9].+"
}
}
}
九、组合多查询（bool 查询）
bool 查询后面可以跟这四种匹配模式

•must 必须匹配

•must_not 必须不匹配

•should 匹配任意，等价 or

•filter 必须匹配：过滤模式

比如我们想要请求"content 中带宝马，但是 tag 中不带宝马"这样类似的需求，就需要用到 bool 联合查询。

{
"query":{
"bool":{
"must":{
"term":{
"content":"宝马"
}
},
"must_not":{
"term":{
"tags":"宝马"
}
}
}
}
}
十、聚合
聚合包含一下两种：

1、指标聚合（Metric Aggregation）：一些数学运算，可以对文档字段进行统计分析

•输出一个值

▪min

▪max

▪sum

▪avg

▪ value_count 统计某字段有值的文档数

▪ cardinality 某字段值去重计数

•输出多个值

▪stats

▪percentiles

▪percentile_ranks

2、桶聚合（Bucket Aggregation）：一些列满足特定条件的文档的集合，相当于 sql 的 groupby

•terms 对某个字段统计每个不同的内容，以及出现文档的个数

•range 某个范围内文档的个数

默认聚合范围是全文，但是如果有 query 查询，那么聚合的范围就是 query 查询的结果。

value_count 统计某字段有值的文档数

{
"size": 0,
"aggs": {
"count": {
"value_count": {
"field": "companyName"
}
}
}
}
指定查询语句进行统计

{
"query": {
"term": {
"companyName": "安徽科达智慧能源科技有限公司"
}
},
"aggs": {
"count": { //自定义名称
"terms": {
"field": "companyName"
}
}
}
}

以上就是本期分享的 DSL 语句，小伙伴们结合自己的使用查询场景进行操练起来吧。

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。