Elasticsearch 的DSL查询，聚合查询与多维度数据统计

文章目录

- 搜索
- 聚合
- 高阶概念

搜索

即从一个索引下按照特定的字段或关键词搜索出符合用户预期的一个或者一堆cocument，然后根据文档的相关度得分，在返回的结果集里并根据得分对这些文档进行一定的排序。

聚合

根据业务需求，对文档中的某个或某几个字段进行数据的分组并做一些指标数据的统计分析，比如要计算一批文档中某个业务字段的总数，平均数，最大最小值等，都属于聚合的范畴。

以上两个概念后是理解下面实验的基础，如果是传统关系数据库mysql、oracle等存储的数据，也可以搜索和聚合，但是在数据聚合分析一块，毕竟不是它们的强项，而且需要在程序中做大量的处理，耗时费力，尤其是大数据量的情况下就有些力不从心了。

但在es中，由于内置了聚合统计的相关功能，只需要使用好它的语法即可达到几近实时的聚合统计，和搜索花费时间基本上没有太大差别，因此使用es很适合在数据量大的业务场景下做聚合统计与分析。

高阶概念

Buckets(桶/集合):满足特定条件的文档的集合
Metrics(指标):对桶内的文档进行统计计算(例如最小值,求和,最大值等)

在聚合统计分析中，使用很频繁的一个名词叫 aggs，它是聚合的关键词之一，下面就用实验来演示一下使用aggs进行数据聚合的多种场景。

1、实验准备数据，首先往es整合批量插入一些实验数据，这里我们以一个家电卖场的电视为背景进行模拟

设定文档中field的相关分词属性。

PUT http://192.168.56.235:9201/demo2

{
	"setting":{
		"index":{
			"number_of_shards":5,
			"number_of_replicats":1
		}
	},
	"mappings":{
		"sales":{
			"properties":{
				"price":{
					"type":"long"
				},
				"color":{
					"type":"keyword"
				},
				"brand":{
					"type":"keyword"
				},
				"sold_date":{
					"type":"date"
				}
			}
		}
	}
}

2、批量插入数据

POST http://192.168.56.235:9201/demo2/sales
		
{ "price" : 1000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-10-28" }
{ "price" : 2000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }
{ "price" : 3000, "color" : "绿色", "brand" : "小米", "sold_date" : "2017-05-18" }
{ "price" : 1500, "color" : "蓝色", "brand" : "TCL", "sold_date" : "2017-07-02" }
{ "price" : 1200, "color" : "绿色", "brand" : "TCL", "sold_date" : "2018-08-19" }
{ "price" : 2000, "color" : "红色", "brand" : "长虹", "sold_date" : "2017-11-05" }
{ "price" : 8000, "color" : "红色", "brand" : "三星", "sold_date" : "2017-01-01" }
{ "price" : 2500, "color" : "蓝色", "brand" : "小米", "sold_date" : "2018-02-12" }

在这里插入图片描述
数据准备完毕

2、按照颜色分组统计各种颜色电视的数量

查询语法如下：

GET http://192.168.56.235:9201/demo2/sales/_search
{
	"size":0,
	"aggs":{
		"group_color":{
			"terms":{
				"field":"color"
			}
		}
	}
}

查询结果如下，这里简单对其中的几个参数和结果名称做一下说明。

在查询语句中：

size:0表示聚合查询的结果不需要返回中间的文档内容，
group_color 我们自定义的分组名字，最好是见名知意的

在返回结果中：

hits:{},这部分存放的是返回结果的基本统计结果，如果上面的size制指定了不为0，文档内容则会放在这个里面
buckets：存放聚合后的统计结果详细信息，以key-value的形式展现

在这里插入图片描述
3、按照颜色分组统计各种颜色电视的数量，并在此基础上，统计出各种颜色电视的平均价格

分析：

按照color去分bucket，可以拿到每个color bucket中的数量，这个仅仅只是一个bucket操作， doc_count其实只是es的bucket操作默认执行的一个内置metric。

在一个aggs执行的bucket操作（terms），平级的json结构下，再加一个aggs，这个第二个aggs内部，同样取个名字，执行一个metric操作，avg，对之前的每个bucket中的数据的指定的field、price
field，求一个平均值

就是一个metric，就是一个对一个bucket分组操作之后，对每个bucket都要执行的一个metric，也可以理解成功嵌套聚合，在es中获取到某个指标的数据后，继续对这个指标的数据进行其他聚合分析也被叫做下钻

该需求查询语句如下：

{
	"size":0,
	"aggs":{
		"group_color":{
			"terms":{
				"field":"color"
			},
			"aggs":{
				"avg_color_price":{
					"avg":{
						"field":"price"
					}
				}
			}
		}
	}
}

返回结果如下，通过结果可以很清晰的看出来，在颜色统计分析的基础上，每一个{}里面还增加了一个指标，即自定义的计算平均值的avg_color_price，这个查询几乎是毫秒级的，基本没有延迟，如果转化为sql查询应该是这样的：

select avg(price) from tvs.sales group by color

在这里插入图片描述
4、根据颜色分组，求出每种颜色的电视价格的最大值，最小值，平均值

{
	"size":0,
	"aggs":{
		"group_by_color":{
			"terms":{
				"field":"color"
			},
			"aggs":{
				"max_price":{
					"max":{
						"field":"price"
					}
				},
				"min_price":{
					"min":{
						"field":"price"
					}
				},
				"avg_price":{
					"avg":{
						"field":"price"
					}
				}
			}
		}
	}
}

所得结果如下：

{
    "took": 4,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 7,
        "max_score": 0,
        "hits": []
    },
    "aggregations": {
        "group_by_color": {
            "doc_count_error_upper_bound": 0,
            "sum_other_doc_count": 0,
            "buckets": [
                {
                    "key": "红色",
                    "doc_count": 4,
                    "max_price": {
                        "value": 8000
                    },
                    "min_price": {
                        "value": 1000
                    },
                    "avg_price": {
                        "value": 3250
                    }
                },
                {
                    "key": "蓝色",
                    "doc_count": 2,
                    "max_price": {
                        "value": 2500
                    },
                    "min_price": {
                        "value": 1500
                    },
                    "avg_price": {
                        "value": 2000
                    }
                },
                {
                    "key": "绿色",
                    "doc_count": 1,
                    "max_price": {
                        "value": 1200
                    },
                    "min_price": {
                        "value": 1200
                    },
                    "avg_price": {
                        "value": 1200
                    }
                }
            ]
        }
    }
}

5、按照不同的价格区间对电视进行划分，并求出每个价格区间的电视的平均价格

在es中根据区间间隔划分，有一个叫做 histogram的语法可以帮助我们执行，类似于terms，也是进行bucket分组操作，接收一个field，按照这个field的值的各个范围区间，进行bucket分组操作。

“histogram”:{
	“field”: “price”,
	“interval”: 2000
},

interval：2000，划分范围，0 ~ 2000，2000 ~ 4000，4000 ~ 6000，6000 ~ 8000，8000 ~ 10000，buckets
根据price的值，比如2500，看落在哪个区间内，比如2000 ~ 4000，此时就会将这条数据放入2000 ~ 4000对应的那个bucket中
bucket划分的方法terms，将field值相同的数据划分到一个bucket中
bucket有了之后，一样的，去对每个bucket执行avg，count，sum，max，min，等各种metric操作，聚合分析

{
	"size":0,
	"aggs":{
		"interval_price":{
			"histogram":{
				"field":"price",
				"interval":2000
				},
				"aggs":{
					"revenue":{
					"avg":{
						"field":"price"
					}
				}
			}
		}
	}	
}

查询的结果如下：可以看到，按照2000一个等级将所有电视的价格划分在不同的区间了，并将每个区间的价格平均值统计了出来

{
    "took": 7,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 7,
        "max_score": 0,
        "hits": []
    },
    "aggregations": {
        "interval_price": {
            "buckets": [
                {
                    "key": 0,
                    "doc_count": 3,
                    "revenue": {
                        "value": 1233.3333333333333
                    }
                },
                {
                    "key": 2000,
                    "doc_count": 3,
                    "revenue": {
                        "value": 2166.6666666666665
                    }
                },
                {
                    "key": 4000,
                    "doc_count": 0,
                    "revenue": {
                        "value": null
                    }
                },
                {
                    "key": 6000,
                    "doc_count": 0,
                    "revenue": {
                        "value": null
                    }
                },
                {
                    "key": 8000,
                    "doc_count": 1,
                    "revenue": {
                        "value": 8000
                    }
                }
            ]
        }
    }
}

6、按照不同的时间区间对电视进行划分，并求出每个价格区间的电视的平均价格

date histogram，按照我们指定的某个date类型的日期field，以及日期interval，按照一定的日期间隔，去划分bucket，这个概念的理解和上一个有点类似，可以对照理解。

date interval = 1 month
2017-01-01~2017-01-31，就是一个bucket
2017-02-01~2017-02-28，就是一个bucket

然后会去扫描每个数据的date field，判断date落在哪个bucket中，就将其放入那个bucket
2017-01-05，就将其放入2017-01-01~2017-01-31，就是一个bucket

min_doc_count：即使某个日期interval，2017-01-01~2017-01-31中，一条数据都没有，那么这个区间也是要返回的，不然默认是会过滤掉这个区间的
extended_bounds，min，max：划分bucket的时候，会限定在这个起始日期，和截止日期内

根据上述分析我们构建查询语句

{
	"size":0,
	"aggs":{
		"sales":{
			"date_histogram":{
				"field":"sold_date",
				"interval":"month",
				"format":"yyyy-MM-dd",
				"min_doc_count":0,
				"extended_bounds":{
					"min":"2017-01-01",
					"max":"2018-12-31"
				}
			}
		}
	}
}

返回结果如下，按照月份，将指定区间内各个月份的数量做了统计
在这里插入图片描述
当然，如果我们觉得按照月份统计粒度太细，也可以根据季度对数据进行统计，只需要将month换成quarter即可，查询语法如下：

{
	"size":0,
	"aggs":{
		"sales":{
			"date_histogram":{
				"field":"sold_date",
				"interval":"quarter",
				"format":"yyyy-MM-dd",
				"min_doc_count":0,
				"extended_bounds":{
					"min":"2017-01-01",
					"max":"2018-12-31"
				}
			}
		}
	}
}

查询结果如下：
在这里插入图片描述

Elasticsearch 的DSL查询，聚合查询与多维度数据统计

文章目录

搜索

聚合

高阶概念

大数据-173 Elasticsearch 索引操作增删改查详细 JSON 操作

ElasticSearch 实现全文检索支持（PDF、TXT、Word、HTML等文件）通过 ingest-attachment 插件实现文档的检索_es全文检索word文件

Windows安装ElasticsSearch详细指南（亲测）

uniapp vuecli项目融合[小记]：将多个项目融合，打包成一个小程序/App，拆分多个H5应用

ApiError(406, ‘Content-Type header [application/vnd.elasticsearch json； compatible-with=8] is not su

JAVA实现word和pdf的数据解析(图片，表格等)转HTML存储以及海量搜索

Elasticsearch 的DSL查询，聚合查询与多维度数据统计

Elasticsearch的DSL查询，分组后排序，并查询组数量

谷粒商城实战笔记-127-全文检索-ElasticSearch-整合-测试复杂检索

谷粒商城实战笔记-128-商城业务-商品上架-sku在es中存储模型分析-关键

前端哥

C#解析JSON的常用库--Newtonsoft.Json

jsonfield 项目常见问题解决方案

【SpringMVC】_SpringMVC项目返回HTML与JSON

BugJson因为json格式问题OOM怎么办

python 解读JSON文件，一文搞懂！

Redisson同时使用jackson、fastjson、kryo、protostuff序列化（含效率对比）

开源项目“Pretty JSON”安装与配置完全指南

2024年前端最新Nodejs基础之包管理工具npm(二)(2)，微软面试题及答案

解决全局安装pnpm后无法使用的问题

安装Nodejs后，npm无法使用

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000