技术成就梦想

ElasticSearch 实现数据分页(bucket_sort的使用) 原 ElasticSearch 实现数据分页(bucket_sort的使用) 影狼



注意:

  • es版本至少6.1以上

语句:

GET 76/sessions/_search
{
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "sid": {
              "value": "76e14832"
            }
          }
        },
        {
          "range": {
            "v_ymd": {
              "format": "yyyy-MM-dd", 
              "gte": "2018-02-02",
              "lte": "2018-02-02"
            }
          }
        }
      ]
    }
  },
  "aggs": {
    "pv": {
      "nested": {
        "path": "scene"
      },
      "aggs": {
        "pv2": {
          "terms": {
            "field": "scene.pid",
            "size": 1000,
            "shard_size": 10000
          },
          "aggs": {
            "pv_count": {
              "value_count": {
                "field": "scene.pid"
              }
            },
            "r_bucket_sort": {
              "bucket_sort": {
                "sort": {
                  "pv_count": {
                    "order": "desc"
                  }
                },
                "from": 10,
                "size": 10
              }
            }
          }
        }
      }
    }
  }
}

部分解释:

  • 最外层的size=0,表示该查询不反悔详情,只返回聚合结果;
  • query中使用一个must列表对数据进行过滤;
  • terms实现分桶的功能,类似于sql中的分组功能;
  • terms中的shard_size表示每个分片返回的数据量,size表示返回的桶的数据,会收到bucket_sort中size的限制;
  • value_count实现计数的一个功能;
  • sort指定排序的字段和排序的升降序,可以使用聚合后的字段;
  • 使用bucket_sort的功能,from、size分别表示从第几条数据开始,取多少条数据。

特别注意:

  • 在terms中使用bucket_sort功能的时候,terms中分组的size大小设置应该大于bucket_sort中的from+size的大小,否则会因为terms中size的大小限制了返回的数据。