Hive-分组之后取前n个

1. 统计国家每个省份出现次数最高的5个城市的名称

直观思维来考虑:

把 数据组织成:

国家     省份     出现次数(倒序)  城市

row_number() 根据partition by 生成次序 ,rank_code, 然后用rank_code 做限制  

2. sql 程序

select

country_name,

province_name,

city_name,

cnt_num,

row_number() over (partition by country_name, province order by cnt_num desc) rank_code

from table

where rank_code <= 5

 3. 参考文章链接

https://blog.csdn.net/mori66/article/details/54670204