• 59999

    文章

  • 610

    评论

  • 59

    友链

  • 最近新加了换肤功能,大家多来逛逛吧~~~~
  • 喜欢这个网站的朋友可以加一下QQ群,我们一起交流技术。

hive计算分位数

撸了今年阿里、腾讯和美团的面试,我有一个重要发现.......>>
//参考资料:https://www.cnblogs.com/fujian-code/p/8798409.html
使用percentile_approx函数计算age的分位数

//describe只展示计数、均值、标准差、最小值和最大值, Q1、中位数、Q3需要单独统计
/*
scala> df.select("age").describe().show
+-------+------------------+
|summary|               age|
+-------+------------------+
|  count|              5811|
|   mean|29.463087248322147|
| stddev| 4.775418126339402|
|    min|                18|
|    max|               118|
+-------+------------------+
*/

//创建TempView,再使用spark.sql计算分位数
df.createOrReplaceTempView("trainFeatures")

scala> spark.sql("SELECT min(age) AS Min_age, percentile_approx(age, 0.25) AS Q1_age, percentile_approx(age, 0.5) AS Median_age," +
"percentile_approx(age, 0.75) AS Q3_age, max(age) AS Max_age FROM trainFeatures").show
+-------+------+----------+------+-------+
|Min_age|Q1_age|Median_age|Q3_age|Max_age|
+-------+------+----------+------+-------+
|     18|    26|        29|    32|    118|
+-------+------+----------+------+-------+



 转载至链接:https://my.oschina.net/kyo4321/blog/3050522。

695856371Web网页设计师②群 | 喜欢本站的朋友可以收藏本站,或者加入我们大家一起来交流技术!

欢迎来到梁钟霖个人博客网站。本个人博客网站提供最新的站长新闻,各种互联网资讯。 还提供个人博客模板,最新最全的java教程,java面试题。在此我将尽我最大所能将此个人博客网站做的最好! 谢谢大家,愿大家一起进步!

转载原创文章请注明出处,转载至: 梁钟霖个人博客www.liangzl.com

0条评论

Loading...


发表评论

电子邮件地址不会被公开。 必填项已用*标注

自定义皮肤
注册梁钟霖个人博客