8 佛空如水

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 13w+

hive 多字段同时count(distinct)优化

网址:https://www.iteye.com/blog/superlxw1234-1534779 hive 多字段同时count(distinct)优化1. 需求与现状:源表:pcup_3month_login_dtl_mes , 记录数12亿,文件数 300统计SQL:Sql代码in...

2020-03-06 19:34:20

Eclipse连接MySQL数据库(傻瓜篇)

网址:https://www.cnblogs.com/caiwenjing/p/8079227.html我的环境:MySQL:mysql-essential-5.1.51-win32     jdbc驱动:我已经上传到csdn上一个:http://download.csdn.net/source/3451945     Eclipse:任意版本,免费的,可以百度的到。1。MySQL安装,不会的朋友...

2018-04-25 09:55:18

SQL规范与数据倾斜

一.SQL规范1、SQL编写规范逗号放字段前面对用到的表都用子查询的形式,并且只取需要用到的字段缩进(select/from/where …and …/group by/order by/join/on…)符号前后留空格对一些复杂的逻辑和需要注意的点加上注释说明别名 同级用1、2、3...区分(如 t1、t2、t3)2.规范的好处规范的好处逻辑结构清晰便于调试便于模块化处理美观,条理清楚3.误区觉...

2018-04-17 09:58:45

mac上使用crontab周期性执行python脚本

网址:https://www.cnblogs.com/Ohero/p/5230246.html这个月买了本书《Linux系统命令及Shell脚本实践指南》, 看到了一个周期性执行任务cron.顿时产生一个想法: mac上有这种机制么?加上自己也在15年下半年也学了点python脚本,哈哈,顿时就产生了这个想法“mac上使用crontab周期性执行python脚本”,不得不说网络是给力的,居然还真有...

2018-04-12 18:13:00

VC维的来龙去脉

http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/?from=timeline&isappinstalled=0目录:说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effect...

2018-03-04 17:32:30

Hive 窗口函数、分析函数

网址:https://www.cnblogs.com/skyEva/p/5730531.html1 分析函数:用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是:它把有序的数据集合 平均分配 到 指定的数量(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。语法是: 

2018-01-31 09:52:28

"=>" 在scala 中的用法

例一:《Spark大数据处理技术》程序2-25val compareElement:((String,Int),(String,Int)) => (String,Int) = (val1,val2) => {if (val1._2 >= val2._2){ val1} else { val2}}注释:1、用val定义函数2、compareElemen

2018-01-23 09:23:00

Intelli IDEA创建包目录

网址:https://jingyan.baidu.com/article/e5c39bf5d8abc039d660335f.html首先,给大家看一下我生成的错误的包路径。本来是想生成一个user包,下面有2个包,action 和 dao。但是实际生成的却是这个样子。见下图。接下来我们看看正确的方法怎么生成。比如,我们在src下生成想要的包路径。第一步:先新建一个user.dao(这个目录可以一次

2018-01-18 16:44:22

当我们说Go语言的时候,我们在说些什么?

网址:https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652392146&idx=1&sn=e3ebcdb53365d438505e92f6d2c0c04d&chksm=84da4a02b3adc3143b6fc45348af847f32820385d048ae0c3937013f8956befe73c6fcc0407e&mpsha

2018-01-15 09:29:51

数据倾斜

网址:https://zhidao.baidu.com/question/714457915663857445.html触发shuffle的常见算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。要解决数据倾斜的问题,首先要定位数据倾斜发生在什么地方,首先是哪个stage,直接在Web UI

2018-01-14 22:04:08

PG、GP与MySQL的特点和区别

网址:https://www.cnblogs.com/Vvvolcano/p/7146636.html?utm_source=itdadao&utm_medium=referralPostgreSQL数据库介绍:PostgreSQL是一种运行在Unix和Linux操作系统(在NT平台借助Cygnus也可以运行)平台上的免费的开放源码的关系数据库。最早是由美国加州大学伯克利分校开

2018-01-12 17:16:36

intellij-IDE运行Java程序报错:java: -source 1.5 中不支持 lambda 表达式

报错:解决:第一步修改:第二步修改:

2017-12-29 15:04:15

使用PyCharm配置Spark的Python开发环境

网址1:http://blog.tomgou.xyz/shi-yong-pycharmpei-zhi-sparkde-pythonkai-fa-huan-jing.html网址2:http://itgrocery.cn/2017/03/01/%E5%88%A9%E7%94%A8-PyCharm-%E6%90%AD%E5%BB%BA-Spark-%E5%BC%80%E5%8F%91%E7%8E%

2017-12-26 16:00:33

Spark注册UDF函数,用于DataFrame DSL or SQL

网址:https://www.cnblogs.com/wwxbi/p/6798384.htmlimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions._ object Test2 {  def main(args: Array[String]): Unit

2017-12-11 16:06:32

mysql中游标的使用案例详解

网址:http://blog.csdn.net/xushouwei/article/details/522013601.游标是啥玩意?简单的说:游标(cursor)就是游动的标识,啥意思呢,通俗的这么说,一条sql取出对应n条结果资源的接口/句柄,就是游标,沿着游标可以一次取出一行。我给大家准备一张图:2.怎么使用游标?//1.声明/定义一个游标declare

2017-12-01 11:01:48

hodoop中使用MapReduce实例

网址:http://eric-gcm.iteye.com/blog/1807468           https://www.cnblogs.com/hehaiyang/p/4484442.html一、类:WordCountpackage com.wave;import java.io.IOException;import java.util.StringTo

2017-11-23 16:46:06

Linux下 su命令与su - 命令有什么区别?

网址:https://zhidao.baidu.com/question/156103424.htmlLinux中切换用户的命令是su或su -。su命令和su -命令最大的本质区别就是:前者只是切换了root身份,但Shell环境仍然是普通用户的Shell;而后者连用户和Shell环境一起切换成root身份了。只有切换了Shell环境才不会出现PATH环境变量错误。su切换成root用户

2017-10-25 21:41:00

regexp_extract 正则表达式过滤

网址1:http://blog.sina.com.cn/s/blog_a18b33080102wsdw.html网址2:http://blog.csdn.net/jv_rookie/article/details/55211955函数描述:regexp_extract(str, regexp[, idx]) - extracts a group that matches r

2017-06-30 15:44:05

合并一个文件夹下多个文件内容的单行shell命令

转载网址:http://www.shangxueba.com/jingyan/1898710.html合并一个文件夹下多个文件内容:    复制代码代码如下:    find -name "*.log" -exec 'cat' {} \; > test.txt

2017-06-17 11:08:40

Windows平台下kafka环境的搭建

Windows平台下kafka环境的搭建一、Kafka配置: 参考网址:http://www.2cto.com/net/201701/588235.html 准备工作:1.安装jdk环境http://www.oracle.com/technetwork/java/javase/downloads/index.html 2.下载kafka的程序安装包http://ka

2017-04-13 10:01:59

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。