9 bluexue0724

尚未进行身份认证

每天进步一点点总会有所成功

等级
TA的排名 4k+

Hive 开窗函数 汇总

近期用开窗函数比较多老是用不好,这里做一下汇总

2019-08-18 16:35:54

安装pyspark

pipinstallpyspark太慢切换镜像源pypi镜像使用帮助pypi镜像每5分钟同步一次。临时使用pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplesome-package注意,simple不能少,是https而不是http设为默认升级pip到最新的版本(>=10.0...

2019-08-11 00:15:25

hive拆分json数组取出各个值的第二层

selectid,secondLevelitem,indexValuescorefrom(selectid,split(regexp_replace(regexp_extract(detail,'^\\[(.+)\\]$',1),'\\}]}\\,\\{','\\}]}\\|\\|\\{'),'\\|\\|')asL1select*fromdatatable....

2019-08-10 11:33:18

Hive Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT*FROMemployees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...

2019-05-30 20:32:43

Impala中的invalidate metadata和refresh

前言Impala采用了比较奇葩的多个impalad同时提供服务的方式,并且它会由catalogd缓存全部元数据,再通过statestored完成每一次的元数据的更新到impalad节点上,Impala集群会缓存全部的元数据,这种缓存机制就导致通过其他手段更新元数据或者数据对于Impala是无感知的,例如通过hive建表,直接拷贝新的数据到HDFS上等,Impala提供了两种机制来实现元数据的更...

2019-03-13 15:14:04

HDFS文件误删除之恢复

启动HDFS的垃圾回收站为了防止误删,一般默认是关闭的,需要我们自己配置文件打开。修改core-site.xml<property><name>fs.trash.interval</name><value>1440</value>...

2019-03-13 11:24:37

python环境安装 hive支持步骤

sudoyuminstallgccgcc-c++python-virtualenvcyrus-sasl-develpipinstallpyhivepipinstallthriftpipinstallsaslpipinstallthrift-sasl

2019-02-21 16:35:23

linux查找文件中含某字符串的行数

查看某个文件中包含某个字符串的行数sudofindanalytics_2019-02-13.csv.51|xargscat|grep.*bookorder.*|wc-l例子说明:统计含"bookorder"字符串的总行数查看某个文件中不包含某个字符串的行数findanalytics_2019-02-13.csv.51|xargscat|grep...

2019-02-14 14:56:50

比较大的文件 不想删除文件 只是想清空文件内容 怎么做

方法有三种第一种:cp/dev/nullnohup.out有时候cp要用\cp因为cp是cp-i的缩写\作用也是取消cp的别名。第二种:cat/dev/null>nohup.out第三种:>nohup.out#相当于echo‘’>nohup.out...

2019-01-29 15:35:42

vim 中如何在每行行首或行尾插入指定字符串

操作语法:行首:%s/^/your_word/行尾:%s/$/your_word/按键操作:注释:ctrl+v进入列编辑模式,向下或向上移动光标,把需要注释的行的开头标记起来,然后按大写的I,再插入注释符,比如”#”,再按Esc,就会全部注释了。删除:先按v,进入visual模式,横向选中列的个数(如”#”注释符号,需要选中两列),再按Esc,再按ctrl+v进入列编辑模式...

2019-01-21 17:52:34

MySQLdb库和pymysql库的区别

MySQLdb只支持Python2.,还不支持3.可以用PyMySQL代替。安装方法:pipinstallPyMySQL然后在需要的项目中,把init.py中添加两行:importpymysqlpymysql.install_as_MySQLdb()就可以用importMySQLdb了。其他的方法与MySQLdb一样。...

2019-01-21 17:49:05

centos pip install mysqldb

pipinstallmysqldb今天安装mysqldb各种出错总结一下使他们的依赖没有完全搞清楚,所以特此记录一下mysqlisneedmysql-develisneedgccisneedpython-develisneedsosudorpm-Uvhhttp://dev.mysql.com/get/mysql-community-release...

2019-01-08 15:18:46

Java不写文件,LOAD DATA LOCAL INFILE大批量导入数据到MySQL的实现

MySQL使用loaddatalocalinfile从文件中导入数据比insert语句要快,MySQL文档上说要快20倍左右。但是这个方法有个缺点,就是导入数据之前,必须要有文件,也就是说从文件中导入。这样就需要去写文件,以及文件删除等维护。某些情况下,比如数据源并发的话,还会出现写文件并发问题,很难处理。那么有没有什么办法,可以达到同样的效率,直接从内存(IO流中)中导入数据,而...

2018-12-26 19:33:26

hadoopwordcount 异常错误总结

Exceptioninthread“main”java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Wiwindows电脑解决办法找到对应hadooporg.apache.hadoop.io.nativeio.NativeIO这个文件按照原来的包名拷贝到项目中把文件此处修改为returnt...

2018-10-15 15:19:08

hadoop3集群搭建详解(自身总结)

hadoop3确定集群所需要的机器,我由于机器限制只有三台机器,一般的数据节点至少要有三个副本由于机器限制我这里就用了两个副本了(我这里hadoop01是主节点)hadoop01hadoop02hadoop03三台服务器服务器环境搭建hadoop3需要的java环境必须在1.8以上hadoop3.0.0.1.tar.gz项目文件下载解压解压后需要多件几个文件夹在...

2018-10-09 16:31:07

修改CentOS默认yum源为国内yum镜像源

有时候CentOS默认的yum源不一定是国内镜像,导致yum在线安装及更新速度不是很理想。这时候需要将yum源设置为国内镜像站点。国内主要开源的开源镜像站点应该是网易和阿里云了。修改CentOS默认yum源为mirrors.163.com1、首先备份系统自带yum源配置文件/etc/yum.repos.d/CentOS-Base.repo[root@localhost~]#mv/etc...

2018-09-29 15:32:27

kindle只显示电池加感叹号,该怎么办呢 !

kindle很久没用了,想用的时候只显示电池感叹号了,不知所措的我赶紧百度了一下。对着插孔呼几下热气就好了再连数据线几秒就出现小人树啦可能是因为放置久了电充不进去吧...

2018-09-13 11:48:04

pyspark 链接数据库 前提

前提:配置文件/etc/spark/conf/spark-env.sh添加exportSPARK_CLASSPATH=$SPARK_CLASSPATH:/opt/mysql-connector-java/mysql-connector-java-5.1.40-bin.jar这样的配置有时报错:WARNspark.SparkConf:Setting'spark.executo...

2018-08-15 16:07:14

怎么在centos上安装 automake and autoconf

首先:检查你要安装包:yumwhatprovidesautoconfautomake然后安装对应的包就可以了。yuminstallxxxx

2018-08-03 16:51:42

pandas df 遍历方法晓述

pandas遍历有以下三种访法。性能如下.iterrows():在单独的变量中返回索引和行项目,但显着较慢.itertuples():快于.iterrows(),但将索引与行项目一起返回,ir[0]是索引zip:最快,但不能访问该行的索引用法如下:t=pd.DataFrame({'a':range(0,10000),'b':range(10000,20...

2018-07-31 08:06:42

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!