自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (2)
  • 收藏
  • 关注

原创 ImportError: No module named typing报错解决(python2的pip需要从21回退)

python2的pip默认安装是21版本,这个版本已经不支持了,所以执行pip的时候报错,需要把pip版本回退,执行如下命令即可curl -O https://bootstrap.pypa.io/pip/2.7/get-pip.pypython get-pip.pypython -m pip install --upgrade "pip < 21.0"...

2021-07-22 18:41:56 1386

原创 mysql字符串转数字

每次用的时候都查,索性记录下3种方法select "123"+0select CAST("123" as SIGNED)select CONVERT("123",SIGNED)

2020-06-22 10:58:16 660

原创 mysql性能排查

1.QPS(每秒Query量)每秒查询量,多次查询diffQPS = Questions(or Queries) / secondsmysql > show global status like 'Question%';2.TPS(每秒事务量)TPS = (Com_commit + Com_rollback) / secondsmysql > show global status like 'Com_commit';mysql > show global...

2020-06-20 11:59:20 445

原创 git删除提交记录

1.运行 git checkout --orphan new_branch2.添加所有文件git add -A3.提交更改git commit -am "commit message"4.删除分支git branch -D master5.将当前分支重命名git branch -m master6.最后,强制更新存储库git push -f origin master...

2020-06-16 19:15:35 353

原创 pycharm同时加载多个项目(多种方法,亲测实用)

用pycharm的时候想加载多个项目,多个项目对应不同的git仓库,两种方式加载多个项目1.第一种打开一个新项目,选择attach,后效果如下2.第二种

2020-06-13 11:06:33 4855

原创 spark日志输出级别

1.终端修改在spark-shell或者pyspark终端下可使用下面命令来改变日志级别sc.setLogLevel("WARN") # 或者INFO等2.修改日志设置文件通过调整日志的级别来控制输出的信息量.减少Spark Shell使用过程中在终端显示的日志切换当前路径到Spark安装路径 拷贝一份日志设置文件的模板文件cp log4j.properties.template log4j.properties.template 找到下面一行内容log4j.rootCategory=I

2020-06-08 10:28:32 1222

原创 hive中udtf编写和使用(完整demo)

已有的字段名和值:pos 0-1-2 oreq 125_126-127_128-129_130 sreq 125_126-127_128-129_130 sres 125-127-129_130 sans 125-127-129 最终要实现按照中间横杠-将表拆成多行1.具体实现import com.google.common.collect.Lists;import org.apache.directory.api.util.String.

2020-06-03 11:04:49 1156

原创 mysql刚装好后的一顿操作

mysql装好后root@localhost的密码在安装信息里,登陆后1.修改root密码的两种方式UPDATE mysql.user SET password = PASSWORD('newpass')WHERE user = 'root' AND host = 'localhost';alter user 'root'@'localhost' identified by 'newpass';2.创建库,创建用户,授权create database test;CREA

2020-05-26 11:24:22 218

原创 awk实现groupby和join

1.awk实现join最终要实现类似select a.a,a.b,b.name from a left join b on a.id=b.bid group bya.a,a.b,b.nameshell的写法awk -f name.awk file1 file2 > file3name.awk的写法:BEGIN{ FS="\t";OFS="\t"; #设置分隔符}# argument index 1 file - id,deali...

2020-05-26 11:13:17 330

原创 awk的常规使用

awk中变量说明:变量名 含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符 1.查看某个域的情况统计某个列的不重复个数,-F指定列分隔符awk ...

2020-05-26 10:54:23 285

原创 拉链表思想(缓慢变化维)

问题:有一类问题,比如像用户修改了订单状态,需要看每个状态的生效时间范围等等,这类因为维度变化,又需要反映历史变化的情况可以使用拉链表思路:业务系统当用户操作的时候记录用户订单状态的操作时间,如下建表order_update,还有最终呈现效果的orer_his表,每这部分修改的数据按照新增和修改分类插入到order_his表中。表结构如下:create table order_his...

2020-04-26 00:22:01 1015

原创 sql用户留存率

每天的7日用户留存情况,从一段时间用户第一次登陆算起的留存情况SELECT first_day, sum(case when by_day = 0 then 1 else 0 end) day_0, sum(case when by_day = 1 then 1 else 0 end) day_1, sum(case when by_day = 2 then...

2020-04-19 17:45:52 1346

原创 连续登陆sql实现

背景已知:有个用户登陆表,包含用户id和用户登陆时间,表名users求:用户连续登陆天数,和用户最大连续登陆天数思路:先把每个用户按照登陆时间排序rn,在用登陆时间减rn得到一个值,如果值一样,说明是一段的连续登陆,然后把不连续的天数去掉(上一步得到的值只有一个,说明是不连续的),然后得出每段连续的登陆求连续登陆天数:select userid,sum(sc) as su...

2020-04-18 17:25:54 3630 3

转载 spark DataFrame用法

rdd dataframe dataset互转DataFrame/Dataset转RDD:val rdd1=testDF.rddval rdd2=testDS.rddRDD转DataFrame:import spark.implicits._val testDF = rdd.map {line=> (line._1,line._2) }.toDF(...

2020-01-15 17:39:03 251

原创 HMAC解密python和java版互转

默认情况下python库将使用MD5算法,因此你需要在Java中使用HmacMD5算法pyhton版:new后面参数为加密的key,以及待解密的字符串,第三位默认md5,可以选择其他比如'md5', 'sha1', 'sha224', 'sha256', 'sha384', 'sha512'import hmacprint hmac.new("keyValueGoesHe...

2019-12-09 20:56:19 1707

原创 mysql清理查询日志(清理general_log_file)

mysql自带只有清理binlog文件配置,没有清理查询日志的配置,因此自己写了个定时清理general_log_file的脚本general_log_file可以存放表里和文件里,由于量很大,不建议放表里以下脚本定时执行可以清理general_log_file文件#!/bin/bashcurrent_dir=`cd $(dirname $0);pwd`cd $current_...

2019-11-29 16:07:14 2705 1

转载 shell脚本中echo显示内容带颜色

外壳脚本中的回波显示内容带颜色显示,回波显示带颜色,需要使用参数-e 格式如下:echo -e "\033[字背景颜色;文字颜色m字符串\033[0m" 例如:echo -e "\033[41;36m something here \033[0m" 其中41的位置代表底色,36的位置是代表字的颜色 注:   1,字背景颜色和文字颜色之间是英文的“”   2,文字颜色...

2019-03-19 16:31:50 374

转载 pip提高下载速度,改为国内源(阿里源)

把PIP安装源替换成国内镜像,可以大幅提升下载速度,还可以提高安装成功率。国内源:新版ubuntu要求使用https源,要注意。清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/s...

2019-03-16 14:19:22 3113 1

原创 maven的settings.xml文件(阿里镜像配置)

在windows的home目录下,建一个空文件settings.xml,把下面的配置粘贴进去即可(需要修改下maven下载的文件路径)&lt;?xml version="1.0" encoding="UTF-8"?&gt;&lt;settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http...

2019-03-15 23:25:09 7997

转载 pip安装超时问题解决(read timeout)

 1.linux环境建个文件 ~/.pip/pip.conf, 内容如下 [global]timeout = 6000index-url = http://pypi.douban.com/simple/ [install]use-mirrors = truemirrors = http://pypi.douban.com/simple/ trusted-host = ...

2019-02-15 17:03:14 3181

转载 Fair Scheduler相关参数(yarn公平调度)

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参数,...

2018-12-27 17:15:31 448

原创 shell字符串变量的处理(截取,替换等)

一、字符串变量的常见操作1.取长度str="abcd"expr length $str   # 4echo ${#str}       # 4expr "$str" : ".*" # 42.查找字符串的位置str="abc"expr index $str "a"  # 1expr index $str "b"  # 2expr index $str "

2018-11-30 17:41:57 6637

原创 sql复购率计算多种方法

一.SELECT A.day,IFNULL(cast((base.`3days复购用户数`*1.0/base.`完成用户数`)*100 as decimal(18,2)),'0.00') AS rebuyRate3,IFNULL(cast((base.`5days复购用户数`*1.0/base.`完成用户数`)*100 as decimal(18,2)),'0.00') AS rebuy...

2018-10-23 14:49:16 10675 4

转载 java序列化和反序列化

遇到这个 Java Serializable 序列化这个接口,我们可能会有如下的问题a,什么叫序列化和反序列化b,作用。为啥要实现这个 Serializable 接口,也就是为啥要序列化c,serialVersionUID 这个的值到底是在怎么设置的,有什么用。有的是1L,有的是一长串数字,迷惑ing。我刚刚见到这个关键字 Serializable 的时候,就有如上的这么些问题。在处理这个...

2018-10-06 17:02:13 162

原创 几个好用的idea插件推荐

1.translattion这个插件可以在idea快速的进行中英文互译2.mybatis这个插件可以在mybatis的xml和dao层类之前快速跳转3.Alibaba Java Coding Guidelines这个插件可以检查编码规范,会有提示4..ignoregit添加忽略的插件5.grep console日志报错高亮显示6.maven-he...

2018-09-20 16:47:26 4920

原创 hive udf函数编写完整demo

一.简单的udf只需要继承org.apache.hadoop.hive.ql.exec.UDF,并定义public Object evaluate(Object args) {} 方法即可。如下例子是一个传入string参数,调另一个接口,返回新的string的udf:public class QEncrypt extends UDF{ public String ...

2018-09-05 16:07:08 1604

原创 hive解析json

一.字段为字符串(只有一个json)例如json为:{"id": 1701439105,"ids": [2154137571,3889177061,1496915057,……,1663973284],"total_number": 493}select get_json_object(t.json,'$.id'), get_json_object(t.json,'$.total_numbe...

2018-09-05 11:21:34 1636

原创 shell中awk传参

awk中传参是需要把参数先用单引号,在用双引号,如下#!/bin/bashsdate=$1echo $sdatecat ${sdate}电销数据.csv|tail -n +2|head -n 2|awk -F ','  '{print  "'${sdate}'"","$0}' ...

2018-08-27 20:28:25 468

转载 linux升级python2.7

 CentOS6.5 升级 Python 2.7 版概要CentOS 6.5中预安装了Python-2.6.6,其比较新的Python-2.7.9(CentOS 7预装版本)主要区别在于新版本的Python导入了更丰富的模块功能。对于初学者而言这一般不会有太大的影响,相对而言这些新模块在某些特定的编译环境下却是不可或缺的。例如:使用Devstack all-in-one模式进行安装Open...

2018-08-19 23:08:24 385

原创 python时间转换

1.str ----&gt;datea = '2016-11-04 15:29:58'datetime.datetime.strptime(a,"%Y-%m-%d %H:%M:%S")=&gt;2016-11-04 15:29:582.date ----&gt;stra = '2016-11-04 15:29:58'b=datetime.datetime.strptime(a...

2018-08-19 23:03:32 2192

原创 azkaban使用篇

使用篇1.创建项目点击Create Project,由于azkaban是国外Linkedin发布实现的开源调度平台,所以暂时不支持中文,创建项目的时候不能包含中文。 2.编写并打包jobJob的编写很简单,只要在.job文件内标注脚本类型,脚本运行语句以及依赖的job名,如下:type=command#脚本存储路径command=sh /root/dim/helloworld.sh#依赖属性=依赖...

2018-03-15 14:30:44 1527

原创 azkaban安装篇

安装篇1.下载资料从Azkaban官网上下载3.X的源码资料cd /opt下载命令:git clone https://github.com/azkaban/azkaban.git (2017-12-24克隆的版本为:3.39.0-17-g7b7833a)执行命令将azkaban克隆到本地opt目录下。2.编译进入到Azkaban的根目录下面进行编译,执行./gradlew build(这里需要等...

2018-03-15 14:11:35 409

原创 numpy的random总结

random模块用于生成随机数,下面是一些常用的函数用法:1.np.random.rand 生成一个[0,1)之间的随机浮点数或N维浮点数组,如下图例子上图中2,3,2分别生成的数组有多少行,多少列,每一个有多少元素2.np.random.randn 返回一个或一组样本,具有标准正态分布。3.np.random.randint返回一定范围的一维或者多维整数numpy.random.randint(...

2018-02-24 12:39:27 671

转载 python urllib.quote 解决Python传递中文参数给URL

今天有个需要需要传递中文参数给URL但是在GBK环境下的脚本传递GBK的参数老是给我报UNICODE的解码错误。烦的很。所以我们果断选择用urlencode来处理中文,由于国内外网站编码不同,国内是GBK的,国外是UTF8的。&gt;&gt;&gt; import sys&gt;&gt;&gt; sys.stdin.encoding'GBK'表示我们的环境是GBK的&gt...

2018-02-24 11:04:55 20035 1

转载 pycharm永久激活

1.下载JetbrainsCrack-2.6.10-release-enc.jar2.到pycharm的安装目录下修改pycharm.exe.vmoptions和pycharm64.exe.vmoptions后加-javaagent:C:\Program Files\JetBrains\PyCharm 2017.2.4\bin\JetbrainsCrack-2.6.10-release-enc.j...

2018-02-03 23:29:33 3384 1

jdk1.8中文api

最新jdk1.8中文文档, 翻译的很准确,很好的工具书,信息很全面

2018-07-08

redhat重装yum

这个压缩包里有4个文件用来重装redhat的yum,解决虚拟机安装redhatyum不能用的问题,4个文件分别为python-iniparse-0.3.1-2.1.el6.noarch,yum-3.2.29-40.el6.centos.noarch,yum-metadata-parser-1.1.2-16.el6.x86_64,yum-plugin-fastestmirror-1.1.30-14.el6.noarch,解压后直接用rpm -ivh命令安装即可

2018-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除