自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Marsm的博客

每天进步一点点

  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 odps sql创建日期维表

在odps中使用sql创建日期维表表结构create table if not exists dim_date ( date_id string comment '日期(yyyymmdd)' ,datestr string comment '日期(yyyy-mm-dd)',date_name string comment '日期名称中文',weekid

2021-11-22 17:34:48 1910

原创 pandas.read_csv读取csv文件报错

文章目录pandas读取文件报错读取csv文件报错OSError: Initializing from file failedpandas读取文件报错读取csv文件报错OSError: Initializing from file failed使用pandas读取csv文件的时候报错:OSError: Initializing from file failed,其原因是读取的文件名包含中文根据文章参考得知,pandas的read_csv()方法,默认使用C engine作为parser engi

2020-06-04 17:19:46 696

原创 java反编译jar包

java反编译jar包在日常开发中,由于之前的系统中UDF函数源码并没有接手,要想把现有UDF函数一直到其他平台上使用,因此需要对现有jar包进行反编译,并在其他平台上调试使用。反编译方式分两种:GUI工具(JD-GUI)idea插件:java-decompiler.jarGUI工具- 使用反编译GUI工具,这种工具可以直接打开jar包,并将反编译之后的结果导出反编译的结果文件入下(附带一下其他东西,还得手工处理一下):/* */ package com.alibab

2020-06-01 15:36:08 1643

原创 centos7 yum源安装mysql5.7

【代码】centos7 yum源安装mysql5.7。

2020-05-21 18:45:57 236

原创 ITerm2+on-my-zsh配置终端主题

文章目录ITerm2+on-my-zsh配置终端主题1.设置主题2.配置vim高亮3.命令高亮插件4.命令提示插件ITerm2+on-my-zsh配置终端主题1.设置主题安装on-my-zshcurl安装:sh -c “$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)”wget安装:sh -c “$(wget https://raw.github.com/ro

2020-05-11 23:43:11 1779

原创 Linux常见报错处理

这里写自定义目录标题Linux常见报错处理远程执行命令报错Linux常见报错处理远程执行命令报错报错场景:在使用ssh远程命令执行远程主机上的脚本是,报如下错误FileNotFoundError: [Errno 2] No usable temporary directory found in ['/tmp', '/var/tmp', '/usr/tmp', '/root']原因是根目录下的这些目录没有可用的空间,df -h查看磁盘空间,发现被占用完了,清理磁盘空间问题解决...

2020-05-11 09:52:42 2574

原创 编译spark 2.1.0源码

编译spark 2.1.0源码准备环境:准备spark源码包:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz准备maven-3.3.9以上scala-2.11.8:https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz设置mavn...

2020-01-09 14:49:30 237

原创 CDH 5.16.1集群环境搭建

CDH 5.16.1集群环境搭建集群节点192.168.10.1 hadoop01 235G+4T192.168.10.2 hadoop02 235G+4T192.168.10.3 hadoop03 235G+4T192.168.10.4 hadoop04 235G+4T集群节点初始化1.配置节点hosts192.168.10.1 hadoop01.office.gdapi....

2019-12-20 13:50:25 550

原创 Centos7 Python3安装

Centos7 Python3安装安装python3环境包:yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make下载python3安装包:wget https://www.python.org/ftp/pytho...

2019-12-11 10:27:01 173

原创 Linux磁盘挂载\卸载

Linux磁盘挂载\卸载挂载磁盘使用 fdisk -l查看可挂载的磁盘执行命令后,如果不存在/dev/vdb,表示没有数据盘。确认数据盘是否已挂载。执行 fdisk -u /dev/vdb 创建分区[root@ecshost~ ]# fdisk -u /dev/vdbWelcome to fdisk (util-linux 2.23.2).Changes will rema...

2019-12-06 17:53:22 770 1

原创 python包和模块的打包

python包和模块的打包在需要打包的包目录下创建 setup.py 文件 和 MANIFEST.in(无静态文件可以不用创建) 文件setup.py内容# 引入构建包信息的模块from distutils.core import setup# 定义发布的包文件的信息setup( name="hive_udf_test", # 发布的包的名称 version="...

2019-12-06 16:58:04 199

原创 Linux误卸载自带python的解决方法

Linux误卸载自带python的解决方法1.卸载python(防止未卸载干净)rpm -qa|grep python|xargs rpm -ev --allmatches --nodeps #强制删除已安装程序及其关联whereis python|xargs rm -frv #删除所有残余文件 #xargs,允许你对输出执行其他某些命令2.卸载yumrpm -qa|grep yu...

2019-11-28 14:48:44 1737

原创 shell脚本常用命令

脚本目录获取当前目录current_dir=$(cd `dirname $0`; pwd)日期操作获取当前日期current_day=$(date '+%Y%m%d' )获取前一天yest_day=$(date '+%Y%m%d' -d '-1 day')获取下一天next_day=$(date '+%Y%m%d' -d '+1 day')定时任务(分...

2019-10-11 16:45:29 174

原创 windows+pycharm搭建spark开发环境

windows+pycharm搭建spark开发环境创建python文件点击 file >> setting >> Project:PythonProject >> Prohject Structure添加pyspark.zip和py4j包到项目中(这两个文件在spark安装包的D:\apps\spark-2.3.2-bin-hadoop2.7\pyt...

2019-04-30 15:00:41 688

原创 hive表中array类型数据处理(行列转换)

hive表中array类型数据处理hive表中数据如下:1 ["20170101","20170102","20170201","20170203"]2 ["20170102","20170102","20170201"]3 ["20170104"]2 ["20170201&quot

2018-11-23 17:17:55 9149

原创 Numpy基本用法

文章目录一、Numpy基本用法二、Numpy创建数组1.使用np.array()由python list创建2.使用np的routines函数创建2.1 np.ones()2.2 zeros()2.3 np.full()2.4 np.eye()2.5 np.linspace()2.6 arange()2.7 randint()2.8 randn() 正太分布2.9 normal() 正太分布2....

2018-10-26 17:31:10 5849

原创 Numpy基础入门

文章目录Numpy基础入门Numpy创建数组Numpy查看数组属性数组元素个数数组形状数组维度数组元素类型快速创建N维数组Numpy的ndarray:多维数组对象创建随机数组np.randomNumpy计算条件运算统计运算指定轴最大值amax(参数1:数组;参数2:axis=0/1;0表示列1表示行)指定轴最小值amin指定轴平均值mean方差std数组运算数组与数的运算矩阵运算np.dot()...

2018-09-20 15:38:55 290

原创 9、Python字典

Python字典访问字典里的值修改字典删除字典元素字典键的特性字典内置函数&方法Python字典字典是另一种可变容器模型,且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中,格式如下所示: d = {key1 : value1, key2 : v...

2018-09-17 18:16:10 191

原创 8、Python元组

Python元组访问元组修改元组删除元组元组运算符 Python 表达式 结果 描述 len((1, 2, 3)) 3 计算元素个数 (1, 2, 3) + (4, 5, 6) (1, 2, 3, 4, 5, 6) 连接 [‘Hi!’] * 4 [‘Hi!’, ‘Hi!’, ‘Hi!’, ‘Hi!’] 复制 3...

2018-09-17 17:47:20 242

原创 7、Python列表

Python列表Python包括了大量的复合数据类型,用于组织其他数值。最有用的是列表,即写在方括号之间、用逗号分隔开的数值列表。列表内的项目不必全是相同的类型。>>> a = ['spam', 'eggs', 100, 1234]>>> a['spam', 'eggs', 100, 1234]>>&am

2018-09-17 17:45:58 179

原创 6、Python字符串

Python字符串Python字符串除了数字,Python也能操作字符串。字符串有几种表达式,可以使用单引号或双引号括起来:>>> 'spam eggs''spam eggs'>>> 'doesn\'t'"doesn't">>> &am

2018-09-17 17:44:35 230

原创 5、Python数字(Number)

数字(Number)Python数字运算数字(Number)Python数字运算Python解释器可以作为一个简单的计算器:您可以在解释器里输入一个表达式,它将输出表达式的值。表达式的语法很直白:+、1、*和/和在许多其他语言(如[Pascal或C)里一样;括号可以用来为运算分组。例如:>>> 2 + 24>>&g...

2018-09-17 17:43:48 327

原创 4、Python运算符

运算符Python算数运算符Python比较运算符Python赋值运算符Python逻辑运算符Python成员运算符Python身份运算符Python运算符优先级运算符Python语言支持以下类型的运算符: 算数运算符比较(关系)运算符赋值运算符逻辑运算符位运算符成员运算符身份运算符运算符优先级接下来让我们一个个来学习Python的运算符...

2018-09-17 17:42:45 433

原创 3、Python注释

Python注释Python注释确保对模块,函数,方法和行内注释使用正确的风格:Python中的注释有单行注释和多行注释:Python中单行注释以#开头,例如:#! /usr/bin/python3#config=utf-8#这是一个注释print('hello Python!')多行注释用三个单引号(”’)或者三个双引号(”“”)将注释括起来,例...

2018-09-17 17:39:56 298

原创 2、Python解释器

Python解释器交互式编程脚本式编程Python解释器Linux/Unix的系统上,Python解释器通常被安装在/usr/local/bin/python3.x这样的有效路径(目录)里。我们可以将路径/usr/local/bin添加到您的Linux/Unix操作系统的环境变量中,这样您就可通过shell 终端输入下面的命令来启动 Python 。py...

2018-09-17 17:12:19 194

原创 1、基本数据类型

数据类型Numbers(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionaries(字典)数据类型python的六个标准内置对象 数字 1234,3.1415,3+4j,Deciaml,Fraction字符串 ‘spam’,”guido’s”列表 ...

2018-09-13 14:53:46 399 1

原创 Linux常用命令(持续更新。。。)

Linux 文件的分割与合并Linux 文件的分割与合并1、分割 - - split命令 可以指定按行数分割和按字节大小分割两种模式。(1) 按行数分割#每300行一个文件split -l 300 large_file.txt new_file#加上-d,使用数字后缀;加上--verbose,显示分割进度:split -l 300 large_file.txt ...

2018-06-28 17:12:05 198

原创 Linux脚本删除空行或者空格的方法

Linux系统利用脚本删除空行的4种方法用tr命令 cat 文件名 |tr -s ‘\n’用sed命令 cat 文件名 |sed ‘/^$/d’用awk命令 cat 文件名 |awk ‘{if($0!=””)print}’ cat 文件名 |awk ‘{if(length !=0) print $0}’用grep命令 grep -v “^$” 文件名Linu...

2018-06-28 16:59:24 799

原创 hive常见问题(持续更新。。。)

1.在进行insert select操作的时候报如下错误 Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum ...

2018-06-14 16:23:06 2312

转载 hive性能优化

1. 概述2. 影响性能的根源3. 配置角度优化3.1 列裁剪3.2 分区裁剪3.3 join操作3.3.1 join原则3.4 map join操作3.5 group by操作3.6 合并小文件4. 程序角度优化4.1 熟练使用SQL提高查询4.2 无效ID在关联时的数据倾斜问题4.3 不同数据类型关联产生的倾斜问题4.4 利用Hive对union all...

2018-06-14 16:08:22 384

原创 Hive的数据压缩

Hive的数据压缩apahce官方提供的hadoop安装包不支持数据的压缩,所以需要编译hadoop源码hadoop源码编译方法:1.安装sanppy压缩库2.编译hadoop 2.x源码3.mvn package -Pdist,native -DskipTests -Dtar -Drequire.snappy4.编译完成后,将hadoop-2.x/target/hadoop-2...

2018-06-14 15:24:20 250

原创 hive基本语法

1.Hive中数据库的基本操作1.1 Create/Drop1.2 create table2. hive数据加载或导出2.1 hive表加载数据2.2 hive表导出数据3. Hive中的查询语句4. Order, Sort, Cluster, and Distribute By区别1.Hive中数据库的基本操作1.1 Create/DropCREA...

2018-06-14 15:19:58 501

转载 Git使用

Git教程Git简介Git安装创建版本库时光穿梭机Git教程Git简介Git安装Linux上安装Git CentOS yum install gitUbuntu apt-get install gitWindows下安装Git 在Windows上使用Git,可以从Git官网直接下载安装程序,(网速慢的同学请移步国内镜像),然后按默认选项安装即可.安装完成后,在开始菜单里找到“

2017-12-19 14:14:47 191

转载 Markdown编辑器使用说明.md

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-12-19 13:58:54 1108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除