自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 资源 (10)
  • 问答 (4)
  • 收藏
  • 关注

原创 Hive将带有斜杆的时间拼接成字符串

遇到的问题近日分析师提供一批样本数据,需要根据id和时间进行匹配,样本数据格式如下:但是时间数仓中的数据时间却是年月日时分秒拼接而成的字符串,导致两者匹配失败,所以需要转换,数仓的数据:解决问题分析过程:不能使用hive 自带的date_format方法。 因为表中的月日时分秒前面没有补0,使用date_format会造成数据失真,例如下图时分秒的值是错误的:(因为是时分秒不全,所以转换之前先拼接 :00 )自定义一个spark的udf去实现,我用的pythonfrom py

2021-09-27 11:12:07 1185

原创 pyspark.sql.utils.AnalysisException: u‘java.lang.IllegalArgumentException: Wrong FS

问题用pyspark写了程序,但是在跑的过程中报 pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Wrong FS: hdfs://现有代码的配置信息spark = SparkSession.builder.appName(spark_application_name). \ config('spark.port.maxRetries', 500). \ config('spark.d

2021-09-06 16:36:03 2091

转载 一篇讲清:数据采集与埋点

在这篇文章里面,我们会对数据采集的一些基本概念进行阐述,然后,会针对目前市面上新增的一些前端埋点技术,如可视化埋点与“无埋点”的技术细节做一个具体的介绍,并且阐述我们自己对于这些技术的理解和认...

2020-03-02 17:22:30 1662

原创 window cmd 出现乱码

心血来潮写了一个python爬虫,刚开始就出现乱码,在python代码中已经设置了#coding=utf-8其实是window的cmd窗口的编码方式问题,解决:先看一下当前的cmd编码格式输入:chcp输出: 936936为编码代码,常用的编码代码有:936 GBK(一般情况下为默认编码)437 美国英语65001 utf-8所以只需要在cmd中设置成utf8 就可以了...

2019-10-24 09:34:31 498

原创 windows pip install failed

Could not fetch URL https://pypi.org/simple/selenium/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded with url: /simple/selen...

2019-10-23 18:44:19 420

原创 如何进行TPS-DS测试

1 简介随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。如何客观地比较不同数据管理系统,即大数据测试基准的选择,成为一个重要的研究课题。事务性能管理委员会(TransactionProcessing Performance Council,TPC),是目前最知名的非赢利的数据管理系统评测基准标准化组织。它定义了多...

2019-10-12 15:47:01 2480 1

转载 greenplum使用PXF访问外部数据

本文链接:https://blog.csdn.net/kkx1988/article/details/79171963Greenplum平台扩展框架(PXF)通过内置连接器提供对外部数据的访问,这些连接器可以将外部数据源映射到Greenplum数据库表,通过外部表的形式查询外部数据源。PXF可支持访问的外部数据源有HDFS,Hive和HBase。其中可以对HDFS数据进行读和写操作。下面介...

2019-10-10 11:23:16 2584

原创 shell wait 和sleep 对比

wait在 shell 中使用 wait 是在等待上一批或上一个脚本执行完(即上一个的进程终止),再执行wait之后的命令。sleepsleep 1 睡眠1秒sleep 1s 睡眠1秒sleep 1m 睡眠1分sleep 1h 睡眠1小时sleep支持的时间单位有秒、分、时,默认的单位是秒。这两个命令都是在某个命令执行完,休眠片刻,主要是因为有...

2018-04-04 14:34:16 53480

原创 kylin load sysconfig faild

我的环境问题解决方法关于kylin的安装文档和spark我已经写过,可以参考Kylin 安装以及spark cube 的创建。不管是单点还是集群式的,虽然装过很多次,但是每次装的环境不一样,遇到的问题就不一样,这次实在某里云上装的,虽然只是改动小小的一个配置,但是还是找了很久,不得不说google真是一个好东西,我的环境环境:跟之前一样,只不过以前搭建的物理机上,而...

2018-03-29 20:14:09 828

原创 Kylin 安装以及spark cube 的创建

一. 准备 下载kylin安装包 http://www.apache.org/dyn/closer.cgi/kylin/apache-kylin-2.2.0/apache-kylin-2.2.0-bin-hbase1x.tar.gz二. 环境 1. Hadoop: 2.7+ Hive: 0.13 - 1.2.1+ HBase: 0.98 - 0.99, 1.1+ JDK: 1...

2017-11-29 18:07:10 2395

原创 YUM本地源制作

前言大家都知道yum是非常好的rpm软件包管理器,yum可以简化软件的安装过程,使用yum install 可以直接安装需要的软件以及其依赖的包,无需自己繁琐一次次下载与安装。常用命令安装httpd并确认安装yum instll -y httpd列出所有可用的package和package组yum list清除所有缓冲数据yum clean all列出一个包所有依赖的包yum deplist

2017-11-27 18:04:24 645

转载 【MySQL】触发器入门

MySQL 5.1包含对触发器的支持。触发器是一种与表操作有关的数据库对象,当触发器所在表上出现指定事件时,将调用该对象,即表的操作事件触发表上的触发器的执行。【创建触发器】在MySQL中,创建触发器语法如下: CREATE TRIGGER trigger_name trigger_time trigger_event ON tbl_name FOR EACH ROW trigger_stmt其

2017-10-31 17:41:15 575

原创 com.alibaba.fastjson.JSONObject cannot be cast to com.panodata.model.riskUtil.ModelPOBean

这个错误是泛型转换中出现的 错误实例:ResultBean resultBean = JSON.parseObject(jsonResult,ResultBean.class);解说:我这里的 ResultBean有一个属性是泛型,在json反序列化过程中不能识别其中的泛型的类型正确实例:ResultBean resultBean = JSON.parseObject(jsonResult,new

2017-10-31 17:36:06 4294

转载 Rete算法

RETE算法介绍一、 rete概述Rete算法是一种前向规则快速匹配算法,其匹配速度与规则数目无关。Rete是拉丁文,对应英文是net,也就是网络。Rete算法通过形成一个rete网络进行模式匹配,利用基于规则的系统的两个特征,即时间冗余性(Temporal redundancy)和结构相似性(structural similarity),提高系统模式匹配效率。二、 相关概念2.1 事实(fact

2017-09-19 10:57:01 7575

原创 Python 获取文件指定行内容

Python 中有一个读取文件的模块 linecache,用起来很方便。官网连接 https://docs.python.org/2/library/linecache.html使用Python 读取指定行就是用的这个模块,该模块也有其它的方法,具体方法可以参考官网的说明,我这里只用了 linecache.getline(filename, lineno),读取文件指定行内容的代码如下import

2017-09-15 18:11:01 7571 1

原创 python中的注释行和注释块

初学 Python,用到最多的就是注释语法,在 Python 中注释有很多方法,常用的是一下几种:行注释: 行头使用 # 符号可以将整行注释掉块注释: 使用命令 ”’ 需要注释的内容 ”’ (这个单引号,不是tab键上面的键)使用 if 0: 需要注释的内容 (注意后面代码缩进)使用 编辑器自带的快捷键,一般是 ctrl+/ ,我用的是 Pychram 这个主要看你用的是什么环境。

2017-09-15 17:36:55 9792

原创 Linux vi 撤销与取消撤销

用习惯了window编辑,改用linux 编辑,还有些不习惯,但是linux 下的vi 编辑用多了,可比window下编辑要快哦。在linux系统中,使用vi编辑,在命令行模式(按ESC)下 按 u 是撤销,相当于windows 下的ctrl+z,取消上一步操作是 ctrl+r 相当于window下的 ctrl+y,有了这两个快捷键操作起来就会方便很多。

2017-09-15 17:25:49 30850

原创 Linux 普通用户之间免密登陆

环境centos6.5 NN01 centos6.5 NN02目的:同台机器之间实现普通用户之间的免密登陆: NN01 的user1 免密登陆 user2不同机器之间实现普通用户之间的免密登陆 :NN01 的user1 免密登陆 NN01 的user1一.同台机器之间实现普通用户之间的免密登陆普通用户之间的免密登陆和 使用root 进行免密登陆,基本设置都是一样的,只不过普通用户之间需

2017-09-14 18:48:48 22018 2

原创 linux 给普通用户授权sudo

使用sudo 时,出现xxx is not int the sudoers file. 告诉我们当前用户不是sudoer,所以我们添加当前用户为sudoer,添加方法如下:(使用root用户操作)/etc/sudoers 该文件存放这sudo 的相关用户,但是默认没有写权限的,所以需要使用 chmod u+w /etc/sudoers 给 sudoers 授权在该文件中添加 mary ALL=

2017-09-05 18:27:06 7352 1

原创 Python 安装

最近开始学习Python,虽说Python简单,但是对于自学的人,有些坑该踩还是要踩,从装环境那一刻起,就已经步入了“坑坑大厅”,欢迎跟我一起学习Python。Python 环境 下载:官方链接 https://www.python.org/downloads/release 随你下载哪个版本,个人建议下载最新的,毕竟人要向前走 安装:双击安装包,一直点击下一步就可以了,记得把安装路径记一下,

2017-08-25 16:14:31 421

转载 MongoDB Remove函数的3个常见用法

在MongoDB中,db.collection.remove()方法用来从文档中删除文档。可以从一个集合中删除所有文档,删除匹配一个条件的所有文档,或者限制操作只删除一条文档。删除所有文档:删除集合中的所有文档,需要传递一个空的query文档{}给remove()方法。remove()方法不会删除索引。下面是从inventory集合中删除所有文档的例子: 复制代码 代码如下:db.inventor

2017-08-03 14:46:40 10606

转载 Hive数据导出三种方式

今天我们再谈谈Hive中的三种不同的数据导出方式。 根据导出的地方不一样,将这些方式分为三种: (1)、导出到本地文件系统; (2)、导出到HDFS中; (3)、导出到Hive的另一个表中。 为了避免单纯的文字,我将一步一步地用命令进行说明。一、导出到本地文件系统hive> insert overwrite local directory '/home/wyp/wyp' > sel

2017-07-18 17:28:40 6765

原创 beeline 使用

最近对hive设置权限,具体设置权限的方法请参考http://blog.csdn.net/qq_31382921/article/details/71133323,使用beeline的时候总会出现各种小问题,毕竟还是跟hive有点区别。beeline 常用语法: 1. beeline -u “jdbc:hive2://nn02:10000/default” -n maxiaoli -e “sel

2017-06-29 19:03:19 31566

原创 Hive Metastore 启动成功又失败

hive 在正常使用中 metastore 忽然停掉,查看日志,报一下错误:2017-06-19 12:11:15,134 ERROR [main]: metastore.HiveMetaStore (HiveMetaStore.java:startMetaStore(6080)) - org.apache.thrift.transport.TTransportException: Could no

2017-06-19 15:32:18 9338

原创 IDEA 错误:找不到或无法加载主类

从昨天开始使用IDEA开始就一直在搭建java环境,许久没有使用过java,刚开始有些生疏,先建了一个最简单的类:test.java ,可是运行的时候出现 错误:找不到或无法加载主类 。在网上找了好久资料,都是环境变量的问题,我在我的window命令行下看了一下java 和javac 两个均是1.7 而且可以正常的编译和运行。排除了java 环境的问题,只能是IDEA环境的问题,在项目的proje

2017-06-07 11:43:47 162404 23

原创 -bash: 08: value too great for base (error token is "08")

在使用shell的时候,获取的当前的小时或月份(08,09等)进行计算是,提示:hour=08hour=$((hour)) -bash: 08: value too great for base (error token is "08")搜索之后发现0开头的数字表示八进制,在八进制数中,当然没有08,09 等这样的数,所以需要在$hour 前加 10# ,这样就表示 这是十进制,就不会报错了。

2017-05-24 14:24:43 4044

原创 虚拟机安装的系统界面很大的解决办法

在虚拟机安装centos系统时,里面的系统界面很大,很不方便操作,问题如下: 只能拖动右边和下面的滚动条进行操作,当然这是因为虚拟机和本机的分辨率不同引起的。 有两种方法可以将虚拟机中的系统和本机界面相适应 1. 在虚拟机的菜单栏中点击查看-自动调整大小-自动使用客户机 但有时这种对于虚拟机不起效,需要在高级里面修改虚拟机的分辨率 2. 修改虚拟机设置 在分辨率的下拉菜单

2017-05-17 16:57:06 6869

原创 在虚拟机中安装centos遇到的问题

系统镜像: CentOS-6.5-x86_64-bin-DVD1.iso在虚拟机中安装centos 6.5 出现以下错误 :vmware 您要在非EFI系统中使用GPT引导盘 这样可能无法工作 这取决于您的bios 是否支持从GPT盘引导。分析出现该错误出现的可能原因: 之前在该机器上面安装ubuntu未成功,但磁盘已经按照linux系统进行格式化。安装ubuntu失败后安装了window se

2017-05-17 15:47:52 4105

转载 rsync同步常用命令

如果你是一位运维工程师,你很可能会面对几十台、几百台甚至上千台服务器,除了批量操作外,环境同步、数据同步也是必不可少的技能。说到“同步”,不得不提的利器就是rsync,今天就来说说我从这个工具中看到的同步的艺术。[不带任何选项]我们经常这样使用rsync:$ rsync main.c machineB:/home/userB1 只要目的端的文件内容和源端不一样,就会触发数据同步,rsync会确保两边

2017-05-08 10:08:13 1072

转载 [翻译]Hive的Security配置

为了更好地使用好Hive,我将《Programming Hive》的Security章节取出来,翻译了一下。 Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用。Hive由一个默认的设置来配置新建文件的默认权限。<property> <name>hive.files.umask.value</name> <value>0002</value> <descripti

2017-05-03 18:23:15 1519

原创 Hive 的insert into 和 insert overwrite

1、insert into 语句Hive> insert into table account select id,age,name from account_tmp;2、insert overwrite语句hive> insert overwrite table account2 select id,age,name from account_tmp;插入的数据: 001 20 zhangs

2017-04-28 14:49:27 113006 2

原创 linux 后台执行命令

怪自己太晚了解这个命令,nohup ,简直太好用了。nohup 意思是 no hang up ,表示不挂起, 使用方法:nohup Command [ Arg … ] [ & ]每次执行参数是时间的脚本时,都不敢将时间的范围写的太大,因为中断断开连接后,相应的进程也会在这种情况下,可以使用nohup 在后台执行:例如:nohup ./test.sh 2017-04-28 > log/test.lo

2017-04-28 10:54:44 789 1

转载 HADOOP HDFS BALANCER介绍及经验总结

1.集群执行balancer命令,依旧不平衡的原因是什么?该如何解决?2.尽量不在NameNode上执行start-balancer.sh的原因是什么?集群平衡介绍Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁

2017-04-26 11:12:28 2555

转载 hdfs balancer 源程序详解

最近集群存储倾斜,个别节点存储超过85%,启动balancer之后效果明显,但是有时候balancer启动也不能解决问题。从运维阶段就知道有这么一个balancer,今天终于憋了一口气看看balancer到底咋回事。版本还是1.0.3首先balancer在org.apache.Hadoop.hdfs.server.balancer,balancer作为一个独立程序启动,听说之前是在namenode内

2017-04-26 10:37:48 2378 2

原创 使用ambari扩展hdfs节点

1.Ambari添加节点:Hosts->Action->Add New Hosts 2.在已有节点及Ambari server上添加节点IP及hostname对应关系(/etc/hosts 文件),相当于追加新的节点信息,每个服务器保持一致; 修改主机的hostname; vi /etc/sysconfig/network; service network restart 新机器会

2017-04-26 10:06:08 4269

原创 shell脚本报错"[: =: unary operator expected"

今天用while写了一个循环,结果执行后就报错 [: =: unary operator expected上网查了之后便更改了脚本,在while后面多加一层[] ,就可以正确执行while [[ $day != $end_month ]]doday=`date -d "+ next month $day" +%Y-%m-%d`done

2017-03-22 15:48:50 9403 2

原创 Linux 下 根目录对应的子目录的介绍

虽然用了很久的linux,但是并不知根目录对应的子目录具体的作用是什么,特此写篇博客,加深印象。/bin 二进制可执行命令/dev 设备特殊文件 /etc 系统管理和配置文件 /etc/rc.d 启动的配置文件和脚本 /home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示 /lib 标准程序设计库,又叫动态链接共享库,作用类似windows里的.

2017-03-17 18:22:31 758

原创 HAWQ 强制停止master

当我修改配置文件后,我将所有的hawq连接都断开,使用 hawq stop master 命令结果提示如下错误...-/home/gpadmin/hawqAdminLogs/hawq_stop_20170317.logOnly support two arguements.意思应该是还有未断的arguements。这时应该使用 hawq stop master -M immediate 意味不考

2017-03-17 11:48:59 1127

原创 Hawq 配置本地使用psql登陆

Hadoop集群已经装完了hawq,可是只会用超级管理员使用免密码登陆 psql -d test,昨天配置了几个角色,可是并不知怎么使用,然后就查看了官方文档,尝试多次,就是用一般用户登上了hawq。准备工作: 1. Hadoop 集群 2. 集群上hawq 3. 使用超级用户创建role ,create role data with login,进行授权。创建角色以及设置角色请参考HAWQ权

2017-03-17 10:14:52 1657

原创 HAWQ 权限 (用户/角色)-

最近开始学习hawq,刚开始用就遇到很多问题,在google各种搜索,因为这个工具在国内用的还不是很多,或者说能找到到的资料很少,各论坛也很少讨论hawq的,所以想把自己从头学习的hawq的一丢丢知识跟大家分享。新手入门,如果出现不对的,还望大神指教。hawq,这是一个建立在hdfs 上的 具有SQL 分析引擎的工具,支持SQL。我使用的hawq是已经安装好的,所以目前比较着急就是需要学习以及使用h

2017-03-16 20:17:06 2075 1

数仓面试题-推荐-面试必看

数仓面试题,没有答案,但是题目都算比较典。

2020-04-09

tpc-ds-tool.zip

在tools文件中执行make cd /TPCDSVersion1.3.1/tools make 注意:若没有安装gcc会报错! 4、 在tools目录下使用./dsdgen生成数据。 –help查看帮助 常用: -DIR 生成目录 -SCALE 数据大小(单位GB) DELIMITER 字段分隔符,默认| TERMINATE 末尾是否有分隔符,参数 Y或者N 例子:在/usr/datas目录下生成分隔符为|且末尾没有分隔符的1GB数据: ./dsdgen -DIR /usr/datas -SCALE 1 -TERMINATEN 这样就可以分别生成测试所需的1GB数据和500GB,数据生成的25张表如下,这就是上述描述的7张事实表,17张纬度表,以及1张版本表dbgen_version.dat。 5、 ./dsqgen生成sql测试用例 –help 查看帮助 常用: -input 输入,读取测试用例包含的模板,一般使用/query_templates/templates.lst即可。 -directory 模板所在目录, 一般使用-directory…/query_templates即可。 -dialect 生成某个数据库的语言,可选项可以查看/query_templates目录,有oracle、db2、SqlServer等。 -scale 数据大小(单位G) 特别说明:/query_templates目录下的每一个query末尾都要加上: define _END = “”; ftp上有弄好了的,可以拿来覆盖:\100.0.1.1\admin\soft\tpc\query_templates 例子:./dsqgen -input…/query_templates/templates.lst -directory …/query_templates -dialect oracle-scale 1 由此,可以在tools目录下生成一个query_0.sql,即为生成的sql测试用例。

2019-10-12

成语大全.docx

这是一个word文档。 总共含31851个成语,每个成语都包括拼音,解释。大多数还包括出处和例子。

2019-06-25

Shell脚本学习指南_中文版

带目录完整版 shell学习指南是学习shell的入门经典之作。 讲解详细,值得一读。

2018-03-06

图解HTTP-完整版.pdf

完成版http图解,这本书讲的很详细、通俗易懂,强烈给大家推荐。 入门http的最佳选择

2018-03-06

Java EE实用开发指南

《Java EE实用开发指南:基于Weblogic+EJB3+Struts2+Hibernate+Spring》是一本讲解如何使用Weblogicl0.3+EJB3+JPA+Struts2+Hibernate+Spring开发Java Web应用程序的实用性图书,书中在具体讲解SSH2开发技术的同时,结合MVC模式与My Eclipse工具,演示了实际应用项目开发的全过程。全书共分19章,内容以实用为主,技术和实例相辅相成。书中首先介绍Struts2的使用,让读者对视图层的结构有非常好的掌握;然后详细介绍了Hibernate的使用与配置文件的映射关系,并对双向一对多的情况进行了非常详细的介绍;接着带领读者去学习Spring技术,以AOP和IOC的行为注入方式进行非常详细的讲解,以1个SSH2整合并且有增删改查功能的示例结束SSH2整合的历程;最后又使用Weblogicl0.3+EJB3+JPA+JPQL作为引用点,介绍Java EE重量级开发的精髓所在。 《Java EE实用开发指南:基于Weblogic+EJB3+Struts2+Hibernate+Spring》实用性、系统性、条理性极强,操作思路明晰,通篇体现出作者的丰富经验,既可以作为广大工程技术人员的参考书,也适合大中专院校相关专业的学生使用。

2016-09-30

23种设计模式

详细的设计模式讲述,举例说明更详细,小白也能看得懂,简单明了。 设计模式根据使用类型可以分为三种: 1、 创建模式:Factory(工厂模式)、Singleton(单态)、Builder(建 造者模式)、Prototype(原型模式)、工厂方法模式。 2、结构模式: Flyweight(共享模式)、 Bridge(桥模式)、 Decorator(装 饰模式)、Composite(组合模式)、Adapter(适配器模式)、Proxy(代理 模式)、Facade (外观模式)。 3、 行为模式:Iterator(迭代模式)、Template(模板模式)、Chain of Responsibility( 责 任 链 模 式 ) 、Memento( 纪 念 品 模 式 ) 、 Mediator(中介模式)、Interpreter(解释器模式)、Strategy(策 略模式) 、State 、Observer(观察者模式)、Visitor(访问模式)、 Command(命令模式)。

2016-09-28

UIScrollView

用UIScrollView 创建的轮播图,包含UIPageControl UIScrollView NSTimer

2015-12-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除