自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (4)
  • 收藏
  • 关注

原创 Spark常用参数解释及建议值

4.6.3 Spark常用参数解释及建议值spark的默认配置文件位于堡垒机上的这个位置: $SPARK_CONF_DIR/spark-defaults.conf,用户可以自行查看和理解。需要注意的是,默认值优先级最低,用户如果提交任务时或者代码里明确指定配置,则以用户配置为先。 用户再理解参数含义的基础上,可根据具体任务情况调整参数。以下常用参数配置均可以通过 --conf XXX=Y ...

2019-07-23 14:38:57 930 1

原创 HIVE常用优化参数

常用MapReduce作业配置参数可在客户端的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在作业提交时,个性化指定这些参数。常见问题及参数设置1、提交作业java.lang.OutOfMemoryError: Java heap space 或者长时间提交不了集群jobos.environ[“HADOOP_CLIENT_OPTS”]="-Xmx1...

2019-07-09 16:22:41 4084

原创 hive开发规范

一、 建表规范:Hiive分为内部表和外部表,一般情况,只允许建外部表,不建议使用内部表。LZO标准建表模板如下所示:create EXTERNAL table app_sku_pur_attrib (stat_dt string comment ‘统计日期’ ,ord_item_units double comment ‘下单商品件数’,valid_ord_qtty ...

2019-07-09 16:17:00 1212

转载 Hive解析Json数据

HIVE直接读入json的函数有两个:(1)get_json_object(string json_string, string path)返回值: string说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NULL。举例:hive> select get_json_object(‘{“store”:{“fruit...

2019-04-17 14:15:10 1995

转载 hive的UDF读取配置文件

hive的UDF读取配置文件实现步骤在读取配置文件的写为./file_name,然后在添加UDF的时候把配置文件也加入资源就好了:add jar xxx.jar;add file file_name;create temporary function xxx as xxx;转载:https://blog.csdn.net/weixin_34259159/article/details...

2019-04-15 13:41:34 2482

转载 Hive--数据去重及row_number()

distinct会整条数据去重,有一项是不同的整条数据就算不同的,不会去掉,按照某一个字段去重需要如下方法hive数据去重,并根据需求取其中一条数据案例:name adx tran_id cost tsck 5 125.168.10.0 33.00 1407234660ck ...

2019-04-10 18:23:47 3489

转载 hive sql给查询结果加上一列序号

现有一个表student:select * from student;然后加上一列序号:select row_number() over(partition by 1) as xuhao,a.*from student a;得到结果:转载自:https://blog.csdn.net/qq_40477943/article/details/81873293...

2019-04-08 12:23:47 5534

转载 hive函数 -- regexp_extract

函数描述:regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp字符串正则表达式解析函数。– 这个函数有点类似于 substring(str from ‘regexp’) …参数解释:其中:str是被解析的字符串regexp 是正则表达式idx是返回结果 取表达式的哪一部分 默认值为1。...

2019-03-22 17:25:58 1525

转载 hive函数—— regexp_replace的用法,替换特殊字符问题

数据仓库中有的字段不合格,有特殊字符,比如换行符。poi_name\n19013\n12013regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)Returns the string resulting from replacing all substrings in INITIAL_STRI...

2019-03-22 17:24:01 30185 2

转载 hive行转列 (Lateral View explode())

原始数据:test.txta b 1,2,3c d 4,5,6方案:drop table test_jzl_20140701_test;create table test_jzl_20140701_test(col1 string,col2 string,col3 string)row format delimi...

2019-03-22 17:20:01 1789

转载 Anaconda创建虚拟环境

Python 虚拟环境用于将软件包安装与系统隔离开来。conda创建一个新的虚拟环境,方法是选择 Python 解释器并创建一个 ./venv 目录来存放它:conda create -n venv pip python=3.6 # select python version激活虚拟环境:source activate venv在虚拟环境中,使用 TensorFlow pip 软...

2019-03-17 20:19:15 1364

转载 使用python执行敏感性分析

函数saltelli.sample()将生成一个矩阵,每列代表problem中定义的变量,并在problem中定义的相应边界中采样。之后,您可以将模型定义为函数,如下所示,并计算这些输入的函数ET()的值。结果是函数值的向量,可以通过文档(https://github.com/SALib/SALib)中给出的其他SALib函数发送。from SALib.sample import saltell...

2019-03-13 14:13:02 13841 2

转载 在jupyter notebook上使用虚拟环境

jupyter notebook是交互式的Python运行环境,可以把它看做是一张草稿纸,你可以通过它来进行你的思考探索过程,交互式的进行,每一步都能看到结果,也很方便查看之前的结果。它是使用Python或者R做科学计算和数据分析的利器。前几天有小伙伴问我怎么在jupyter上添加已经创建的Python虚拟环境,为此我也去查了一些资料,很多资料都只是粗略的介绍怎么安装和使用它。最终还是通过goog...

2019-03-13 13:02:50 3224

转载 Hive UDTF开发指南

之前说过HIVE,UDF(User-Defined-Function)函数的编写和使用,现在来看看UDTF的编写和使用。1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.ud...

2019-03-03 11:24:25 616

转载 MySQL explain详解

本文主要讲述如何通过 explain 命令获取 select 语句的执行计划,通过 explain 我们可以知道以下信息:表的读取顺序,数据读取操作的类型,哪些索引可以使用,哪些索引实际使用了,表之间的引用,每张表有多少行被优化器查询等信息。下面是使用 explain 的例子:在 select 语句之前增加 explain 关键字,MySQL 会在查询上设置一个标记,执行查询时,会返回执行计划...

2019-02-22 18:54:39 256

转载 泰勒公式

让我们避开繁琐的推理,从曾经学过的知识慢慢了解泰勒公式。在高等数学的课程上,高数老师出了几道运动学的习题。作者:单手倒立拍星轨链接:https://www.zhihu.com/question/21149770/answer/68051674来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。...

2019-02-13 15:21:52 1062

转载 协同过滤推荐算法的原理及实现

一、协同过滤算法的原理及实现二、基于物品的协同过滤算法详解**一、协同过滤算法的原理及实现**协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filter...

2019-02-12 18:04:38 18294 1

转载 spring 定时任务的 执行时间设置规则

单纯针对时间的设置规则org.springframework.scheduling.quartz.CronTriggerBean允许你更精确地控制任务的运行时间,只需要设置其cronExpression属性。一个cronExpression表达式有至少6个(也可能是7个)由空格分隔的时间元素。从左至右,这些元素的定义如下:1.秒(0–59)2.分钟(0–59)3.小时(0–23...

2019-01-02 10:35:31 438

转载 Superset在windows下的安装配置及基础教程

官方教程:http://superset.apache.org/tutorial.htmlSuperset是由Airbnb(知名在线房屋短租公司)开源BI数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询等,原来是用于支持Druid的可视化分析,...

2018-11-15 20:01:59 4110 4

原创 MapReduce程序服务器部署

1、eclipse maven打包 maven–>update project run as –>maven clean run as –>maven install 选择target目录下带有with dependencies的jar包 2、将jar包放置到hdfs目录下 3、hadoop jar <你的jar包路径及名称>注:程序中所用的路径,要根据core-site.xml配置文件

2017-12-18 10:09:40 543

转载 eclipse配置hadoop2.6.1开发环境并本地跑起来

先安装并启动hadoop,怎么弄见上文http://blog.csdn.net/ABCDEFG0929/article/details/78770246。这里说下怎么设置IDE来开发hadoop代码和调试。首先要确保你本地装了eclipse,再下个eclipse的hadoop插件就完事了。下面细说一下:  1、下载eclipse插件(hadoop-eclipse-plugin-2.6.1.jar)

2017-12-11 11:01:24 487

转载 windows下安装并启动hadoop2.6.1

64位windows安装hadoop没必要倒腾Cygwin,直接解压官网下载hadoop安装包到本地->最小化配置4个基本文件->执行1条启动命令->完事。一个前提是你的电脑上已经安装了jdk,设置了java环境变量,本人用的是jdk1.7.0_15。下面把这几步细化贴出来,以hadoop2.6.1为例  1、下载hadoop安装包就不细说了:https://archive.apache.org/d

2017-12-11 10:37:06 2532

原创 spark windows开发调试环境

spari在windows搭建开发测试环境,需要进行配置 1、JDK 本人用的是jdk1.7.0_15 2、hadoop-2.6.0.tar.gz 下载hadoop-2.6.0.tar.gz,解压,假如解压到D:\hadoop-2.6.0,环境变量添加HADOOP_HOME=D:\hadoop-2.6.0,path添加%HADOOP_HOME%\bin; 3、spark-1.6.0-bin

2017-11-24 17:39:45 490

转载 spark eclipse开发调试 本地单机模式

windows环境下使用eclipse开发spark程序,报错Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.scala:

2017-11-24 17:18:59 2118

转载 InnoDB log file 设置多大合适?

简介:数据库的东西,往往一个参数就牵涉N多知识点。所以简单的说一下。大家都知道innodb是支持事务的存储引擎。事务的四个特性ACID即原子性(atomicity),一致性(consistency),隔离性(isolation),持久性(durability)。其中原子性,一致性,持久性通过redo log 和 undo来实现。redo log称为重做日志,用来保证事务的原子性和持久性。undo l

2017-11-20 11:12:07 741

原创 mysql报错

mysql插入数据报错: 问题一:Error: java.io.IOException: com.mysql.jdbc.PacketTooBigException: Packet for query is too large (6519579 > 4194304). You can change this value on the server by setting the max_allowed

2017-11-20 11:04:04 612

转载 ElasticSearch里面关于日期的存储方式

在ElasticSearch里面最常用的就是时间字段了,经常会在群里看到一些小伙伴提出有关时间的问题,为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。 下面散仙先普及下时区的知识,想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度, 相较于两地时间表,可以显示世界各时区时间和地名的世

2017-11-16 10:10:50 4234

转载 Linux下MySQL数据库常用基本操作 一

1、显示数据库 show databases;2、选择数据库use 数据库名;3、显示数据库中的表show tables;4、显示数据表的结构describe 表名;5、显示表中记录SELECT * FROM 表名6、建库 create database 库名;7、建表create table 表名 (字段设定列表);mysql> create table name( -> id int a

2017-11-09 17:44:38 298

转载 Linux下安装mysql

1、到mysql官网下载mysql编译好的二进制安装包,在下载页面Select Platform:选项选择linux-generic,然后把页面拉到底部,64位系统下载Linux - Generic (glibc 2.5) (x86, 64-bit),32位系统下载Linux - Generic (glibc 2.5) (x86, 32-bit)2、解压64位安装包: 进入安装包所在目录,执行命令

2017-11-09 17:35:20 397

原创 hive表导出至本地文件

通过sqoop导出时遇到问题,所以尝试通过hive表直接导出至本地文件,再加载到mysql数据库,看到网上的方法,尝试了一些,记录成功执行的方法。 提示权限不够,所以需要注意用户权限的问题,切换用户,再次尝试: 成功。 注:1、不需要提前建app_stat_tem.txt文件; 2、注意用户权限问题。

2017-11-06 15:20:08 2841 1

原创 Sqoop异常解决ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: No

最近在做mysql数据导入hive的工作,先前导入的时候没有问题,这两天导另外一张表总是提示 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: No columns to generate for ClassWriter 问题,网上有说是mysql-connector-j

2017-11-03 13:53:14 10367 3

转载 Hadoop Shell命令

FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一

2017-11-01 17:27:42 334

转载 python脚本用sqoop把mysql数据导入hive数据仓库中

使用说明:由于项目需要将mysql中的业务数据导入到hive中,这里采用sqoop来做中间桥梁,并且通过supervisor来做时间控制,让python定时启动,导入数据。 安装sqoop1.4.6和supervisor#! /usr/bin/env python # coding:utf-8 # -------------------------------- # Created b

2017-10-26 16:48:41 814

转载 CentOs 6.x 升级 Python 版本

在CentOS 6.X 上面安装 Python 2.7.XCentOS 6.X 自带的python版本是 2.6 , 由于工作需要,很多时候需要2.7版本。所以需要进行版本升级。由于一些系统工具和服务是对 Python 有依赖的,所以升级 Python 版本需要注意。升级步骤如何欢乐的,没有痛苦的升级python版本 ,往下看 …1、更新系统和开发工具集更新指令yum -y updateyum

2017-10-26 10:15:45 399

原创 python 通过pyhs2进行hql,报错

在用pyhs2作为hive client,hql执行时报错:pyhs2.error.Pyhs2Exception: 'Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask'但是hql是可以执行的。解决方案:原因是因为服务

2017-10-25 18:02:12 1443

原创 windows环境安装pyhs2

使用 pip install pyhs2 失败,尝试其他方法。 找到自己电脑的python路径下的scripts路径,用pip安装whl文件,pip install ***.whl, pip install sasl-0.2.1-cp27-cp27m-win_amd64.whlpip install pyhs2-0.6.0-py2.py3-none-any.whl

2017-10-25 14:02:26 1372

转载 在Eclipse中安装pydev插件(windows)

启动Eclipse, 点击Help->Install New Software… 在弹出的对话框中,点Add 按钮。 Name中填:Pydev, Location中填http://pydev.org/updates 配置pydev解释器 安装好pydev后, 需要配置Python解释器。在Eclipse菜单栏中,点击Windows ->Preferences. 在对话框中,点击pyD

2017-10-23 17:41:14 461

转载 Python csv模块读文件错误 _csv.Error: new-line character seen in unquoted field

csv模块读取文件报错:_csv.Error: new-line character seen in unquoted field - do you need to open the file in universal-newline mode?解决: open文件时使用 universal newline mode,在open()方法中使用 ‘U’ or ‘rU’ ,例如:spamreader

2017-10-17 17:25:36 4913

转载 [Java]读取文件方法大全

1、按字节读取文件内容 2、按字符读取文件内容 3、按行读取文件内容 4、随机读取文件内容 public class ReadFromFile { /** * 以字节为单位读取文件,常用于读二进制文件,如图片、声音、影像等文件。 */ public static void readFileByBytes(String fileName) {

2017-10-16 10:03:25 322

windows-hadoop2.6.1依赖文件

windows下建立hadoop环境时,在bin文件夹下需要添加的依赖文件

2017-12-11

Python2.7之pyhs2安装包

Python2.7之pyhs2安装包 pip install sasl-0.2.1-cp27-cp27m-win_amd64.whl pip install pyhs2-0.6.0-py2.py3-none-any.whl

2017-10-25

码元、波特率、比特率、电平、频道带宽

码元、波特率、比特率、电平、频道带宽的区别

2012-05-22

基于simulink的cdma通仿真信系统

基于Simulink的CDMA的通信系统仿真

2012-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除