自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

原创 linux 上python集成cx_Oracle流程

1、所需要的文件1、https://www.oracle.com/database/technologies/instant-client/downloads.html这是oracle迷你客户端的下载,根据你的oracle版本和服务器的版本进行选择,这里需要两个文件 instantclient-basic-linux.x64-21.1.0.0.0.zip instantclient-sdk-linux.x64-21.1.0.0.0.zip2、https://pypi.org/sea

2020-12-17 15:27:52 592

原创 多个jar包合成一个jar包

1、到所有合并的jar下面,新建一个文件夹new_jar2、cd new_jar,进入到新的文件夹 jar -xvf ../*.jar3、jar - cvfM all_jars.jar ./* 将所有解压的文件,重新打成一个jar包

2020-05-29 10:29:08 672

原创 pyspark 与es的交互

# Author:Dengwenxing# -*- coding: utf-8 -*-# @Time :2019/12/30 15:09# @Site :# @fILE : esReader.py# @Software :import sys, osfrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as funfr.

2020-05-25 18:45:17 1843

原创 pyspark集群环境中jdk版本不兼容,python无相应模块的包的解决办法

问题:在某些情况下,我们会用到其他厂商的大数据平台,而我们是没有相关管理权限的,但是集群和我们已有的代码所需要的环境存在差异,所以我们要向集群设置我们自己的运行环境的参数等,主要解决方案如下1、对于pyspark,首先我们需要一个我们的相关的所有包的python虚拟环境,这里推荐anaconda的虚拟环境,里面包含很多科学计算的模块便于数据分析使用,在任意一台能联网的机器上创建一个con...

2020-05-08 14:54:08 1343

原创 pyspark 与hbase的读写

在读取hbase的时候,由于hbase存储的是16进制的字节码,我这里用了各种方法,都无法在转换为df的时候,将其转换为中文,看了很多方法,各种decode, encode都没有找到合适的方法,如果有哪位同学,在看到这篇文章并解决了这个问题,麻烦告知我一声,谢谢读取hbase 需将hbase下lib的几个常用包,软连接到spark的jars目录下出现无法读取hive.sql的问题,将hi...

2019-12-31 17:17:09 1485

原创 spark 读写hbase

测试代码package make.zhangsheniMainimport make.bean.CaseClass.userimport make.service.HbaseServiceimport make.tools.PropertiesToolimport org.apache.hadoop.hbase.client.{Put, Result}import org.apa...

2019-11-06 16:37:15 173

原创 spark 读写 es

测试代码:package make.zhangsheniMain/** * Hello world! * */import make.bean.CaseClass.{people, people_id}import make.service.EsServiceimport make.tools.{DateUtils, PropertiesTool}import or...

2019-11-06 16:33:43 654

原创 shell 日期格式化

now_day=`date -d today +"%Y-%m-%d %T"`now_day=`date -d yesterday +"%Y-%m-%d %T"`cp=`date -d today +"%Y%m%d00"`

2019-04-29 15:30:22 1098

原创 jyputer notebook 与pyspark在本地windows的环境配置

1、下载anacond并安装,可以选择自动配置环境变量,也可以后面手动配置环境变量2、http://spark.apache.org/downloads.html下载spark的对应版本3、解压到一个指定的你想要存放的本地spark目录,自己创建,方便以后管理4、设置各种环境变量,如下这里 java scala 的环境配置不必要但是还是需要配置一下,特别注意这里的PYSP...

2019-04-12 20:08:47 635

原创 记一次用pyspark 对地理数据的的索引距离判定

1、接到一次需求,需要对源手机的定位数据,来判定是否处于景区和商圈的范围内,来宏观统计消费流量2、最开始,正常的想法,我需要对每条数据的经纬度和列表的经纬度做一次距离判定,判断该手机定位是否是属于某一个地方,如果是则对其进行保留,不是进行过滤,但是由于数据量巨大,每天的数据量约为80亿条,及每一条数据的经纬度都要做130次经纬度的距离计算,可以想象 这个计算量是非常巨大的,尝试跑了一下,但是非...

2019-04-12 18:03:43 1016

原创 记一次pyspark 的一个报错处理

在运行PySpark程序的时候,报错为:PySpark error: AttributeError: 'NoneType' object has no attribute '_jvm'是因为定义了一个udf函数,在函数中使用abs()方法,于是就出现了这种情况查找原因发现是使用from pyspark.sql.functions import * 语句引入的时候,覆盖了abs()方法导致...

2019-03-30 16:54:27 641

原创 pyspark 对接kafka 写入hive

1、pyspark 对接kafka需要依赖一些jar包 kafka-0-8或者kafka-0-10的关于kafka版本的全部的包 大概如下,反正如果jar包不全会有各种异常信息,到时候对应着补齐就行,注意自己的kafka和spark的版本 kafka_2.x-0.x.0.0.jar kafka-client-0.x.0.0.jar spark-sql-kafk...

2019-03-08 11:55:04 2422

原创 redis 安装和简单的命令

1、下载redis.4.0.12.tar.gz     https://redis.io/download2、随便解压到哪里  然后cd 到 src/ 目录下  执行 make 等他编译完   直接make install 会默认安装在 usr/local/bin 目录下,将五个而二进制文件  复制到你想要的 安装目录3、创建一个 conf文件夹    vim pid_6379.conf ...

2019-01-09 16:28:25 225

原创 es的坑 记一次处理节点启动异常

1、本来按照往常的节奏,今天应该对图库的数据进行全量更新,但是下午悠哉来到办公室,他么的,我的spark任务怎么挂了,于是开始排查原因 2、发现日志报错,GraphFactory could not instatiate this Graph implementation ???  于是想到是不是图库挂了,于是去尝试重启图数据库,特喵的  还是报错  具体是  无法与一个节点进行通讯,这就...

2018-12-05 10:51:25 1524

原创 shell 以某个字符开头的判断

 判断是否以v开头if [[$1 =~^v.* ]]; then    commondelse    commondfi  

2018-11-06 20:30:13 26691

原创 jg的相关知识点

1、jg分为节点表,和边表,节点有自己的jid和相关属性字段,这个jid为全局唯一,每一个节点的jid都不一样2、边表会保存两个jid,一个start_jid,为起始节点,一个end_jid,为终止节点,还包括边的相关属性信息3、因为jg的数据是存入hbase中的,所以要对index即jid进行散列,防止热点 一个hive到jg的数据写入和rowkey设计的案列# encod...

2018-10-30 10:56:48 739

原创 初识mongodb

1、下载zip包解压,进入命令行2、show dbs  查看相关数据库,3、db.createCollection("maketubu", {capped:true, size:100000,autoIndexId:true,max:2000})  创建集合capped:(可选)如果为 true,则创建固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最早的文档...

2018-10-24 22:44:21 261

原创 pyspark 对RDD的相关api

1、aggregate,可以用来求平均值如下示例rdd2 = spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop = (lambda x,y: (x[0]+ y, x[1]+ 1)) #0+1 0+1 1+2 1+1 3+3 2+1cpmop= (lambda x,y: (x[0]+ y[0],...

2018-10-18 11:34:52 1341

原创 工作中 pyspark的小知识点

1、df.na.fill({'字段名1':'default','字段名2':'default'})   对空值进行替换2、df.dropDuplicaates()    去重根据字段名进行去重,空参为全部字段3、df.subtract(df1)     返回在当前df中出现,并且不在df1中出现的元素,不去重。4、print time.localtime([timestamp])   ...

2018-10-16 19:46:10 916

原创 配置jupyter 虚拟机spark+python2.7.15

1、将默认的 phthon2.6.6 换成2.7.15  如下wget https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tgztar -zxvf Python-2.7.15.tgzcd Python-2.7.15./configure --prefix=/usr/local/python2makemake ins...

2018-10-15 16:05:25 505

原创 python 身份证校验

国家校验码校验标准1、将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ;2、将这17位数字和系数相乘的结果相加;3、用加出来和除以11,看余数是多少;4、余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 ...

2018-10-09 13:16:26 8329 2

原创 spark sql 的常用写法

import org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}object taxi_csv { def main(args: Array[String]): Unit = { ...

2018-09-28 17:13:12 1522

转载 hadoop 参数调优及测试

hadoop参数优化#hadoop验证版本为2.6.4,其它版本酌情参考core-site.xml参数名 默认值 说明 hadoop.tmp.dir /tmp/hadoop-${user.name} hadoop中间临时文件最好单独指定目录,比如mr split信息,stag信息 io.file.buffer.size 4096 设置IO操作缓...

2018-08-23 11:19:35 935

转载 hadoop集群运维

(一)备份namenode的元数据namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。1、将元数据复制到远程站点(1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发送到其它机器#!/bin/bashexport dirname=/mnt/tmphadoop/...

2018-08-23 10:12:44 1294

原创 kafka_2.11-0.10.2.1 的生产者 消费者的示例(new producer api)

环境,以及单独的pom.xml文件环境:java 1.8 ,kafka_2.11-0.10.2.1pom.xml文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3....

2018-08-09 13:47:31 1977 2

原创 sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示

今天讲了kafka和sparkstream的一个简单结合,试着在网上找了一个例子进行实现1、相关配置 spark2.2.0,scala2.11.8,kafka_2.10-0.10.2.1,jdk1.82、这里是自己的pom.xml文件  如下<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://...

2018-08-08 19:14:26 1838

原创 spark2.2.0 kafka 0.10.2.1的createDirectStream第一次尝试

1、这里简单记录一下 kafka的简单操作命令     创建Topic     $ bin/kafka-topics.sh --create --topic make2 --zookeeper make.spark.com:2181/kafka_10 --replication-factor 3 --partitions 3 --config max.message.bytes=128000...

2018-08-07 23:44:13 939

转载 Spark Cache和Checkpoint功能

Cache 和 Checkpoint作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大,task 中 computing chain 可能会很长,计算某些 RDD 也可能会很耗时。这时,如果 task 中途运...

2018-08-06 10:16:54 1338 1

转载 spark 基本概念与入门

Spark集群一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元。Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务的执行,集群中的计算资源则交给Cluster Manager这个角色来管理,Cluster Manager可以为自带的Standalone、或第三方的Yarn和Mesos。Cluster Mana...

2018-08-06 10:16:44 137

转载 spark 数据倾斜 解决思路

数据倾斜调优- 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见- 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见数据倾斜发生的原因:在进行shuffle的时候,必须将各个节点上...

2018-08-06 10:16:29 181

转载 spark 的内存管理机制

1. 堆内和堆外内存规划作为一个 JVM 进程,Executor 的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的堆内(On-heap)空间进行了更为详细的分配,以充分利用内存。同时,Spark 引入了堆外(Off-heap)内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用。图 1 . 堆内和堆外内存示意图1.1 堆内内存堆内内存的大...

2018-08-06 09:56:55 2979

转载 spark 性能调优 高级篇 数据倾斜,和shuffle调优

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证...

2018-08-06 09:55:09 188

转载 spark 性能调优 常见思路 基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...

2018-08-06 09:54:07 229

转载 spark 底层调度

Spark Scheduler内部原理讲解分布式运行框架Spark可以部署在多种资源管理平台,例如Yarn、Mesos等,Spark本身也实现了一个简易的资源管理机制,称之为Standalone模式。由于工作中接触较多的是Spark on Yarn,以下所述表示Spark on Yarn。Spark部署在Yarn上有两种运行模式,分别是client和cluster模式,它们的区别仅仅在于S...

2018-07-31 18:46:37 834

原创 spark RDD的底层原理、任务提交、资源调度等记录

开始在IDEA中编写代码(可以用spark实现原始的mapreduceSpark on windows local  异常信息:    1. 17/05/20 09:32:08 ERROR SparkContext: Error initializing SparkContext.        org.apache.spark.SparkException: A master URL ...

2018-07-23 18:14:45 1725

原创 spark 提交任务到yarn上运行

1、在idea上先写好,自己的代码并进行测试,这里贴一个很简单的统计单词个数的代码package sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { /...

2018-07-20 17:54:57 5235

转载 大数据常用端口

Hadoop:        50070:HDFS WEB UI端口    8020 : 高可用的HDFS RPC端口    9000 : 非高可用的HDFS RPC端口    8088 : Yarn 的WEB UI 接口    8485 : JournalNode 的RPC端口    8019 : ZKFC端口    10020:historyserver端口Zo...

2018-07-19 14:39:51 921

原创 hive 修改元数据库 对mysql的修改及权限设置

1、查看对应的权限(把表清空)select user,host from mysql.user;mysql> d.1';Query OK, 1 row affected (0.00 sec)elete from user where host='127.0.0mysql> delete from user where host='make.spark.com';Query OK, 2 ...

2018-07-10 22:49:22 1154

原创 flume 之监视日志数据抽出到hdfs上示例

今天学习了一个新的轻量级框架,就是一个的实时日志收集系统,由cloudera公司开发的框架下面贴上代码##对log的完成数据,进行数据抽取,并对文件夹下所有文件进行实时监视###define agenta3.sources = r3a3.channels = c3a3.sinks = k3#define sourcesa3.sources.r3.type = spooldira3...

2018-06-30 09:41:24 654

原创 flume导入日志数据之hive分区

1、环境配置,截图如下2、我们知道sink-hive官网上有一个分区的示例,我们看一下但是这个示例我没有看懂什么意思,所以作为小白的我,开始了另一种分区的方式2.1首先我们看看我们需要分区的日志文件的格式"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440&quo

2018-06-29 18:43:34 4507 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除