自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小苟的专栏

我的博客

  • 博客(135)
  • 问答 (3)
  • 收藏
  • 关注

转载 Spark中广播变量和累加器

一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。二、具体原理1、广播变量广播变量理解图注意事项1、能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 ...

2019-04-24 20:57:37 250

转载 Spark中的Spark Shuffle详解

Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消...

2019-04-24 20:49:57 300

原创 spark2.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5

Carbondata简介ApacheCarbondata是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高查询效率。ApacheCarbondata中文文档地址: http://carbondata.iteblog.comApache Carbondata英文文档:http://carbondata.apache.org/GitHub源码地址...

2019-03-05 15:24:01 2311 6

转载 如何分批次处理List集合中的数据

package com.mianshi;/** * @author gouyangyang on 2019/2/10/010 22:16 */import java.util.ArrayList;import java.util.List;public class ListSplit { public static void main(String[] args) {...

2019-02-10 22:17:54 821

转载 [Java]随机生成5个1~10之间的随机数,存入一个List集合中,编写方法对List进行排序

package com.sj.zy;import java.util.ArrayList;import java.util.Arrays;public class ListRandomSort {    public static void main(String[] args) {        ArrayList<Integer> list   = new ArrayLi...

2019-02-10 22:14:23 5867

转载 mysql rmp 安装

【MySQL】RPM包安装操作系统:Red Hat Enterprise Linux Server release 6.5Mysql安装包:MySQL-5.6.35-1.linux_glibc2.5.x86_64.rpm-bundle.tar ##rpm安装包都是以bundle.tar结尾的,上传的时候请注意。  1.检查是否预安装了MYSQL[root@lgr ~...

2018-12-17 17:27:15 255

转载 Spark数据倾斜调优

一、数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateB...

2018-09-18 13:31:29 128

原创 CDH5.10 安装Kafka

官网地址https://www.cloudera.com/documentation/kafka/latest/topics/kafka_packaging.html下载2.2.0的版本我用的是centos6就下载6的,三个文件都下载下载好的文件以及路径校验一下下载的文件是否是完整,如果不完整也会安装不成功选择parcel,添加kafka的路径保存以后会自动检测,点击download然后每台机器分...

2018-05-07 19:44:56 399

原创 开机ntpd自动启动

开启ntpd服务service ntpd start chkconfig ntpd on  #设置为默认启动,关掉使用off

2018-05-06 22:29:47 14198

原创 CDH5.10 Yarn 配置HA

CDH5.12 Yarn 配置HA 选择yarn选择 Enable Hight Availability选择机器,选进程比较少的然后continue选择Continue,点击Finish。看看进程CDH的源码目录

2018-05-06 22:27:57 1352

原创 CDH 5.10 HDFS 配置HA

选择hdfs选择下面的下一步继续下一步JournalNode Hosts 是日志级别,所有的机器都选下一步安装点击继续成功会在那里显示,会多出那些进程 ,会有standby和active两个进程。根据进程查找端口号看看第二台,这个错误是正常的,只能去主节点,其他的都是只读的。...

2018-05-06 19:58:20 1718

转载 Python中操作mysql的pymysql模块详解

前言pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。本文测试python版本:2.7.11。mysql版本:5.6.24一、安装    pip3 install pymysql二、使用操作1、执行SQL#!/usr/bin/env pytho# -*- coding:utf-8 -*-impor...

2018-04-28 19:58:23 2218

转载 手动安装Cloudera Hadoop CDH

转自: http://blog.javachen.com/2013/03/24/manual-install-Cloudera-Hadoop-CDH.html安装版本hadoop各个组件和jdk版本如下: hadoop-2.0.0-cdh4.6.0 hbase-0.94.15-cdh4.6.0 hive-0.10.0-cdh4.6.0 jdk1.6.0_38hado...

2018-04-28 09:54:01 589 1

原创 CHD 5.10 离线安装

安装虚拟机,我用的是centos6.5的版本。选择回车重启机器设置虚拟机网络1.集群节点规划,安装三台机器,每台机器都执行以下操作,切记![root@hadoop-cdh1 ~]# vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop-01  # 机器名称GATEWAY=192.168.137.2  # 网关[root@hadoop-cdh1...

2018-04-20 19:00:46 1691

转载 修复HDFS JournalNode 的硬盘损坏

如果部署了Cloudera 的HDFS HA,那么在更换了新硬盘后,重启JournalNode 会出现"JournalNotFormattedException: Journal Storage Directory /data/2/dfs/jn/nameservice1 not formatted" 这样的错误。原因是在新的硬盘上的jn 目录下没有VERSION文件用来恢复。解决方法是重新创建对应...

2018-04-11 17:39:50 1651

原创 hive/lib/hive-common-2.2.0.jar!/hive-log4j2.properties Async: true

今天安装hive的时候报这个错,用的是hive2.2.0的版本,花了两个小时才解决。Logging initialized using configuration in jar:file:/opt/software/hive/lib/hive-common-2.2.0.jar!/hive-log4j2.properties Async: trueException in thread "main"...

2018-04-09 21:09:18 3859

原创 hadoop 单机安装 slaves.sh: line 60: ssh: command not found

最近在安装hadoop 单机版,一直报了一个错误,找不到原因,错误信息。[root@hadoop sbin]# ./start-dfs.sh18/04/04 05:05:55 DEBUG util.Shell: setsid exited with exit code 018/04/04 05:05:56 DEBUG lib.MutableMetricsFactory: field org.apa...

2018-04-03 21:39:15 2104 1

转载 spark参数调优

摘要  1.num-executors  2.executor-memory  3.executor-cores  4.driver-memory  5.spark.default.parallelism  6.spark.storage.memoryFraction  7.spark.shuffle.memoryFraction  8.total-executor

2017-12-17 14:32:58 236

转载 大数据常用组件总结

Hadoop生态圈各常用组件介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和MapReduce。Hdfs是分布式文件存储系统,用于存储海量数据;MapReduce是并行处理框架,实现任务分解和调度。Hado

2017-12-05 19:57:09 1663

转载 Linux 安装mysql

1.Download and Check MD5[root@sht-sgmhadoopnn-01 ~]# cd /usr/local[root@sht-sgmhadoopnn-01 local]# wget http://mirror.lug.udel.edu/pub/mysql/MySQL-5.6/mysql-5.6.22-linux-glibc2.5-x86_64.tar.gz[root@sh...

2017-11-29 16:14:59 451

转载 基于CentOS6.4环境编译Spark-2.1.0源码

1 写在前面的话有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示 Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能够满足我们的要求呢?答案肯定是否定的,根据本人近几年做Spark的开发经验,列出如...

2017-06-15 13:04:32 870

转载 Spark-SQL之DataFrame操作大全

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。  本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成  Spark-SQL可以以其他RDD对象、parquet文件、json

2017-06-01 09:49:18 601

转载 Android——requestWindowFeature()的应用

Android开发中经常会在setContentView(R.layout.XXX); 前设置requestWindowFeature(XXXX)。他的意思是需要软件全屏显示、自定义标题(使用按钮等控件)和其他的需求首先介绍一个重要方法那就是requestWindowFeature(featrueId),它的功能是启用窗体的扩展特性。参数是Window类中定义的常量。一、枚举常量1

2016-08-16 20:26:50 339

原创 java Object类

/** * java 中一切的类都是继承关系的存在,假如现在定义一个Person类,并没有明确的继承那个类 则继承Object类 *  * @author Administrator */

2016-05-01 21:50:33 522

原创 MySQL 怎样通过相同字段,查询另一个表中的数据

比如a1表中和b1表中都有一个名字的字段,怎么通过b1标中的名字这个条件查寻A表中这个人的性别?1、创建表create table a (name varchar(20) not null,sex varchar(10));create table b (name varchar(20) not null,sex varchar(10));2、插入值insert into a va

2015-01-16 22:01:15 12897

转载 JAVA传给方法的参数详解

转贴自百度文库:http://wenku.baidu.com/view/77f67efbfab069dc5022019c.html面试题:当一个对象被当作参数传递到一个方法后,此方法可改变这个对象的属性,并可返回变化后的结果,那么这里到底是值传递还是引用传递?     答:是值传递。Java 编程语言只有值传递参数。当一个对象实例作为一个参数被传递到方法中时,参数的值就是该对象

2014-08-06 07:25:30 705

转载 Java数据类型中String、Integer、int相互间的转换

1.Integer转换成int的方法Integer i; int k = i.intValue();即Integer.intValue(); 2.int转换成Integerint i;Integer it = new Integer(i); 3.String转换成int的方法String str = "10";  Integer it = new Int

2014-07-10 20:59:28 1897

转载 MySQL教程之error150错误提示解决技术

当你试图在mysql中创建一个外键的时候,这个出错会经常发生,这是非常令人沮丧的。 像这种不能创建一个.frm 文件的报错好像暗示着操作系统的文件的权限错误或者其它原因,但实际上,这些都不是的,事实上,这个mysql报错已经被报告是一个mysql本身的bug并出现在mysql 开发者列表当中很多年了,然而这似乎又是一种误导。 在很多实例中,这种错误的发生都是因为mysql一直以

2014-07-08 09:18:55 950

转载 spring相关jar架包简介

spring.jar是包含有完整发布的单个jar包,spring.jar中包含除了?spring-mock.jar里所包含的内容外其它所有jar包的内容,因为只有在开发环境下才会用到spring-mock.jar来进行辅助测试,正式应用系统中是用不得这些类的。除了spring.jar文件,Spring还包括有其它13个独立的jar包,各自包含着对应的Spring组件,用户可以根据自己的需要来选

2013-09-20 08:42:48 3493 2

原创 java 开源网站

http://www.open-java.com/http://www.51cto.comhttp://oschina.nethttp://www.w3school.com.cnhttp://www.uml.org.cnhttp://www.1keydata.com/cn/sql/sql-distinct.phphttp://javakaiyuan.comhttp://

2013-04-21 16:33:17 740

转载 struts-bean.tld,struts-html.tld,struts-logic.tld 文件的作用

struts-html标签库。这个库可以被用来生成动态HTML用户界面和窗体。struts-bean标签库。在将JavaBean代码放入JSP   页面时这个库提供实质性的加强的功能以改善其性能,它由标签提供。 struts-logic标签库。这个库可管理有条件的文本生成,在对象集合中循环以重复生成输出文本和应用程序流程管理。 struts-template标签库。在为具有

2013-04-17 14:06:38 1665

转载 Java内存管理 内存如何分配

一、Java内存分配1、 Java有几种存储区域?* 寄存器     -- 在CPU内部,开发人员不能通过代码来控制寄存器的分配,由编译器来管理* 栈     -- 在Windows下, 栈是向低地址扩展的数据结构,是一块连续的内存的区域,即栈顶的地址和栈的最大容量是系统预先规定好的。     -- 优点:由系统自动分配,速度较快。     -- 缺点:不够灵活,但程序

2013-04-11 15:13:30 501

转载 Eclipse快捷键大全

Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对

2013-03-17 10:32:02 521

转载 Jquery学习网站 Jquery下载 Jquery 持续更新

最终直接到jQuery的官方上下载,目前jQuery最新版是1.3.2,下面是jQuery的下载地址:jquery-1.3.2.min(压缩版)有55.9Khttp://code.google.com/p/jqueryjs/downloads/detail?name=jquery-1.3.2.min.js&downloadBtn=%3CSPAN%3EDownload%3C%2FSPAN%3

2013-03-13 20:00:55 865

转载 confirm

对话框有三种 1 alert 只是提醒,不能对脚本产生任何改变; 2 confirm 一般用于确认,返回 true 或者 false ,所以可以轻松用于 if...else...判断  3 prompt 一个带输入的对话框,可以返回用户填入的字符串,常见于某些留言本或者论坛输入内容那里的 插入UBB格式图片  下面我们分别演示: Insert ti

2013-02-20 23:17:17 685

转载 sql 查询重复行数据

1、查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select* from peoplewhere peopleIdin (select  peopleId from  people group  by  peopleId  having  count(peopleId)> 1)例二:select *from testtab

2013-02-20 23:10:07 6851

转载 Oracle、DB2、SQLSERVER、Mysql、Access分页SQL语句梳理

sqlserver分页 第一种分页方法需用到的参数: pageSize 每页显示多少条数据 pageNumber 页数 从客户端传来 totalRecouds 表中的总记录数 select count (*) from 表名 totalPages 总页数 totalPages=totalRecouds%pageSize==0?totalRecouds/pageSize:

2013-02-14 15:41:19 605

转载 hibernate 根据实体类自动生成表

今天首先介绍其中的一个属性hbm2ddl.auto,这个就是这个方案的核心属性,有四个值:create,create-drop,update看看我们从网上查找到得资料:create-->create-drop-->update-->validate-->这样的话,设计实体类,直接写POJO,然后写映射,让hibernate帮我们生成数据库表。或者我们知道了m

2013-02-12 21:39:03 1205

转载 64位windows7 上安装32位oracle 10g 的方法

历尽种种磨难,终于把工作用的32位oracle 10g 装到64 位 windows7上了。不要问我为什么不装64位oracle或者 oracle 11g,工作需要,这是唯一理由。遇到的种种问题,绕过的弯路就不罗嗦了,直接给出成功步骤。哦~~ 再罗嗦一句,说一下软件环境:操作系统: windows7 中文旗舰版 oracle安装版本: 10.2.0.1 中文版,升级补丁至 10.2

2013-02-12 00:22:27 579

原创 怎么查看你的电脑是否支持64位操作系统

第一步:点击我的电脑右键属性点击Windows体验指数 点击查看和打印详细信息的性能和系统信息。ok!

2013-01-28 20:23:04 1523

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除