一只行走在闹市的猪-CSDN博客

原创 clickhouse安装部署

clickhouse修改配置文件后报UNKNOWclickhouse的安装部署clickhouse集群的安装部署

2020-04-23 17:38:01 1282

原创【Hive】：java.lang.RuntimeException: Error creating a batch

Hive运行时报如下错误：Error: java.lang.RuntimeException: Error creating a batch at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcInputFormat$VectorizedOrcRecordReader.createValue(VectorizedOrcInput...

2019-07-01 10:51:01 976

原创 Linux CentOS 6将mysql 5.1.73 升级到 mysql 5.7.25

参考：https://blog.csdn.net/u010199866/article/details/80997485先下载mysql 5.7.25wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.25-1.el6.x86_64.rpm-bundle.tar1.将数据库中的数据进行备份2.停掉mysql服务...

2019-03-20 15:58:02 873 2

原创 sql语句的优化（mysql）

在做数据的过程中，我们会遇到很多很多写sql的情况，当数据量级很大的情况下，怎样提高sql的执行效率，怎样优化已经写好的sql。当你做的时间久了你自然会知道，但是刚开始的时候，可能了解一些技巧，更容易得心应手。这里只从sql的执行顺序来考虑，不去探讨sql的底层机制。sql语句的优化1.首先要知道sql语句的执行顺序（from、join、on、where、group by 、avg（sum...

2019-03-15 13:44:56 178

原创 Sqoop将SQLServer数据导入Hive表中

这里我使用的的CDH5.15.0对应的sqoop版本1.4.6java使用的是jdk1.8正常的安装配置完sqoop之后，并不能通过sqoop将SQLServer数据导入到Hive或HDFS中，还需要三个jar包。java-json.jar（http://www.java2s.com/Code/JarDownload/java-json/）sqljdbc42.jar（下载地址：ht...

2018-11-20 16:40:21 3380

原创 Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 。。。。。。

当用hive查询数据时报Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 。。。。。。哪怕是简单的查两条数据这是表的存储格式导致的用ORC格式，需先将数据导入textfile格式的临时表...

2018-11-20 14:09:15 5678 2

原创 Kettle环境搭建及使用（数据迁移）

Kettle的功能非常强大，是一款免费开源的ETL工具。这里主要讲将Excel文件数据导入到数据库中。Kettle下载下载地址：https://community.hitachivantara.com/docs/DOC-1009855进入以上网址，一直下滑到Download目前最新版本是7.1，直接点击就能下载，老版本需要选择，我下载的是7.1版本。安装Kettle的安装非...

2018-10-10 14:24:30 2860

转载 MySql错误代码大全

B.1.服务器错误代码和消息服务器错误信息来自下述源文件：·错误消息信息列在share/errmsg.txt文件中。“%d”和“%s”分别代表编号和字符串，显示时，它们将被消息值取代。·错误值列在share/errmsg.txt文件中，用于生成include/mysqld_error.h和include/mysqld_ername.hMySQL源...

2018-10-10 11:18:28 522

转载数据仓库建设中的数据建模方法

https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/

2018-08-25 12:08:45 320

原创位运算符(&，|，＞＞……)及二进制下负数的表示

int型是4字节32位（Java中）位运算符： &，|，~，^，<<，>>，>>>"&" 按位与，计算时将十进制转为二进制再进行计算，同位置为1，则结果为1，其余情况皆为03： 00000000 00000000 00000000 000000116： 00000000...

2018-07-24 13:02:43 1418

转载图文：HBase工作原理详解

HBase架构组件从物理结构上讲，HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时，客户端直接和Region Servers通信。Region的分配，DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分，维护着一个活动的集群。 Hadoop...

2018-07-20 12:01:13 3102

原创 Scala学习（6）——集合之高阶函数

//可以使用Range，to，until创建list集合 val list: List[Int] = Range(1,10).toList println(list.mkString("\t")) /** * final def map[B]( f: (A) ⇒ B): List[B] * map():f:(A) => B * ...

2018-07-16 13:01:16 221

原创代码详解：Scala学习（5）——集合之List（1）

//------------------不可变集合：List------------------- //创建一个list val list: List[Int] = List(1,2,3,4,5,6) //list由head和tail组成 //list = head（element）+ tail（elements）， // 除了头部以外的全部元素都...

2018-07-15 19:56:40 420

原创 Scala学习（4）——集合之Array

//--------------------不可变数组：Array---------------- //将指定的值创建为数组 val arr: Array[Int] = Array(1,2,3,4,5,6,7) //获取数组中的元素，使用下标获取 println(s"first element:${arr(0)}") //获取数组长度 prin...

2018-07-15 19:53:51 181

原创 Scala学习（3）——定义函数和函数的使用

/** * 判断x是否大于y * @param x * @param y * @return x>y返回true，否则返回false */ def max(x:Int,y:Int):Boolean = { if (x > y) true else false } /** * 找出两个...

2018-07-13 22:19:28 705

1、作为“通配符”，类似Java中的*。如import scala.math._2、:_*作为一个整体，告诉编译器你希望将某个参数当作参数序列处理！例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数，并乘以2，可以用以下办法：a.filter(_%2==0).map(2*_)。又如要对缓冲数组A...

2018-07-13 22:00:18 17976 1

原创 Scala学习（2）——循环中的break怎么用

//定义数组 val arr = Array(1,2,3,4,5,6,7,8) //遍历数组 var index = 0 //Scala中break和Java中的break区别很大 //Scala的break需要new Breaks给一个变量 val loop = new Breaks() //将循环放入breakable...

2018-07-13 21:29:38 447

原创 Scala学习（1）——for循环

//to 前后都包含 //until和range只包含前，不包含后 //循环表达式 println("--------------循环表达式-------------") val arr = 1 to 9 println(s"to表达式：${arr.toString()}") val arr1 = 1 until 9 println...

2018-07-13 21:11:43 797

原创 String、StringBuilder和StringBuffer的区别（代码）

StringBuffer是线程安全的，线程安全会加同步锁，所以StringBuffer速度慢StringBuilder是线程不安全的，故速度快因此速度上：StringBuilder>StringBuffer>StringString速度慢的原因：String是字符串常量，StringBuilder和StringBuffer均是字符串变量 a. String s...

2018-07-12 17:51:30 590

原创 ClassLoader、Class类

class：Class类可以获得一个对象所对应的类中的所有信息，如属性，方法，构造器，注解，其父类，实现的接口等。Class类的构造器是一个私有的，Class类的实例不能通过new来创建一个类对应一个Class类的实例Java语言系统自带有三个类加载器: Bootstrap ClassLoader（启动类加载器）最顶层的加载类，主要加载核心类库，%JRE_HOME%\lib下的rt.jar、re...

2018-07-07 19:18:31 350

原创 MVC、MVP、MVVM的区别

MVC、MVP、MVVM这些模式是为了解决开发过程中的实际问题而提出来的，目前作为主流的几种架构模式而被广泛使用。一、MVC（Model-View-Controller）MVC是比较直观的架构模式，用户操作->View（负责接收用户的输入操作）->Controller（业务逻辑处理）->Model（数据持久化）->View（将结果反馈给View）。MVC使用非常广泛，比如J...

2018-07-07 18:50:06 197

原创列举网站分析的几大模块？每个模块常见的指标？每个指标字段含义，怎么得到，怎么分析？

统计的指标： PV（浏览次数）：即通常说的PV（PageView）值，用户每打开1个网站页面，记录1个PV。用户多次打开同一页面PV累计多次。 UV（独立访客）： 1天（00:00-24:00）之内，访问网站的不重复用户数（以浏览器cookie为依据），一天内同一访客多次访问网站只被计算1次。 IP： 1天（00:00-24:00）之内，访问网站的不重复IP数。一天内相同I...

2018-07-05 20:07:06 1115

原创什么是nosql

NoSQL不仅仅是No SQL，还是Not only SQL CAP原则又称CAP定理，指的是在一个分布式系统中，Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。分类 Examples举例典型应用场景数据模型优点缺点键值（key-value） ...

2018-07-03 19:41:47 19016

原创 MapReduce的优化（MapShuffle的2个阶段、3个功能、2大优化）

MapReduce的shuffle 2个阶段： map端（phase）的shuffle reduce端（phase）的shuffle3个功能：分区 – 决定mapTask的输出的数据给那个 reduce task处理排序 – 至少经过3次排序分组 – 将相同key的value放入一个集合中2大优化 map phas...

2018-07-02 10:59:11 510

原创 CentOS 6.x 用yum安装mysql

查看安装：yum list mysql* 安装：sudo yum -y install mysql-server 设置免密登录：切到/etc下，在my.cnf最后追加skip-grant-tables sudo echo “skip-grant-tables” >> /etc/my.cnf 启动mysql服务：sudo service mysqld start 免密码登录：m...

2018-06-23 09:10:48 137

原创代码：MapReduce程序模板

MapReduce：public class MRDriver extends Configured implements Tool { @Override public int run(String[] args) throws Exception { //1.创建job Job job = Job.getInstance(this.ge...

2018-06-22 19:15:16 222

原创 shuffle的工作原理

shuffle实现的功能分区决定当前key交给那个reducer进行处理相同的key必须在一个reduce task中默认：按照key的hashCode值对reduce的个数进行取余如果是自定义分区，默认是对key进行分区，但是我们也可以根据value进行分区分组将相同的key的value进行合并，key相同的话，会分到同一组在m...

2018-06-15 20:25:24 1527 1

原创代码：Java实现大数据经典案例WordCount

要求：统计文本中出现的单词数，并按数量降序、单词升序输出

2018-06-14 20:25:18 3571 3

原创工具类Collection，Set的实现类HashSet和TreeSet，List的实现类ArrayList和LinkedList

Collection: 单例集合的根接口 List：如果是实现了List接口的集合类，具备的特点：有序，重复。 ArrayList：底层是使用了Object数组实现的，特点：查询快，增删慢 LinkedList：底层是使用了链表数据结构实现的，特点：查询慢，增删快Vector:实现与AyyayList是一致的，相当于ArrayList的老版本 Set：如果是实现了Set...

2018-06-14 20:11:40 424

原创泛型

泛型：泛型是JDK1.5出现的新特性。泛型的好处： 1：将运行时出现的问题提前至了编译时 2：避免了无谓强制类型转换泛型是JDK1.5使用的新特性。泛型在集合中的常见应用：ArrayList<String> list = new ArrayList<String>(); true 推荐使用ArrayList&l...

2018-06-14 20:03:25 178

原创 Linux面试题

1．简述Linux文件系统通过i节点把文件的逻辑结构和物理结构转换的工作过程。参考答案： Linux通过i节点表将文件的逻辑结构和物理结构进行转换。 i节点是一个64字节长的表，表中包含了文件的相关信息，其中有文件的大小、文件所有者、文件的存取许可方式以及文件的类型等重要信息。在i节点表中最重要的内容是磁盘地址表。在磁盘地址表中有13个块号，文件将以块号在磁盘地址表中出现的顺序依...

2018-06-14 19:55:50 306

原创 MapReduce程序执行过程

Hadoop hive spark hive spark HBASE input -》默认从HDFS中读取数据 FileInputFormat -》将每一行转成keyvalue -》输出： <行偏移量，行内容> key value 0 Hadoop hive ...

2018-06-14 19:27:32 465

原创图文：以MapReduce编程五步走为基础，说MapReduce工作原理

在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想，MapReduce主要分为两部分，一部分是Map——分，一部分是Reduce——合MapReduce全过程的数据都是以键值对的形式存在的首先，我们假设我们有一个文件，文件中存了以下内容 hive spark hive hbase hadoop hive spark sqoop ...

2018-06-13 21:27:33 3287 2

原创 Hadoop安装配置之伪分布式安装

Hadoop伪分布式安装版本选择2.7.X，我选择的是2.7.3安装过程安装前准备（1）上传解压（2）查看目录结构（删除以下文件） bin/*.cmd sbin/*.cmd share/doc （3）修改3个模块的环境变量，修改JAVA_HOME的值为jdk的安装路径 hadoop-env.sh（23行） yarn-env.sh（26...

2018-06-12 14:28:50 280 5

原创运算符（=还是==怎样区分）

运算符：（1）算术运算符+、-、*、/、%、++、--除法有两种：一般除法和整除，如果除数和被除数都为整型，则执行的是整除，否则执行一般除法。求余可用于判断奇偶、判别因子、控制数据的周期性变化关系运算符>、<、>=、<=、==、!=逻辑运算符&&、||、!赋值运算符= 将数值存入内存单元赋值运算左边一定是变量而不能是其它任何东西（why）特别注意此处有坑!...

2018-06-11 14:36:43 311

原创 IDEA怎样创建一个maven项目

用idea创建一个maven项目，新建项目，选择maven 下一步填入GroupId和ArtifactId，下一步 SNAPSHOT：快照版本，非正式版本 release：正式发布版本添加依赖方式打开maven仓库（http://mvnrepository.com），搜索需要的框架或jar包 copy到<depend...

2018-06-10 17:41:36 163

原创常用的maven命令

maven常用命令 mvn -version：查看版本信息 mvn clean：清除编译的文件，删除target目录 mvn compile：编译主目录文件 mvn package：打包 java ->jar java web ->war mvn install：将项目发布到本地仓库中 jar mvn ...

2018-06-10 16:06:58 108

原创 maven的安装

maven的安装（1）下载，地址：https://archive.apache.org/dist/maven/maven-3 ，根据自己需要的版本下载binaries/下的，source/下的是源码，binaries下的是编译过的。若是window系统下载后缀为.zip的，Linux系统下载后缀为.tar.gz的下载完成，解压到自己的安装目录（目录最好无中文...

2018-06-10 16:04:15 149

原创什么是Hadoop

大数据框架按功能来划分海量数据存储： HDFS、Hive（本质存储数据还是HDFS）、Hbase、ES（ElasticSearch）海量数据分析 MapReduce、Spark、SQL最原始的Hadoop框架数据存储：HDFS（Hadoop Distributed File System）数据分析：MapReduceHadoop的起源Google的三篇论文虽然Google...

2018-06-10 15:15:47 1810

转载转：Google 大数据的三篇论文

Google File System，Hadoop的HDFS Google Bigtable，Hadoop的HDFS Google-MapReduce，Hadoop的MapReduceHadoop 1.0以前只有HDFS和MapReduce两个模块，1.0以后才增加了Common这个模块，2.0之后增加了Yarn这个模块...

2018-06-10 13:59:12 1994

空空如也

空空如也