zreodown-CSDN博客

原创 FASTJSON格式转化POJO、JSON字符串、JSON对象

参考：https://blog.csdn.net/dongying1751/article/details/68922152

2020-04-22 14:16:59 475

原创笔记本电脑投屏后无声音，解决方案

1.禁用设置管理器

2020-02-28 10:19:03 18995 1

原创 spark-sql 优化

1. merger小文件set spark.sql.hive.mergeFiles = true;2.缓冲小表set spark.sql.autoBroadcastJoinThreshold = 838861000;set spark.sql.shuffle.partitions = 1000;

2019-12-31 17:58:34 350

原创 Hive外部表误删后的恢复

Hive中的外部表是比较安全的一种数据管理方式，有时也会误删使用外部表有一个很好的好处，如果不小心将表误删了，只需要重新创建外部表然后使用下面的语句修复分区即可。MSCK REPAIR TABLE table_name...

2019-12-30 16:41:51 1062

原创 git无权限问题

1.如果出现无权限的问题，原来一直好好的可以使用git，请设置如下：控制面板\用户帐户\凭据管理器，删除对应的git凭据即可

2019-11-11 16:12:14 2362

原创 10 个最佳的免费项目管理工具

10 个最佳的免费项目管理工具项目管理对一个项目的设计和开发起着至关重要的作用；因此选择一个项目管理工具有时候是非常讲究的。它完全取决于你的需求，你是需要任何时候都可以提供在线方案，或只是一个本地应用。AD：51CTO 网+首届APP创新评选大赛火热启动——超百万资源等你拿！项目管理对一个项目的设计和开发起着至关重要的作用；因此选择一个项

2016-01-08 16:36:12 4055

原创系统吞吐量（TPS）、用户并发量、性能测试概念和公式

PS：下面是性能测试的主要概念和计算公式，记录下：一．系统吞度量要素：一个系统的吞度量（承压能力）与request对CPU的消耗、外部接口、IO等等紧密关联。单个reqeust 对CPU消耗越高，外部系统接口、IO影响速度越慢，系统吞吐能力越低，反之越高。系统吞吐量几个重要参数：QPS（TPS）、并发数、响应时间 QPS（TPS）：每秒钟r

2015-06-16 18:57:47 546

原创压测工具

locust、ab

2015-06-16 18:42:35 838

原创批量Load到HBase

hbase提供了写的操作，通常，我们可以采用HBase的Shell 客户端或者Java API进行操作。如果数据量大的话，这两种操作是很费时的。其实如果了解了HBase的数据底层存储的细节的话，HBase的数据存储格式是HFile定义的格式。批量导入HBase主要分两步：通过mapreduce在输出目录OutputDir下生成一系列按Store存储结构一样的，存储HFile

2015-06-05 14:43:03 1843

转载 Maven 集成Tomcat插件

Maven已经是Java的项目管理标配，如何在JavaEE开发使用Maven调用Web应用，是很多同学关心的问题。本文将介绍，Maven如何介绍Tomcat插件。Maven Tomcat插件现在主要有两个版本，tomcat-maven-plugin和tomcat7-maven-plugin，使用方式基本相同。tomcat-maven-plugin 插件官网：http://mojo.

2015-06-05 14:41:25 1181

原创 hbase 调优

1. 关于内存hbase.hregion.memstore.mslab.enabled默认值：true说明：减少因内存碎片导致的Full GC，提高整体性能。调优：详见 http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation2. 启用LZO压缩LZO对比Hbase默认的GZip

2014-03-03 16:04:11 857

原创 Hive优化2

hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMIT n语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数http://www.cnblogs.com/

2013-12-16 11:41:18 1687

原创 hbase根据filter export import

hbase的删除功能比较弱，只能单行删除，而且必须指定rowkey。遇到问题：今天遇到一个需求，用户导入了大量错误的数据，数据的rowkey开头都是110102，需要删除这些垃圾记录，用hbase shell删除实在不科学。解决方案：用hbase的mapreduce工具进行export和import，在export过程中filter掉不需要的

2013-11-28 11:24:09 4530 1

原创 HDFS bytes read与Map input bytes

在看Hadoop的执行日志时可以看到HDFS bytes read与Map input bytes这2个参数。这2个参数都属于JOB读入的信息。其中HDFS bytes read是一个文件系统接口层面的统计，它更底层，它直接处理的是文件系统的读。而Map input bytes是对文件系统读入的数据做了进一步的处理，是真正JOB读入的数据流。理论上讲，对于未压缩的text File

2013-11-12 18:34:10 1567

原创 Hadoop中map数的计算

Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是：goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.si

2013-11-12 18:33:29 833

原创 Hive中对科学计数法表示的字符串的转换

Hive中int , float , double这些数值类型在存储大额度数字时，在前端展现上总是使用科学计数法来表示，例如：hive> select pow(10,8) from dual;OK1.0E8其实无论是普通的表示方式还是科学计数法表示，只是一个习惯问题，结果都是一样的。可是不能理解的是当把数值类型转化成字符串类型以后Hive竟然把数值转换成了科学计

2013-11-12 18:32:19 18710 1

原创 Hive中的一种假NULL

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。例如如下这个查询：hive> desc ljn004;OKa stringTime taken: 0.237 seconds hive> select a from ljn004;OKNULLTime taken: 46.232

2013-11-12 18:31:17 906

原创 hadoop Namenode因硬盘写满无法启动

当写元数据的分区写满，可能导致namenode挂掉从而导致及时清理出大块的空间也无法启动namenode，那此时系统namenode会报错org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.NumberFormatException: For input string:“”这是因为edit文件错误，此时执行 prin

2013-10-29 14:32:35 980

原创 hbase

hbase.zookeeper.quorum hadoop.datanode3.com,hadoop.datanode2.com,hadoop.datanode5.com hbase.master.distributed.log.splitting false hbase.zookeeper

2013-09-13 12:02:14 1458

原创 Hive 优化

Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（Column Pruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询：SELECT a,b FROM T WHERE e < 10;其中，T 包含 5 个列 (a,b,c,d,e)，列 c，d 将会被忽略，只会读取a, b, e 列这个

2013-08-29 17:17:10 666

原创使用sqoop工具进行数据导入导出 sqoop并行导入

使用sqoop工具进行数据导入导出中可以进行并行导入的方法例如从mysql数据库中导入到hive中可以执行sqoop import --connect jdbc:mysql://localhost/gamewave --username root --password 123456 --table log --hive-import -m 1其中-m 1 参数代表的含义是使用多

2013-08-29 17:16:22 4062

原创用hbase(0.92版本以上）的协处理器实现快速返回查询结果总数 .

在0.92版本的hbase上添加了协处理器的功能，协处理器分为两大部分 endpoint和observer.observer相当于一个钩子的作用，根据钩子运行的模块来划分，又分成三个RegionObserver：用这个做数据操纵事件，其紧密的绑定到表的regionMasterObserver：处理集群级别的事件：管理操作和数据定义语言操作WALObserver：预写日志处理而e

2013-08-21 11:34:34 1610

原创 liunx $

$# 是传给脚本的参数个数$0 是脚本本身的名字$1 是传递给该shell脚本的第一个参数$2 是传递给该shell脚本的第二个参数$@ 是传给脚本的所有参数的列表$* 是以一个单字符串显示所有向脚本传递的参数，与位置变量不同，参数可超过9个$$ 是脚本运行的当前进程ID号$? 是显示最后命令的退出状态，0表示没有错误，其他表示有错误

2013-07-26 09:43:54 594

原创 hadoop端口

获取默认配置配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default

2013-07-10 11:54:52 888

原创 mysql 安装

CentOS 6.4系统安装在这里不再叙述CentOS 6.4采用最小化安装MySQL5.6.11采用源码包安装初始化系统:关掉iptables和selinux功能，原因只是测试安装一些mysql需要的依赖包#yum install -y wget gcc-c++ ncurses-devel cmake make perl下载mysql5.6.11#wget http

2013-06-27 10:59:34 975

原创 hadoop 的一些错误

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。/etc/security/limits.confvi /etc/

2013-05-12 21:06:03 695

原创 hive导出查询结果到本地文件

bin/hive -e "select * from test" >> res.csv 或者是： bin/hive -f sql.q >> res.csv 其中文件sql.q写入你想要执行的查询语句

2013-05-09 22:08:19 1124

原创 Hive中LIKE查询使用通配符'%'的一个BUG--当转义符'\'遇到通配符'%'或'_'

如果确实想写和Oracle中等价的查询：SELECT * FROM T001 WHERE COL1 LIKE ‘ABC\\%’;建议在Hive中用正则实现：SELECT * FROM T001 WHERE COL1 REGEXP ‘^ABC\\’;

2013-05-09 22:06:09 4577

原创 hive列

set hive.cli.print.header=true; // 打印列名set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数

2013-05-09 22:05:01 947 3

原创 Hive导出到Mysql中中文乱码的问题

2013-04-25 16:11:03 4760 2

原创用sqoop进行mysql和hdfs系统间的数据互导

sqoop 是apache下用于RDBMS和HDFS互相导数据的工具。本文档是sqoop的使用实例，实现从mysql到hdfs互导数据，以及从Mysql导数据到HBase。下载：http://www.apache.org/dyn/closer.cgi/sqoop/[zhouhh@Hadoop48 ~]$ wget http://labs.renren.com/apache-mirr

2013-04-25 16:08:23 2537 2

原创从hbase(hive)将数据导出到mysql

在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中，提到sqoop可以让RDBMS和HDFS之间互导数据，并且也支持从mysql中导入到HBase，但从HBase直接导入mysql则不是直接支持，而是间接支持。要么将HBase导出到HDFS平面文件，要么将其导出到Hive中，再导出到mysql。本篇讲从hive中导出到mysql。从hive将数据导出到mysql一、创建

2013-04-25 16:04:20 5536 2

原创关于YUM问题

修改/etc/yum.repos.d/CentOS-Base.repo，将镜象站点地址改为在中国的镜像站点地址。如下：baseurl=http://mirror.centos.org/centos/4/os/$basearch/改成baseurl=http://mirror.centos.org/centos/5/os/$basearch/可以用vi /

2013-04-07 12:06:23 567

原创 hbase 结点之间时间不一致造成regionserver启动失败

http://sishuok.com/forum/blogPost/list/5411.htmlCaused by: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server s3,60020,1304927875246 has been rejected

2013-03-28 17:12:47 715

原创谈谈HTable的实现

servercachestringbytetablehbase背景HTable作为HBase的CRUD的客户端底层是怎么实现的，虽然HBase-The-Definitive-Guide 这本书的作者推荐在生产环境使用HTablePool但了解HTable还是很有必要的下面以一个简单的例子来说明 [java] view plaincopyp

2013-03-28 17:01:59 800

原创将Hive Thrift server 添加到服务后台运行

1. 将hive 的metastore用mysql连接储存2 在/etc/init.d/文件夹中编辑文件hive-thrift #!/bin/bash # init script for Hive Thrift Interface. # # chkconfig: 2345 90 10 # description: Hive Thrift Interface # Sourc

2013-03-28 14:58:47 1417

原创 hadoop，hbase，hive安装全记录

http://blog.csdn.net/chengweipeng123/article/details/7174717hadoophbasemysqljavapath socket操作系统：CentOS 5.5Hadoop：hadoop-0.20.203.0jdk1.7.0_01namenode主机名:master，namenode的IP:10.10.102.15

2013-03-28 14:42:37 639

原创 Hive metastore三种存储方式

测试环境下Hive总出问题，metastore的配置有问题。抽了点时间，把Hive的meta数据几种存储方式都配置了下。Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore。一、使用derby数据库存储元数据。这种方式是最简单的存储方式，只需要在hive-d

2013-03-19 15:21:52 2846 2

原创 hadoop hdfs的一些操作

HDFS的文件操作格式化HDFS命令：user@namenode:hadoop$ bin/hadoop namenode -format 启动HDFS命令：user@namenode:hadoop$ bin/start-dfs.sh 列出HDFS上的文件命令：user@namenode:hadoop$ bin/hadoop dfs -ls 使用hadoop API

2013-03-18 17:57:53 3191

原创 spring 定时器补充

Quartz是一个任务进度管理器，可以与任何其他软件系统集成或者一起使用。是用一个小Java库发布的文件（.jar文件），这个库文件包含了所有Quartz核心功能。这些功能的主要接口(API)是Scheduler接口。它提供了简单的操作，例如：将任务纳入日程或者从日程中取消，开始/停止/暂停日程进度。以top调用错误统计定时发送邮件任务为例介绍Quartz定时任务的Spring

2013-03-15 16:26:36 608