逸笔草草-CSDN博客

原创 Atom高效插件

1.表格编辑markdown-table-editor2.编辑区和预览区同步滚动markdown-scroll-sync

2017-09-14 13:58:15 544

本文主要讨论的是二代身份证编码规则及其Java代码实现，下面的校验方式还不是特别严谨，由于只校验了前两位的省份信息，中间六位的出生日期信息和最后一位的校验码信息，故对于部分不满足要求的证件号码刚好同时满足了这里提到的几个条件，也会被判定为是合法的证件号码…1 二代身份证号码编码规则1.1 编码格式1999年我国颁发了第二代居民身份证号，公民身份号码为18位，且终身不变。居民身份证格式如：ABCDEF

2017-08-17 21:51:03 39837 3

原创 Kettle table input使用变量替换in中的条件

1. 问题描述今天在使用kettle从数据库表中导出数据到文本文件时，用到了in查询，原始的sql是下面这样的：select to_char(current_timestamp, 'YYYY-MM-DD HH24:MI:SS') as checkin_time, '${personType}' as bd_type, 'AA.AA.AA.AA' as checkin_window_ip from

2017-07-13 17:33:12 6457 1

翻译 Architecting HBase Applications学习（一）——HBase简介和HBase原理

1.什么是HBase根据HBase官方网站的描述:”Hbase 是一个分布式的，可扩展的，大数据存储数据库”。这个概念具有一定的误导性，更准确的说，HBase并不是一个数据库，它是一个基于Java的，开源的，NOSql，非关系型，基于列的，分布式存储；它以Google的Big Table论文为原型，基于HDFS构建完成。1.1基于列Vs基于行在基于列的数据库系统中，系统将表数据稀疏地存储起来而不是想

2017-05-20 22:33:34 7076

原创 CentOS和RHEL使用源码包安装git

在CentOS和RHEL上使用yum安装的git版本还是1.X的，因此，我们采用源码安装的方式来安装最新版本的git1. 安装git需要的依赖包：yum install curlyum install curl-develyum install zlib-develyum install perlyum install perl-develyum install gettext-devel

2017-04-07 15:00:03 439

原创 CentOS6.5下安装MySql5.7.17

0.操作说明本次操作在OpenStack虚拟机192.168.0.230上进行操作，hostname为：host-172-16-5-71.下载安装包从Mysql官网上下载最新的Mysql安装包mysql-5.7.17-linux-glibc2.5-x86_64.tar.gz 下载地址： http://dev.mysql.com/downloads/file/?id=467556 注意，一定要下

2017-01-03 18:15:39 5964

原创 Spark2.1.0的Standalone模式部署

1.下载并解压spark安装包：spark-2.1.0-bin-hadoop2.7.tgz，配置好每台机器上spark的环境变量cd /home/hadoop273/sparktar -zxvf /data/soft/spark/spark-2.1.0-bin-hadoop2.7.tgz -C .vim ~/.bash_profileexport SPARK_HOME=/home/hadoop2

2016-12-31 10:13:04 3205 2

原创顶级域名与二级域名共享Cookie测试

1.修改hosts 在hosts文件中添加如下配置：# Test Cookie127.0.0.1 xx.hostName.com127.0.0.1 hostName.com127.0.0.1 xx1.hostName.com其中hostName.com为顶级域名，另外两个是二级域名2.建立web项目并添加Cookie测试类 2.1BaseController.java:package or

2016-12-30 17:39:29 1978

原创 Spark1.6.2安装部署方法

1.安装scala首先在hadoop1上进行操作，下载并解压安装包：scala-2.11.8.tgz，配置好scala的环境变量export SCALA_HOME=/home/hadoop273/spark/scala-2.11.8export PATH=$PATH:$SCALA_HOME:/bin2.安装spark下载并解压spark安装包：spark-1.6.2-bin-without-had

2016-12-21 17:11:30 2828

原创 CentOS6.5升级git版本

1.执行如下命令查看git版本：git --version结果如下：git version 1.7.1从git的官方网站上可以看到，目前git的最新版本已经到了2.11，我们机器上的git版本太低2.配置163网络yum源参考下面的文章进行配置即可： CentOS配置163yum源3.下载配置Git新版本yum源脚本vim git_repo_install.sh#!/bin/bashel5_dow

2016-12-05 14:35:32 478

原创 CentOS6.5配置网络yum源

我们选择配置国内163提供的yum源，具体操作步骤如下： 1.登录如下地址： mirrors.163.com 2.选择最后一列中的“centos使用帮助” 进入如下链接的界面： CentOS镜像使用帮助 3.按照帮助文档中的说明操作即可 3.1备份/etc/yum.repos.d/CentOS-Base.repomv /etc/yum.repos.d/CentOS-Base.repo

2016-12-05 14:16:41 5255

原创 CentOS下搭建爬虫程序开发环境

1.安装Python为了方便，我们采用Anaconda集成环境来安装2.安装scrapypip install scrapy安装成功后会提示：Successfully installed PyDispatcher-2.0.5 Twisted-16.6.0 attrs-16.3.0 constantly-15.1.0 cssselect-1.0.0 incremental-16.10.1 parsel

2016-11-28 21:06:02 2286

原创 CentOS6.5下tar包安装postgresql-9.6.1数据库

1.下载安装包从Postgres官方网站下载postgresql-9.6.1-1-linux-x64-binaries.tar.gz安装包2.创建用户创建Postgres用户：useradd postgres

2016-11-28 14:36:33 5951 2

原创 HBase Bulk Load的基本使用

1.需求最近在项目中需要将大量存在于文本文件中的数据批量导入到hbase表中，并且涉及到将多个文本文件中的数据合并到同一张hbase表中，而这些文本文件中的字段并不是完全相同的2.工具选型因为项目当中查询数据采用的是Phoenix，因此，最初想利用Phoenix的Bulk CSV Data Loading来实现，但是简单调研之后，发现并不适合我们本次的需求，后面我会补充一篇文章来对hbase的bul

2016-11-27 22:05:40 1898

原创 Linux下执行脚本提示No such file or directory

1.现象描述：在linux下使用./gradlew distTar编译azkaban的时候提示如下错误：: No such file or directory2.原因分析：在当前目录下明显有这个脚本，既然它提示不存在，肯定是因为linux环境没有读到该文件，因此考虑文件格式为dos3.解决方法：使用dos2unix命令将该脚本转换为unix格式，重新执行该脚本即可，如果没有dos2unix命

2016-11-17 14:37:19 6469

原创 hbase启动后HMaster自动关闭

现象描述：搭建好hbase集群并启动集群后发现，HMaster在启动后几秒内自动关闭，HRegionServer运行正常。错误日志：2016-11-16 17:12:02,061 FATAL [hadoop1:16000.activeMasterManager] master.HMaster: Failed to become active masterjava.net.ConnectExcept

2016-11-16 17:39:34 20676 1

原创 hbase1.2.3集群搭建（基于hadoop2.7.3）

0.机器列表采用四台机器hadoop1-hadoop4，其中hadoop1作为HMaster，hadoop2-hadoop4作为HRegionServer.以下操作在hadoop1上进行1.上传hbase安装包2.解压tar -zxvf hbase-1.2.3-bin.tar.gz -C ~/hadoop/3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hd

2016-11-16 15:05:50 875

原创 Zookeeper3.4.9集群搭建（基于hadoop2.7.3）

1.环境准备2n-1台linux机器或者虚拟机:由于zookeeper的paxos算法要求半数以上存活则为可用，所以必须准备单数个服务器搭建环境，本次试验采用hadoop2,hadoop3,hadoop4三台机器，在hadoop273用户下执行操作2.上传并解压zookeeper安装包解压zookeeper-3.4.9.jar到指定目录：su - hadoop273tar -zxvf zookee

2016-11-16 14:21:43 1709

原创 Hadoop2.7.3全分布式环境搭建(非HA)

0.环境准备：在VMWare中准备四台CentOS6.5虚拟机，主机名分别为hadoop1,hadoop2,hadoop3,hadoop41.建立用户：hadoop273，并将其组名指定为jimmyuseradd -g jimmy hadoop273

2016-11-16 11:21:53 1413

原创 kettle Variables+Arguments+Parameters简介

1. Kettle变量——Variables1.1. VariablesPDI变量可以被用在作业和转换步骤中，可以使用如下几种方法定义变量：编辑kettle.properties文件在edit按钮中选择Set Environment Variables对话框在转换中使用set variable步骤1.2. Variable Scope有两种类型的变量：Environment Variable

2016-10-10 17:25:50 1584

原创 ETL工具Kettle的基本使用

0.ETL简介ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL包含了三方面：抽取：将数据从各种原始的业务系统中读取出来，这是所有工作的前提。转换：按照预先设计好的规则将抽取得数据进行转换，使本来异构的数据格式能统一起来。装载：将转换完的数据按计划增量或

2016-10-08 18:07:25 13185

原创 Reacting to rumors

Vocabularycelebrity:famous personhijack–a planeburgle–a housesteal–a walletburgle–a housecrescent–not a full moonExpressionswhat have you been up to？: to express greeting when sb haven’t met fo

2016-05-22 20:21:35 657

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用[StackEdit][6]修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用

2016-05-21 22:52:59 230

embracejava

原创使用sed将结构化数据拼接成sql