2 大数据AIRDE

尚未进行身份认证

自强不息,永不言弃

等级
TA的排名 2w+

Java正则表达式去除字符串中的中文

Java正则表达式去除字符串中的中文package com.czxy.day02;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Test01 { public static void main(String[] args) { String str = "12...

2020-01-23 06:38:15

Apache Phoenix 索引index

在海量数据背景下,查询数据快速返回是典型的应用场景。在phoenix数据表基础之上创建索引,能够大幅提高数据的查询效率。Phoenix支持的索引有三个类型,分别是覆盖索引、全局索引、本地索引。覆盖索引Covered Index覆盖索引要求查询语句中的条件字段、查询字段都必须创建过索引,否则就会触发“全局扫描”(full table scan)创建语法:create index cov...

2020-01-10 08:50:46

Apache Phoenix 常用命令

Apache Phoenix 常用命令创建phoenix表create table if not exists testtable(A bigint not null,B double, C varchar(200),D varchar(200) CONSTRAINT testtable PRIMARY KEY(A));查看表结构!desc testtable;删...

2020-01-10 08:33:03

Apache Phoenix 4种使用方式

Phoenix使用文章目录Phoenix使用(1)批处理方式(2) 命令行方式(3): GUI方式Phoenix可以有4种方式调用:批处理方式命令行方式GUI方式JDBC调用方式(1)批处理方式A: 创建user_phoenix.sql文件内容如下CREATE TABLE IF NOT EXISTS user_phoenix ( state CHAR(2) NOT NUL...

2020-01-10 08:28:46

Apache Phoenix 安装

Apache Phoenix的安装1 、提前安装好ZK集群、hadoop集群、Hbase集群2、从对应的地址下载:http://mirrors.cnnic.cn/apache/phoenix/这里我们使用的是:apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz3、上传、解压将对应的安装包上传到对应的Hbase集群其中一个服务器的/export/soft...

2020-01-10 08:17:02

Apache Phoenix 概念

什么是PhoenixPhoenix是结果数据库phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询HBase...

2020-01-10 08:12:00

Tensorflow2.0安装过于慢,经常超时的解决办法

这里我用anaconda安装TF2.0更加快捷方便在anaconda prompt里输入以下命令pip install tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple/出现的输出中找到下载地址:https://pypi.tuna.tsinghua.edu.cn/packages/63/13/ea9ff554aa00435...

2020-01-07 09:01:45

BufferedReader和BufferedWriter对文本文件实现处理每一行内容

记住怎么创建Reader和Writer就行了,用完记得关流。package com.czxy.demo06;import java.io.*;import java.util.stream.Stream;/** * 练习题 * 第一步:数据预处理阶段 */public class DataConvert01 { public static void main(Strin...

2019-12-31 21:17:53

期末HBase简答题

考试肯定选长的,先记长的。1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?(记忆图)(期中考过期末肯定不考)第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:...

2019-12-31 11:34:35

IDEA MAVEN+Spring多模块项目打包部署到服务器的配置

Application类,主方法继承SpringBootServletInitializer并重写方法package com.czxy;import org.springframework.boot.SpringApplication;import org.springframework.boot.autoconfigure.SpringBootApplication;import or...

2019-12-30 08:14:45

用IDEA打开别人的maven项目,设置web模块为指定的webapp

第一步,导入MAVEN项目查看原始目录结构,发现是maven项目我们用idea的import导入这个项目找到项目位置,点击ok然后按顺序点击,导入为maven项目如果没有特殊需求,直接next导入所有模块,next点击finish导入完成你用自己的idea打开别人的项目,大概率会覆盖其中的内容,点yes第二步,让idea能识别这个项目是web项目打开后可以看到如...

2019-12-27 14:07:43

异步加载JS不允许document点write解决办法 百度地图API

只需要把要加载的js放到body标签结束之前就可以了,这样body中的东西全加载好了,而且document也没有关闭,就趁这个时候把东西写到document里,尤其是百度地图API,导那个包就得这么导<div id="allmap" style="width: 1000px;height: 618px" ></div><!--放在这里可以解决doc...

2019-12-26 15:42:56

两种方式(Java远程连接、本地shell脚本)遍历加载HDFS一个目录下的多个数据文件到hive表

现有如下,一堆数据文件,以日期命名,因为需要按分区加载到一个分区表中。如果手动加载,会浪费很多时间,所以有两种方式实现自动遍历并加载到hive表。第一种:JAVA代码连接hdfs,读取每一个数据,远程执行hive -e,这样会浪费大量的中间过程。package com.czxy.demo05;import net.neoremind.sshxcute.core.ConnBean;i...

2019-12-25 21:45:44

IDEA GrepConsole插件 加 log4j 实现控制台输出彩色字体

首先安装GrepConsole插件安装完毕后,重启idea,在控制台多了一个按钮这个是它的控制台界面,可以在这里自定义颜色接下来配合log4j实现彩色输出。log4j所需pom依赖<dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> ...

2019-12-25 09:19:05

Java代码执行linux命令所需的Maven工程的POM的Dependency依赖

使用java代码执行linux命令,maven所需的pom依赖<dependency> <groupId>net.neoremind</groupId> <artifactId>sshxcute</artifactId> <version>1.0</version></dependency>...

2019-12-25 08:24:10

Apache HBase HBase与Hive的整合

Hive与HBase的整合hive与我们的HBase各有千秋,各自有着不同的功能,但是归根接地,hive与hbase的数据最终都是存储在hdfs上面的,一般的我们为了存储磁盘的空间,不会将一份数据存储到多个地方,导致磁盘空间的浪费,我们可以直接将数据存入hbase,然后通过hive整合hbase直接使用sql语句分析hbase里面的数据即可,非常方便需求一:将hive分析结果的数据,保存到HB...

2019-12-20 17:25:34

Apache HBase HBase与hive的对比

Hive是数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。(不要钻不需要执行MapReduce代码的情况的牛角尖)HBas...

2019-12-19 17:18:54

Apache HBase 通过bulkload方式批量加载数据到HBase中

使用HBase的javaAPI或者使用sqoop将数据写入或者导入到HBase中,这些方式不是慢就是在导入的过程的占用Region资料导致效率低下。而Bulkload方式通过MR的程序,将数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase中即可。bulkload优点:1.导入过程不占用Region资源2.能快速导入海量的数据3.节省内存HFileHBa...

2019-12-19 17:12:18

Apache HBase 读取HBase数据写出到HDFS上

查看myuser2中数据hbase(main):001:0> scan 'myuser2'ROW COLUMN+CELL 0001 column=f1:age, timestamp=1576629006005, value=\...

2019-12-19 16:13:36

Apache HBase JavaAPI 读取HDFS文件,写入HBase表中

第一步:准备数据准备数据文件,并将数据文件上传到HDFS上面去hdfs dfs -mkdir -p /hbase/inputcd /export/servers/vim user.txt0007 zhangsan 180008 lisi 250009 wangwu 20第二步:开发MR程序public class Hdfs2Hbase ...

2019-12-19 16:08:59

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周上午根据用户上周周三的博文发布情况由系统自动颁发。