darling.0-CSDN博客

原创 HBase-16-HBase使用场景（需求分析技术选型）

◆我只是想能快速的找到我需要的文件，不需要其他操作，很简单的。◆小红负责整理公司的各种文档数据，查找特定的文件很耗时，她只。想快速的找到某一份想要的文件，并且其他人无法看到相关的文件。◆我有非常多的文件需要存，以图片和文档为主，以后还有更多。◆老板想要快速查到文件，也许还想有其他操作，虽然他还没说。不需要复杂的文件管理与检索操作，需要很高的吞吐量。◆ 老板要存非结构化数据，存很多文件，一直存。◆作为一个伟大的程序员，你要尽量的节省资源。以非结构化数据为主，如图片，文档，视频等。

2022-09-05 19:29:05 614 1

原创 HBase-15-Phoenix

图中展示了，通过phoenix和hive对基于HDFS和HBase的数据记性查询的时候，随着数据量的增长，查询时间的变化曲线。◆使用本地的HBaseApi而不是通过MapReduce框架，这样能最大限。◆具有完整ACID事务功能的标准SQL和IDBCAPI的强大功能。通过HBase协处理器，在服务端进行操作，从而最大限度的减少客。◆构建在ApacheHBase之上的一个SQL中间层。较完善的查询支持，支持二级索引，查询效率较高。phoenix的性能是如何提高的？通过定制的过滤器对数据进行处理。

2022-09-05 19:26:04 509

原创 HBase-14.2-JMX监控实战

RegionServerInfo实体类，HBaseSummary实体类，HbaseUtil主体工作方法类（使用http工具类获取jmx的json字符串，解析后，赋值到HBaseSummary实体类中并展示），main方法入口类MonitorApp。

2022-09-05 19:21:04 621

原创 HBase-14.1-JMX监控实战-hadoop

编写：DataNodeInfos实体类，HDFSSummary实体类，http工具类，json工具类，主体方法（使用http工具类获取jmx的json字符串，解析后，赋值到HDFSSummary实体类中并展示）

2022-09-05 19:18:41 646

原创 HBase-13-HBase监控

◆Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。Ambari跟Hadoop等开源软件一样，是Apache基金会的顶级项目。◆自己调用Hadoop和HBase的JMX接口获取监测数据。◆创建、管理、监视Hadoop的集群(Hadoop生态圈)集群出现问题及时报警，帮助运维快速定位与解决问题。◆利用Hadoop生态圈开源的专业监控工具。◆为了保证系统的稳定性，可靠性，可运维性。◆了解集群的性能表现，及时做出针对性调整。如何监控HBase集群。顶级项目:Ambari。

2022-09-05 19:13:39 1047

原创 HBase-12-HBase容灾策略

CopyTable工具采用scan查询，写入新表时采用put和delete API，全部是基于hbase的client api进行读写。Export可导出数据到目标集群，然后可在目标集群Import导入数据，Export支持指定开始时间和结束时间，因此可以做增量备份。支持时间区间、row区间，改变表名称，改变列族名称，指定是否copy已经被删除的数据等功能。可以快速的恢复表至快照指定的状态从而迅速的修复数据（会丢失快照之后的数据）举例：hbase shell。//创建一个与原表同列族的表。

2022-09-02 16:29:09 307

原创 HBase-11-HBase Coprocessor HBase协处理器

HBase协处理器受BigTable协处理器的启发，为用户提供类库和运行时环境，使得代码能够在HBaseRegionServer和Master上处理。◆RegionObserver:提供客户端的数据操纵事件钩子:Get Put。配置文件加载:即通过hbase-sitexml文件配置加载，一般这样的协。◆系统协处理器:全局加载到RegionServer托管的所有表和F。通过API代码加载:即通过API的方式来加载协处理器。◆表协处理器:用户可以指定一张表使用协处理器。实现一个Endpoint类型的协处理器。

2022-09-02 16:24:45 533

原创 HBase-10-HBase优化策略

防止热点问题，避免使用时序或者单调的递增递减（设计rowkey时，加盐，也就是在rowkey前加随机数，哈希反转等方式，来处理热点问题，rowkey符合唯一原则，尽量要短一点，过长对于region server的内存和磁盘都是消耗）对于元数据的开销来说，高表的元数据开销大，行多，rowkey比较多，region也会比较多。对于事务能力来说，宽表的事务性更好，HBase的事务性是建立在行的基础上的。创建HBase表的时候预先创建一些空的Regions。利用HBase默认排序特点，将一起访问的数据放到一起。.

2022-08-31 18:23:47 358

原创 Hbase-9-HBase操作-过滤器

Hbase为筛选数据提供了一组过滤器，通过过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作。SingleColumnValueExcludeFilter 对该列的单元值进行比较过滤。SingleColumnValueFilter 对该列的单元值进行比较过滤。KeyOnlyFilter 返回的数据不包括单元值，只包含行键与列。比较过滤器通常需要一个比较运算符以及一个比较器来实现过滤。通常来说，通过行键，列来筛选数据的应用场景较多。基于列和单元值的过滤器。...

2022-08-31 18:21:49 536

原创 Hbas-6-通过shell命令操作hbase-7-Hbase Java-开发hbase数据库操作类-8-HBase基础操作项目

HBase Scan检索操作数据模型。HBase单个查询操作数据模型。HBase Table操作类。HBase管理Admin类。HBase添加操作数据模型。8-HBase基础操作项目。HBase查询的结果模型。HBase检索结果模型。

2022-08-31 18:20:39 212

原创 Hbase-5-Hbase模块协作

HMaster对各个RegionServer（包括失效的）的数据进行整理，分配Region和meta信息表，然后Hmaster会把meta信息交给zookeeper，之后b5-Hbase模块协作ackup Master会定期从active master处保持数据更新，以保证自己的meta表是最新的。Hbase三个模块，Hmaster，RegionServer，zookeeper（zookeeper因为很重要所以也算做hbase的一个模块来看）HMaster更新hbase：meta表来保证数据正常访问。...

2022-08-31 18:19:03 140

原创 Hbase-3-4-Hbase读写数据流程

Hbase保证内存中的数据不会丢失，是使用HLog，HLog是WAL（预写日志）的一种实现，RegionServer将更新操作记录到memStore，然后更新到HLog中，只有当更新到HLog中成功后，这条记录才算真正成功的写入，当memStore数据丢失，可以使用HLog找回，注意，一般的WAL是先写入日志再写入内存，但是Hbase是先写入内存后写入日志。3：当MemStore的大小达到一定的值后，flush到StoreFile并存储到HDFS。...

2022-08-31 18:18:19 592

原创 Hbase-2-Hbase概念理解

Column:HBase的列由Columnfamily和Columnqualifier组成，由冒号((:)进行进行间隔。个行键(RowKey)来进行唯一标识的，行键并没有什么特定的数据类型，以二进制的字节来存储。Timestamp:每个值都会有一个timestamp，作为该值特定版本的标识符。Column Qualifier:列族中的数据通过列标识来进行映射，可以理。Row:在表里面，每一行代表着一个数据对象，每一行都是以一。Cell:每一个行键，列族和列标识共同组成一个单元。...

2022-08-31 18:15:40 152

原创 HBase-1-概述

HBase建立在Hadoop文件系统之上，利用了Hadoop的文件系统的容错能力。HBase建立在Hadoop文件系统之上，利用了Hadoop的文件系统的容错能力。HBase内部使用哈希表，并存储索引，可将在HDFS文件中的数据进行快速查找。HBase内部使用哈希表，并存储索引，可将在HDFS文件中的数据进行快速查找。HBase内部使用哈希表，并存储索引，可将在HDFS文件中的数据进。HBase不适用于有join，多级索引，表关系复杂的数据模型。+维护表和Region的元数据，不参与数据的输入/输出过程。.

2022-08-31 18:12:46 278

原创 Hive的基本操作

内部： load data local inpath '/home/bigdata/dataFlow.log' into table sand.dataFlow;外部：load data inpath '/dataFlow.log' overwrite into table dataFlow;删除数据库时要保证数据库为空，否则会报错。drop table 数据库名.表名。2：创建以某个分隔符的表。6:查看数据表的创建过程。10：创建表（外部表）5：创建表（内部表）...

2022-08-31 14:34:45 179

原创 Hive的 mapreduce 计算例子

运算过程统计每个手机号的上行流量总和，下行流量的总和，流量总和。>运算结果：手机号->上行流量和，下行流量和，总和。>数据源：手机号，上行流量，下行流量。4：封装实体类Flow。修改609行为true。......

2022-08-31 14:17:24 201

原创 Hive的UDF

UDF函数其实就是一个简单的函数，执行过程就是在Hive转换成mapreduce程序后，执行java方法，类似于像Mapreduce执行过程中加入一个插件，方便扩展. UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF .hive的类SQL预发给数据挖掘工作者带来了很多便利，海量数据通过简单的sql就可以完成分析，有时候hive提供的函数功能满足不了业务需要，就需要我们自己来写UDF函数来辅助完成，下面用一个简单的例子说明过程，以及注意事项。计算函数需要把状态作为一个值返回给用户。...

2022-08-30 15:29:58 763

原创 HiveUtil.java

【代码】HiveUtil.java。

2022-08-30 15:29:15 247

原创 Hive的JDBC操作

1：准备驱动jar包。

2022-08-30 15:26:46 756

原创 HWI的安装及使用

4：Result File 路径为Linux本地路径（需提前手动创建）3：查询数据生成结果。

2022-08-30 15:25:21 1552

原创 Hive的独立安装

javax.jdo.option.ConnectionDriverNamemysql驱动程序。rpm -e --nodep mysql-libs-5.1.73.......卸载已安装的mysql。javax.jdo.option.ConnectionPassword

2022-08-30 15:24:42 201

原创 Flink的单机部署方式

jobmanager.rpc.address: 10.0.0.1 配置主节点的ip。taskmanager.tmp.dirs taskmanager的临时数据存储目录。taskmanager.heap.mb taskmanager节点可用的内存。jobmanager.heap.mb jobmanager节点可用的内存。jobmanager.rpc.address master节点的地址。./bin/flink # 路径 $FLINK_HOME。ON YARN是企业级用的最多的方式 *****.

2022-08-30 14:51:59 594

原创 Flink监控和调优笔记

100task 98-99跑完了 1-2很慢 ==> 能跑完、跑不完。repartition-repartition strategy 大大。思考：有了HistoryServer之后为什么还需要提供REST API？默认是1 适当的调整：好几种 ==> 项目实战。shell对于bigdata有用吗？启动：./historyserver.sh start。group by：二次聚合。看一下这些脚本的写法。Flink中常用的优化策略。Flink监控和调优。...

2022-08-30 14:50:46 115

原创 Flink Table API & SQL

示例：public static void main(String[] args) throws Exception {ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();BatchTableEnvironment tableEnv = BatchTableEnvironment.getTableEnvironment(env);String...

2022-08-30 14:49:16 116

原创 kafka connector

kafka connector

2022-08-30 14:48:55 158

原创 HDFS Connector

Flink HDFS Connector

2022-08-30 14:46:50 144

原创 dataStream sink

示例：socket发送数据，把String转java对象，然后保存到mysql数据库中Student.classpublic class Student {private int id;private String name;private int age;@Overridepublic String toString() {return "Student{" +...

2022-05-26 11:26:30 220

原创 DataStream Transformations

public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//filterFunction(env);//unionFunction(env);//splitSelectFuncti...

2022-05-26 11:24:22 78

原创 DataStream Data Sources

public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();socketFunction(env);//nonParallelSourceFunction(env);//parallelSourc...

2022-05-26 11:22:58 76

原创 Broadcast Variables广播变量

FlinkBroadcast Variables:Broadcast variables允许你创建一个数据集在所有的并行操作节点都能获取到，除了常规的输入操作。针对一些小的依赖数据集，这种方式是非常有用的，这个data set数据集将会作为一个Collection集合被操作访问。Broadcast(广播数据) ：通过withBroadcastSet(DataSet, String) 进行广播数据，并给这份数据起名字Access(获取数据)：通过getRuntimeContext().get.

2022-05-26 11:21:32 347

原创 6-计数器

计数器：基于flink开发计数器的三步：step1：定义计数器LongCounter counter = new LongCounter();step2：注册计数器：getRuntimeContext().addAccumulator("ele-counts-java", counter);step3：获取计数器long num = jobResult.getAccumulatorResult("ele-counts-java");示例：public sta

2022-05-26 11:18:56 121

原创 5-sink

sink:public static void main(String[] args) throws Exception {ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();List<Integer> info = new ArrayList<Integer>();for(int i=1; i<=20; i++) {...

2022-05-26 11:18:02 76

原创 4-Transformation

Map：public static void mapFunction(ExecutionEnvironment env) throws Exception {List<Integer> list = new ArrayList<Integer>();for (int i = 1; i <= 10; i++) {list.add(i);}DataSource<Integer> data = en...

2022-05-26 11:16:59 60

原创 Data Sources及例子

DataSources基于文件File-based: readTextFile(path)/TextInputFormat- Reads files line wise and returns them as Strings. readTextFileWithValue(path)/TextValueInputFormat- Reads files line wise and returns them as StringValues. StringValues are ...

2022-05-26 11:15:15 198

原创环境准备+开发例子

环境准备JDK:下载地址：Java Downloads | OracleMac ：dmgLinux： tar.gzWindows： exeMaven官网：maven.apache.org下载地址：https://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin....

2022-05-26 11:11:25 103

原创流处理框架对比

流处理框架对比Spark：Streaming 结构化流批处理为主流式处理是批处理的一个特例（minibatch）Flink ：流式为主，批处理是流式处理的一个特例Storm ：流式 Tuple ...

2022-05-26 11:09:34 121

原创 jQuery--ajax

jQuery–ajaxajax ：异步请求，浏览器地址栏不改变，进行局部刷新。 ajax 流程分析 jQuery 的ajax 第一层： $.ajax(...) 最底层ajax请求，编写最复杂，完成功能最全的。第二层：load() 、$.get() 、$.post() 开发中常用3个第三层：$.getJSON() 、$.getScript() 高级开发 $.getJSON

2016-12-22 21:23:27 472

原创 jQuery效果|动画

jQuery效果|动画基本通过改变元素高度和宽度进行显示或隐藏show(speed,fn) 显示参数1：speed速度。显示的时间，单位：毫秒。固定字符串：(“slow”,”normal”, or “fast”) 参数2：fn 回调函数。动画效果完成之后回调函数。 hide() 隐藏 toggle() 切换滑动通过改变元素高度进行显示或隐藏slideDown()

2016-12-22 20:59:34 384

原创 jQuery事件绑定（处理，委派，切换）

jQuery事件绑定（处理，委派，切换）事件处理bind(type ,fn) 给当前对象绑定一个事件。例如：A.bind(“click”, fn ); 类型：A.click( fn ); unbind(type ) 解绑bind绑定事件 one(type ,fn ) 给当前对象绑定一次事件。 on(events , fn) 提供绑定事件处理程序所需的所有功能。完成3个方法功能.bind()

2016-12-22 20:52:41 1228

原创 jQuery事件（常见事件的总结）

jQuery事件 jQuery 提供额外的事件，用于完善javascript缺失的 focusin 和 focusout focusin 获得焦点。js focus。 focusin事件跟focus事件区别在于，他可以在父元素上检测子元素获取焦点的情况。 focusout 失去焦点。js blur。 focusout事件跟blur事件区别在

2016-12-20 20:47:51 480

Struts2（一）

空空如也