自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dly的博客

java,javaweb,大数据

  • 博客(109)
  • 资源 (1)
  • 收藏
  • 关注

原创 HBase-16-HBase使用场景(需求分析技术选型)

◆我只是想能快速的找到我需要的文件,不需要其他操作,很简单的。◆小红负责整理公司的各种文档数据,查找特定的文件很耗时,她只。想快速的找到某一份想要的文件,并且其他人无法看到相关的文件。◆我有非常多的文件需要存,以图片和文档为主,以后还有更多。◆老板想要快速查到文件,也许还想有其他操作,虽然他还没说。不需要复杂的文件管理与检索操作,需要很高的吞吐量。◆ 老板要存非结构化数据,存很多文件,一直存。◆作为一个伟大的程序员,你要尽量的节省资源。以非结构化数据为主,如图片,文档,视频等。

2022-09-05 19:29:05 614 1

原创 HBase-15-Phoenix

图中展示了,通过phoenix和hive对基于HDFS和HBase的数据记性查询的时候,随着数据量的增长,查询时间的变化曲线。◆使用本地的HBaseApi而不是通过MapReduce框架,这样能最大限。◆具有完整ACID事务功能的标准SQL和IDBCAPI的强大功能。通过HBase协处理器,在服务端进行操作,从而最大限度的减少客。◆构建在ApacheHBase之上的一个SQL中间层。较完善的查询支持,支持二级索引,查询效率较高。phoenix的性能是如何提高的?通过定制的过滤器对数据进行处理。

2022-09-05 19:26:04 509

原创 HBase-14.2-JMX监控实战

RegionServerInfo实体类,HBaseSummary实体类,HbaseUtil主体工作方法类(使用http工具类获取jmx的json字符串,解析后,赋值到HBaseSummary实体类中并展示),main方法入口类MonitorApp。

2022-09-05 19:21:04 621

原创 HBase-14.1-JMX监控实战-hadoop

编写:DataNodeInfos实体类,HDFSSummary实体类,http工具类,json工具类,主体方法(使用http工具类获取jmx的json字符串,解析后,赋值到HDFSSummary实体类中并展示)

2022-09-05 19:18:41 646

原创 HBase-13-HBase监控

◆Ambari就是为了让Hadoop以及相关的大数据软件更容易使用的一个工具。Ambari跟Hadoop等开源软件一样,是Apache基金会的顶级项目。◆自己调用Hadoop和HBase的JMX接口获取监测数据。◆创建、管理、监视Hadoop的集群(Hadoop生态圈)集群出现问题及时报警,帮助运维快速定位与解决问题。◆利用Hadoop生态圈开源的专业监控工具。◆为了保证系统的稳定性,可靠性,可运维性。◆了解集群的性能表现,及时做出针对性调整。如何监控HBase集群。顶级项目:Ambari。

2022-09-05 19:13:39 1047

原创 HBase-12-HBase容灾策略

CopyTable工具采用scan查询,写入新表时采用put和delete API,全部是基于hbase的client api进行读写。Export可导出数据到目标集群,然后可在目标集群Import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份。支持时间区间、row区间,改变表名称,改变列族名称,指定是否copy已经被删除的数据等功能。可以快速的恢复表至快照指定的状态从而迅速的修复数据(会丢失快照之后的数据)举例:hbase shell。//创建一个与原表同列族的表。

2022-09-02 16:29:09 307

原创 HBase-11-HBase Coprocessor HBase协处理器

HBase协处理器受BigTable协处理器的启发,为用户提供类库和运行时环境,使得代码能够在HBaseRegionServer和Master上处理。◆RegionObserver:提供客户端的数据操纵事件钩子:Get Put。配置文件加载:即通过hbase-sitexml文件配置加载,一般这样的协。◆系统协处理器:全局加载到RegionServer托管的所有表和F。通过API代码加载:即通过API的方式来加载协处理器。◆表协处理器:用户可以指定一张表使用协处理器。实现一个Endpoint类型的协处理器。

2022-09-02 16:24:45 533

原创 HBase-10-HBase优化策略

防止热点问题,避免使用时序或者单调的递增递减(设计rowkey时,加盐,也就是在rowkey前加随机数, 哈希反转等方式,来处理热点问题,rowkey符合唯一原则,尽量要短一点,过长对于region server的内存和磁盘都是消耗)对于元数据的开销来说,高表的元数据开销大,行多,rowkey比较多,region也会比较多。对于事务能力来说,宽表的事务性更好,HBase的事务性是建立在行的基础上的。创建HBase表的时候预先创建一些空的Regions。利用HBase默认排序特点,将一起访问的数据放到一起。.

2022-08-31 18:23:47 358

原创 Hbase-9-HBase操作-过滤器

Hbase为筛选数据提供了一组过滤器,通过过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作。SingleColumnValueExcludeFilter 对该列的单元值进行比较过滤。SingleColumnValueFilter 对该列的单元值进行比较过滤。KeyOnlyFilter 返回的数据不包括单元值,只包含行键与列。比较过滤器通常需要一个比较运算符以及一个比较器来实现过滤。通常来说,通过行键,列来筛选数据的应用场景较多。基于列和单元值的过滤器。...

2022-08-31 18:21:49 536

原创 Hbas-6-通过shell命令操作hbase-7-Hbase Java-开发hbase数据库操作类-8-HBase基础操作项目

HBase Scan检索操作数据模型。HBase单个查询操作数据模型。HBase Table操作类。HBase管理Admin类。HBase添加操作数据模型。8-HBase基础操作项目。HBase查询的结果模型。HBase检索结果模型。

2022-08-31 18:20:39 212

原创 Hbase-5-Hbase模块协作

HMaster对各个RegionServer(包括失效的)的数据进行整理,分配Region和meta信息表,然后Hmaster会把meta信息交给zookeeper,之后b5-Hbase模块协作ackup Master会定期从active master处保持数据更新,以保证自己的meta表是最新的。Hbase三个模块,Hmaster,RegionServer,zookeeper(zookeeper因为很重要所以也算做hbase的一个模块来看)HMaster更新hbase:meta表来保证数据正常访问。...

2022-08-31 18:19:03 140

原创 Hbase-3-4-Hbase读写数据流程

Hbase保证内存中的数据不会丢失,是使用HLog,HLog是WAL(预写日志)的一种实现,RegionServer将更新操作记录到memStore,然后更新到HLog中,只有当更新到HLog中成功后,这条记录才算真正成功的写入,当memStore数据丢失,可以使用HLog找回,注意,一般的WAL是先写入日志再写入内存,但是Hbase是先写入内存后写入日志。3:当MemStore的大小达到一定的值后,flush到StoreFile并存储到HDFS。...

2022-08-31 18:18:19 592

原创 Hbase-2-Hbase概念理解

Column:HBase的列由Columnfamily和Columnqualifier组成,由冒号((:)进行进行间隔。个行键(RowKey)来进行唯一标识的,行键并没有什么特定的数据类型,以二进制的字节来存储。Timestamp:每个值都会有一个timestamp,作为该值特定版本的标识符。Column Qualifier:列族中的数据通过列标识来进行映射,可以理。Row:在表里面,每一行代表着一个数据对象,每一行都是以一。Cell:每一个行键,列族和列标识共同组成一个单元。...

2022-08-31 18:15:40 152

原创 HBase-1-概述

HBase建立在Hadoop文件系统之上,利用了Hadoop的文件系统的容错能力。HBase建立在Hadoop文件系统之上,利用了Hadoop的文件系统的容错能力。HBase内部使用哈希表,并存储索引,可将在HDFS文件中的数据进行快速查找。HBase内部使用哈希表,并存储索引,可将在HDFS文件中的数据进行快速查找。HBase内部使用哈希表,并存储索引,可将在HDFS文件中的数据进。HBase不适用于有join,多级索引,表关系复杂的数据模型。+维护表和Region的元数据,不参与数据的输入/输出过程。.

2022-08-31 18:12:46 278

原创 Hive的基本操作

内部: load data local inpath '/home/bigdata/dataFlow.log' into table sand.dataFlow;外部:load data inpath '/dataFlow.log' overwrite into table dataFlow;删除数据库时要保证数据库为空,否则会报错。drop table 数据库名.表名。2:创建以某个分隔符的表。6:查看数据表的创建过程。10:创建表(外部表)5:创建表(内部表)...

2022-08-31 14:34:45 179

原创 Hive的 mapreduce 计算例子

运算过程统计每个手机号的上行流量总和,下行流量的总和,流量总和。>运算结果:手机号->上行流量和,下行流量和,总和。>数据源:手机号,上行流量,下行流量。4:封装实体类Flow。修改609行为true。......

2022-08-31 14:17:24 201

原创 Hive的UDF

UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成mapreduce程序后,执行java方法,类似于像Mapreduce执行过程中加入一个插件,方便扩展. UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF .hive的类SQL预发给数据挖掘工作者带来了很多便利,海量数据通过简单的sql就可以完成分析,有时候hive提供的函数功能满足不了业务需要,就需要我们自己来写UDF函数来辅助完成,下面用一个简单的例子说明过程,以及注意事项。计算函数需要把状态作为一个值返回给用户。...

2022-08-30 15:29:58 763

原创 HiveUtil.java

【代码】HiveUtil.java。

2022-08-30 15:29:15 247

原创 Hive的JDBC操作

1:准备驱动jar包。

2022-08-30 15:26:46 756

原创 HWI的安装及使用

4:Result File 路径为Linux本地路径(需提前手动创建)3:查询数据生成结果。

2022-08-30 15:25:21 1552

原创 Hive的独立安装

javax.jdo.option.ConnectionDriverNamemysql驱动程序。rpm -e --nodep mysql-libs-5.1.73.......卸载已安装的mysql。javax.jdo.option.ConnectionPassword

2022-08-30 15:24:42 201

原创 Flink的单机部署方式

jobmanager.rpc.address: 10.0.0.1 配置主节点的ip。taskmanager.tmp.dirs taskmanager的临时数据存储目录。taskmanager.heap.mb taskmanager节点可用的内存。jobmanager.heap.mb jobmanager节点可用的内存。jobmanager.rpc.address master节点的地址。./bin/flink # 路径 $FLINK_HOME。ON YARN是企业级用的最多的方式 *****.

2022-08-30 14:51:59 594

原创 Flink监控和调优笔记

100task 98-99跑完了 1-2很慢 ==> 能跑完 、 跑不完。repartition-repartition strategy 大大。思考:有了HistoryServer之后为什么还需要提供REST API?默认是1 适当的调整:好几种 ==> 项目实战。shell对于bigdata有用吗?启动:./historyserver.sh start。group by: 二次聚合。看一下这些脚本的写法。Flink中常用的优化策略。Flink监控和调优。...

2022-08-30 14:50:46 115

原创 Flink Table API & SQL

示例:public static void main(String[] args) throws Exception {ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();BatchTableEnvironment tableEnv = BatchTableEnvironment.getTableEnvironment(env);String...

2022-08-30 14:49:16 116

原创 kafka connector

kafka connector

2022-08-30 14:48:55 158

原创 HDFS Connector

Flink HDFS Connector

2022-08-30 14:46:50 144

原创 dataStream sink

示例:socket发送数据,把String转java对象,然后保存到mysql数据库中Student.classpublic class Student {private int id;private String name;private int age;@Overridepublic String toString() {return "Student{" +...

2022-05-26 11:26:30 220

原创 DataStream Transformations

public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//filterFunction(env);//unionFunction(env);//splitSelectFuncti...

2022-05-26 11:24:22 78

原创 DataStream Data Sources

public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();socketFunction(env);//nonParallelSourceFunction(env);//parallelSourc...

2022-05-26 11:22:58 76

原创 Broadcast Variables广播变量

FlinkBroadcast Variables:Broadcast variables允许你创建一个数据集在所有的并行操作节点都能获取到,除了常规的输入操作。针对一些小的依赖数据集,这种方式是非常有用的,这个data set数据集将会作为一个Collection集合被操作访问。Broadcast(广播数据) :通过withBroadcastSet(DataSet, String) 进行广播数据,并给这份数据起名字Access(获取数据):通过getRuntimeContext().get.

2022-05-26 11:21:32 347

原创 6-计数器

计数器:基于flink开发计数器的三步:step1:定义计数器LongCounter counter = new LongCounter();step2:注册计数器:getRuntimeContext().addAccumulator("ele-counts-java", counter);step3:获取计数器long num = jobResult.getAccumulatorResult("ele-counts-java");示例:public sta

2022-05-26 11:18:56 121

原创 5-sink

sink:public static void main(String[] args) throws Exception {ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();List<Integer> info = new ArrayList<Integer>();for(int i=1; i<=20; i++) {...

2022-05-26 11:18:02 76

原创 4-Transformation

Map:public static void mapFunction(ExecutionEnvironment env) throws Exception {List<Integer> list = new ArrayList<Integer>();for (int i = 1; i <= 10; i++) {list.add(i);}DataSource<Integer> data = en...

2022-05-26 11:16:59 60

原创 Data Sources及例子

DataSources基于文件File-based: readTextFile(path)/TextInputFormat- Reads files line wise and returns them as Strings. readTextFileWithValue(path)/TextValueInputFormat- Reads files line wise and returns them as StringValues. StringValues are ...

2022-05-26 11:15:15 198

原创 环境准备+开发例子

环境准备JDK:下载地址:Java Downloads | OracleMac :dmgLinux: tar.gzWindows: exeMaven官网:maven.apache.org下载地址:https://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin....

2022-05-26 11:11:25 103

原创 流处理框架对比

流处理框架对比Spark:Streaming 结构化流 批处理为主 流式处理是批处理的一个特例(minibatch)Flink :流式为主,批处理是流式处理的一个特例Storm :流式 Tuple ...

2022-05-26 11:09:34 121

原创 jQuery--ajax

jQuery–ajaxajax :异步请求,浏览器地址栏不改变,进行局部刷新。 ajax 流程分析 jQuery 的ajax 第一层: $.ajax(...) 最底层ajax请求,编写最复杂,完成功能最全的。 第二层:load() 、$.get() 、$.post() 开发中常用3个 第三层:$.getJSON() 、$.getScript() 高级开发 $.getJSON

2016-12-22 21:23:27 472

原创 jQuery效果|动画

jQuery效果|动画基本通过改变元素 高度和宽度 进行显示或隐藏show(speed,fn) 显示 参数1:speed速度。显示的时间,单位:毫秒。固定字符串:(“slow”,”normal”, or “fast”) 参数2:fn 回调函数。动画效果完成之后回调函数。 hide() 隐藏 toggle() 切换滑动通过改变元素 高度 进行显示或隐藏slideDown()

2016-12-22 20:59:34 384

原创 jQuery事件绑定(处理,委派,切换)

jQuery事件绑定(处理,委派,切换)事件处理bind(type ,fn) 给当前对象绑定一个事件。例如:A.bind(“click”, fn ); 类型:A.click( fn ); unbind(type ) 解绑bind绑定事件 one(type ,fn ) 给当前对象绑定一次事件。 on(events , fn) 提供绑定事件处理程序所需的所有功能。完成3个方法功能.bind()

2016-12-22 20:52:41 1228

原创 jQuery事件(常见事件的总结)

jQuery事件 jQuery 提供额外的事件,用于完善javascript缺失的 focusin 和 focusout focusin 获得焦点。js focus。 focusin事件跟focus事件区别在于,他可以在父元素上检测子元素获取焦点的情况。 focusout 失去焦点。js blur。 focusout事件跟blur事件区别在

2016-12-20 20:47:51 480

Struts2(一)

Struts2简介以及Struts2的环境配置和Struts2框架实现功能的原理

2016-10-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除