dchdd-CSDN博客

原创 vim linux

‘’’整页翻页 ctrl-f ctrl-bf就是forword b就是backward翻半页ctrl-d ctlr-ud=down u=up滚一行ctrl-e ctrl-yzz 让光标所杂的行居屏幕中央zt 让光标所杂的行居屏幕最上一行 t=topzb 让光标所杂的行居屏幕最下一行 b=bottom‘’’...

2021-11-14 10:57:51 969 1

原创 rocketMQ-＞Flink

目的：rocketMQ 流到 flink方法：1.2.3. gti 到本地git clone http地址xxxx4.IDEA 打开项目，配置参数，运行example，成功suorce5.其他问题可留言

2021-07-09 08:45:33 908 2

hadoop读写流程 (1) 读文件流程 1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client 2）client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。 (2) 写文件流程 1）client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用datanode节点 2）client将

2021-05-23 15:03:08 206

原创数据库与数仓

数据库描述：按照数据结构来组织、存储和管理数据的仓库，是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。三范式 1原子性：字段不可再分 2唯一性：仅说明一件事情，有主键，非主键字段依赖主键 3非主键字段不能互相依赖和传递依赖 E R实体关系 Entity-Relationship 数据库设计的理论基础，将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述数据仓库（Data Warehouse）出现原因 OLTP数据库，面

2021-05-22 22:02:16 271 1

原创 redis 梳理

？如何实现session共享？如何实现数据过期处理redis定义： C编写的高性能kv键值对格式的内存数据库 k是二进制安全几种数据类型： 1String 2List 3Hash散列 4set 5Zset（sortedset） 6stream-------------------------------------------------- 7bitmap（位图:字节数组，定义在字符串类型中，最多存储512M） 8hyperloglogs 9geospatial（地理空.

2021-05-21 10:06:34 65

原创 zookeeper 梳理

flink: 一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算优势： 1高性能，高吞吐，低延迟；（如何实现？） 2支持event Time（如何实现？） 3支持有状态计算（如何实现？） 4支持灵活的window（Time/Count/Session/Data-driven）,灵活的触发条件（如何实现？） 5基于轻量级分布式快照CheckPoint，支持容错，将拆解成的小计算过程分布到节点上处理，checkpoint将执行状态中状态信息进行持久化存储，确保处理数据在过程中的

2021-05-21 10:05:55 58

原创 spark 梳理

spark:（2.3.1） spark是hadoop mapreduce的通用并行分布式计算框架，基于内存，Job中间输出的结果可保存在内存中，DAG有向无环图切分任务的执行先后顺序spark运行模式： local（测试） standalone（spark自带资源调度框架，支持完全分布式） yarn（spark实现了applicationMaster接口） mesos案例 val conf=new SparkConf().setAppNam("wc").setMaster("local")

2021-05-21 10:05:14 63

原创 flink 梳理

？Flink基于zookeeper/yarn（基于zookeeper），zookeeper挂掉如何处理?slot底层是什么?什么时候flink的流批进行统一处理？Flink的datastream与spark的dataframe有什么区别?从Kafka向Flink输入数据，过程中kafka宕机，如何保证数据不丢失，不重复读取?ack机制与checkpoint区别?jvm堆内存一般放什么flink: 一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算优势： 1高性能，高

2021-05-21 10:04:09 206

原创 kafka 梳理

?如何实现kafka仅发送一次不重复，加pid，sequence，幂等性kafka定义：一种高吞吐的分布式消息队列系统，特点是生产者消费者模式，保证先进先出，依靠group管理进行消费组管理，多个partition集群： producer broker 负责读写存 consumer zookeeper 存储消费偏移量broker发送offset，consumer消费offset topic，partition等元数据kafka内部 Topic分很多partition，.

2021-05-21 10:02:33 73

原创 hbase梳理

？描述一下hbase region分裂的过程？什么是regionserver，如何工作的？rmi和rpc的区别hbase定义 hbase是高性能、高可靠、面向列、可伸缩的分布式Nosql数据存储结构： namespace region row （由rowkey确定，查询只能按rowkey） column cell单元格，由{rowkey，column family：column：qualify，timestamp}确定一个单元格 timestamp（写入hbase的时间）hba.

2021-05-21 10:01:35 117 1

原创 flink 13 issue记录

Q：1.hadoop集群启动失败，仅单节点启动查看log文件夹下日志，报错为无hadoop依赖 2.加flink-shade-hadoop-2.x jar到 flink lib之后报错：Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 3. WARN org.apache.flink.shaded.curator4.org.apache

2021-05-21 08:02:22 515

原创 hadoop issus

Q:[root@7node1 opt]# start-dfs.sh Starting namenodes on [7node1]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Attempting to operate on hdfs datanode

2021-05-20 12:35:06 88

dchdd的博客