自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

XuXuemin的专栏

还互联网一片净土

  • 博客(310)
  • 资源 (8)
  • 收藏
  • 关注

原创 Hive数据仓库行转列

Hive、SparkSQL、Presto、MaxCompute平台数据仓库中行转列的使用案例介绍

2024-02-20 15:39:03 588

原创 Python读取文件并写入到MaxCompute表

使用Python,或者使用DataWorks创建PyODPS3节点,读取FTP或者远程FTP文件,然后写入到MaxCompute指定表的分区中。

2024-02-04 16:00:02 255 1

原创 Flink的检查点算法

介绍Flink的检查点算法的原理和实现过程,还包括检查点相关的数据源和Sink的支持理解。

2024-01-02 15:14:51 691

原创 数据预处理方法

数据预处理的介绍,数据标准化的具体方法阐述

2023-11-21 11:02:56 186

原创 泊松分布与伽马分布

介绍泊松分布和伽马分布,及其两者的关系

2023-08-04 18:05:55 771

原创 Flink SQL使用MySQL数据源的启动模式

介绍MySQL CDC源表的几种接入方式

2023-07-17 20:05:47 410

原创 Flink SQL中窗口和水印触发机制

Flink SQL的窗口函数介绍和使用。水印无法触发的解决办法

2023-06-30 17:58:49 675

原创 Flink的时间语义和状态管理

Flink的时间语义介绍,状态介绍,包括状态的分类等

2023-05-11 16:26:11 114

原创 极大似然估计的总结

极大似然估计的介绍和总结,以及其在连续性分布和离散型分布中的应用举例

2023-05-03 10:43:09 798

原创 插入排序算法及Java实现

插入排序和折半插入排序算法介绍和Java实现

2023-04-28 15:18:14 126

原创 向量的距离及其计算

距离的分类和计算

2023-04-23 10:38:26 903

原创 Java多线程实现简单消费者生产者模型

介绍Java多线程实现生产者消费者简单模型

2023-03-30 19:28:57 161

原创 Flink中的时间与窗口

Flink的时间语义介绍,窗口及窗口函数的介绍

2023-03-06 11:03:56 425

原创 Flink运行组件及原理

Flink组件介绍,包括JobManager,TaskManager等。Flink的任务运行的步骤和原理。

2023-02-08 19:57:44 270

原创 Hive和Spark-SQL的演变

Hive到Spark-SQL的演变过程

2023-02-01 21:08:41 265

原创 统计学中的白噪声理解

介绍白噪声的概念,从统计学理解白噪声

2022-12-14 15:31:31 1769

原创 Spark数据倾斜及解决方法

Spark算子使用过程中遇到的数据倾斜问题及其解决方法,该数据倾斜也适用于其他计算引擎中

2022-12-05 21:35:55 1669

原创 Spark Streaming介绍

Spark Streaming的介绍,包括原理,数据来源和数据处理机制

2022-11-30 11:31:06 266

原创 Spark的内存管理

Spark的运行服务相关的内存介绍

2022-11-22 12:45:14 984

原创 Spark的Shuffle过程解释

Spark的Shuffle过程的个人理解,包括分区,Map和Reduce的写入读取和分解等。

2022-11-07 11:01:26 644

原创 Hive配置参数解释

Hive配置参数的介绍和解释,包括对应MapReduce引擎和对应Tez引擎的,同时也记录了在使用Tez引擎过程中的报错解决办法。

2022-10-31 10:55:35 2253

原创 Spark任务提交后的处理流程

Spark任务提交后的处理流程,主要是指Spark对计算任务的预处理、环境资源、分区及stage划分的处理

2022-10-17 14:44:21 1133

原创 Spark的介绍和安装配置

介绍Spark的原理和核心组件,RDD算子的介绍,安装和配置说明

2022-10-12 10:27:09 908

原创 Hive引擎

Hive引擎介绍及Tez引擎的使用配置

2022-08-29 10:50:33 1588

原创 Hive运行机制与原理

Hive的运行原理,包括服务组件介绍,存储格式、压缩格式等的实践总结

2022-08-15 10:47:26 735

原创 Hive简介及安装配置

Hive的介绍及其安装和配置

2022-06-23 19:33:04 516

原创 HBase安装配置过程和说明

HBase安装和配置说明

2022-06-01 17:15:48 377

原创 HBase数据模型与原理

HBase(Hadoop Database)数据可以放在单主机上,非HDFS上,但不是分布式的。一般都是放在HDFS上。HBase需要Zookeeper。结构体系Master:为RegionServer分配Region;负责RegionServer的负载均衡;发现失效的RegionServer便重新分配其上的Region;管理用户对table的增删改操作。看着作用不是很大,只要活着即可。RegionServer:维护Region,处理对这些Region的IO请求;负责切分在运行过程中变得过大的Reg

2022-04-27 17:38:29 1255

原创 Zookeeper原理及算法模型

概述Zookeeper(下简称zk)的基本数据模型为一个树形结构(类似文件系统结构)。zk的节点(znode)分为临时节点和永久节点。临时节点对当前session有效,永久节点永久有效。(同HIVE UDF)。永久节点下面可以挂子节点,临时节点下面不能再挂任何节点。znode特点:znode:每一个节点都有一个id,id不会重复;每一个id都有一个父id(pid)。每一个节点上的数据发生了变化,这时候会引发数据版本号cversion变化(版本号+1)znode上面不要存放太大的数据(几个kb),

2021-08-26 16:34:35 494

原创 YARN的配置项

这里以Hadoop 2.7为例,如果新版有变更以新版为主。ResourceManager相关配置参数:yarn.resourcemanager.address:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yarn.resourcemanager.hostname}:8032yarn.resourcemanager.scheduler.address:ResourceManager 对ApplicationMaster暴露的访问地

2021-08-04 09:44:19 3152

原创 Numpy随机数生成

numpy.random比Python的random(只能一次生成一个样本值)性能好很多,更便捷,使用如下:import numpy as npnp.random.normal(size=(4, 4)) # 生成标准正态分布的随机样本shape为4*4数组np.random.randint(0, 1) # 从给定的上下限选择整数,这里0到1两个中选(np.abs([2, -1, 3]) > 0).argmax() # 返回第一个最大值的索引,argmax(1)指定轴1返回数组# 随机数生成

2021-08-03 10:13:50 1000

原创 Python库Numpy的代数计算

Numpy库,可以用二维数据代替矩阵,举例如下:x = np.array([[1., 2., 3.], [4., 5., 6.]])y = np.array([[6., 23.], [-1, 7], [8, 9]])x.dot(y) # 等价于np.dot(x, y),x的轴1和y的轴0的shape相等可相乘,所以x.dot(ones(3))是可行的,结果是array([6., 15.])from numpy.linalg import inv, qrx = np.random.randn(3,

2021-07-30 14:35:00 276

原创 我们需要一款新的社交平台

我相信很多人和我一样,忍受了小马哥家产品的绑架和殴打。需要一个新的社交模式,社交应该是公平的,自由的。人人都不喜欢一个基本没有创新的场所,凭借自己强大的后盾,进行模仿和拷贝并反咬别人而取胜,且受不到任何惩罚的恶棍不仅一直屹立不倒,还很逍遥自在。社交网络领域,我们经历过校园网变身的人人网,陌陌,现在的字节、抖音、B站、Soul,还有支付宝,但这些产品还没有真正开启颠覆微信的旅程。实际上,我们需要一个不一样的坚持者,不断的优化和迭代产品。因为我们拥有天资聪明的慧根,所以做起事来不太团结,本该几个企业合伙来

2021-07-29 16:14:23 179

原创 MySQL数据库导出导入数据

下面MySQL数据库导出方式可用于数据库的备份:# --host=localhost等于-h localhost;--user=-u;--port=-P;---password=-p。# --protocol=tcp/socket/pipe/memory(一般不指定),--all-databases=-A(导出全部数据库),--all-tablespaces=-Y导出全部表空间(就是数据之意),--no-tablespaces=-y不导出任何表空间信息,--add-drop-database每个数据

2021-07-13 09:46:15 253

原创 影子的印象

小时候,我喜欢在闲暇无事的时候观察各种各样的影子,自己的影子,房屋的影子,树的影子。慢慢的我还学会了用影子来判断时间,这不是大人告诉的,而是来自不断的观察和总结。长大以后,来到城市里上了大学,开始了工作,生活节奏也快了起来,没有时间去捕捉影子的乐趣,甚至连定睛观察的时候都很少。今天中午我像往常一样出门,因为早出发了一会,所以不赶时间。我坐在公车上,前方路口遇到了红灯,车突然停了下来,我向窗外望去,旁边车道也停着几辆车。我无意中注意到一辆小汽车的影子,因为是中午,影子很短,好像暗示着停留的时间很短一样。影

2021-01-31 13:58:56 332 2

原创 使用Reactor线程模型构建的简易网络通信聊天程序

服务端代码class NioReactorChatServer { ExecutorService workPool; // 这里提示可以私有,其实不可以 /* 底层pollWrapper是对channel(Socket)进行读写支持,所以一个channel注册到两个selector,则: 1. 若对应两个工作线程则要哪个先select到归哪个,这是猜测。 2. 其实这样似乎是没必要的,因为select一次之后,serverSocketChannel.accept之后就将

2021-01-26 16:25:40 179

原创 Hadoop资源调度框架Yarn介绍

Yarn(yet another resource negotiator)是分布式调度引擎,Hadoop2加进来的,算是抽象出来的。主要是监管节点上使用多少内存和CPU,然后把任务分配到空闲的节点,Yarn只做调度,不做计算。不光MapReduce可以使用Yarn,例如Spark,Storm,Tez,Mpi等很多也可以用于Yarn上。组件ResourceManager:资源管理者,一般和Nam...

2020-04-28 20:06:37 240

原创 Hadoop分布式文件系统HDFS介绍

HDFS全称是Hadoop Distributed File System。hdfs中的block的大小默认128MB(hadoop2.x,1.x是64MB),文件占用的大小不到128也占用128M。默认每个block有3个备份(dfs.replication可设),备份在一个rack(机架)上的不同节点,备份和原文件一般不在一个机架。如果一个节点宕掉,其中的block会生成新的到其他节点(宕机的...

2020-04-25 22:15:15 342

原创 Zookeeper运行过程与机制剖析

是一个分布式协调服务的开源框架。Zookeeper的层次关系叫Znode,Zookeeper可用来监测Hadoop集群中每个节点的配置文件和状态的变化,Zookeeper可将配置同步到各个节点。Zookeeper可用来做HA。服务状态Follower的运行状态包括:LOOKING(当前节点不知道Leader是谁,在搜寻);LEADING(当前节点成为了Leader);FOLLOWING(Lea...

2020-04-24 11:15:53 349

原创 MapReduce的Shuffle过程详细理解

Map端Map执行完,开始输出,也就是写入到环形内存缓冲区,输出时按照输出的key进行分区(Partition,分区方式默认按照key的hash值对reducer个数取模)。数据在环形内存缓冲区,超过阈值(默认100MB,可mapreduce.task.io.sort.mb来设定,是指一个task的,整个工作叫job,单独的map和reduce叫task,超过阈值表示超过80%,可mapredu...

2020-04-20 22:56:41 497

Hadoop使用笔记

这是鄙人在学习和使用Hadoop过程中记录的内容,可能不适合很多人,仅提供参考,如有问题也可提出,探讨。

2020-04-22

Linux操作系统笔记

学习Linux操作系统的笔记,主要包括操作系统相关的基础概念和常用命令的记录。都是个人亲自记录的,属于个人笔记参考,出现问号的表示有疑问之处,如果有不对的还请提出意见。

2019-03-29

Code128条码编码规则与绘制

代码中包含两个类,一个是编码规则类,一个是绘制条形码类,使用时只要生成一个DrawCode128对象即可,例如想得到一个数据"abcd12345"的Code128条形码并按图像输出:DrawCode128 dCode128 = new DrawCode128("abcd12345"); Image img=dCode128.IMGCode128()

2012-10-21

获取汉字拼音的首字母_C#代码

文件为一个类定义文件,类中定义了两个获取汉字(含简体中文和繁体中文)的方法,一种是把所有中文字符集合起来组成一个对照表;另一种是依照汉字在Unicode编码表中的排序来确定拼音的首字母。碰到多音字时就以常用的为准(第一种方法中可以自行更改,方法为手动把该汉字移动到对应的拼音首字母队列) 使用方法为 例:ChinSpell.GetChinSpell("我是中国人");//返回"我是中国人"每个汉字拼音首字母(大写)组成的字符串。

2012-10-16

DataMax打印机指令打印二维条码_C#代码

C#写的WinForm程序,代码中包括根据编号和日期生成条码,然后生成DataMax打印机支持的打印指令DPL,然后把DPL指令发送到打印机。发送方式通过并口。本例子打印的是二维条码和文本内容。二维条码中包含控制字符(如:回车)

2012-10-16

DataMax打印机指令打印_C#代码

C#写的WinForm程序,代码中包括根据编号和日期生成条码,然后生成DataMax打印机支持的打印指令DPL,然后把DPL指令发送到打印机。发送方式通过并口。本例子打印的是一维码和文本内容。

2012-10-15

ASCII码_含扩展(256个字符)_含解释

ASCII码表的完整版:含有基本的0-127(128个)ASCII标准字符和128-255(128)个扩展字符。在128个标准字符里有控制字符和可打印字符,文档对其进行了详细说明,看后一目了然。

2012-10-12

C语言宿舍管理系统

用纯C语言编写的简单的宿舍管理系统。包括文件的读写,信息的输入和输入;主要功能包括增删改、查看、检索等;输入输出在Dos界面。

2012-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除