自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 Paimon教程

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了Flink Table Store (简称 FTS)子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。

2024-01-21 16:07:24 1078

原创 Iceberg教程

Iceberg是一个面向海量数据分析场景的开放表格式(Table Format)。

2023-11-04 12:42:37 339

原创 flink教程

pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0

2023-10-15 22:08:05 925 1

原创 kafka原理&架构深入

Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。

2023-06-18 19:57:24 2837 1

原创 网络I/O与磁盘I/O

网络I/0&磁盘I/O

2023-04-05 15:45:55 882

原创 Redis&Mysql同步

canal实现redis和mysql同步

2022-11-20 17:00:25 2104

原创 Redis分布式锁

Redisson实现Redis分布式锁

2022-11-20 16:30:00 3340 1

原创 redis过期监听

1. 修改配置# redis.conf下的配置notify-keyspace-event Ex或者# 进入redis命令行redis-cliCONFIG SET notify-keyspace-events "Ex"# 查看配置CONFIG GET notify-keyspace-events2. springboot + redispom.xml<!-- redis --><dependency> <groupId>org.springf

2022-05-29 15:33:15 1397

原创 Presto

介绍presto以及presto优化

2021-11-03 15:08:53 866 1

原创 scrapy爬虫总结

目录一. Scarapy1. 概述2. 流程二.一. Scarapy1. 概述Scrapy – Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。2. 流程二....

2021-05-09 11:37:06 1366

原创 SpringBoot学习总结

一、SpringBoot概述1. SpringBoot特点为基于Spring的开发提供更快的入门体验,并不是对Spring功能上的增强,而是提供了一种快速使用Spring的方式,内部集成了很多的其他框架,并且做好了默认的配置。2. SpringBoot的核心功能起步依赖起步依赖本质上是一个Maven项目对象模型(Project Object Model,POM),定义了对其他库的传递依赖,这些东西加在一起即支持某项功能。简单的说,起步依赖就是将具备某种功能的坐标打包到一起,例如spring-b

2020-09-25 14:42:34 1339

原创 Spark SQL的基本概念与用法

1. Spark SQL的作用Hive,它是将Hive SQL转换成MapReduce,然后提交到集群上执行的,大大简化了编写MapReduce程序的复杂性,但MapReduce这种计算模型执行效率比较慢。类比Hive,SparkSQL是Spark上的高级模块,SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行Spark SQL,执行效率非常快!SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据)SparkSQL

2020-06-06 15:41:23 502

原创 RDD简介

RDD - 弹性分布式数据集 (Resilient Distributed DataSet)什么是RDDRDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度;操作RDD,其实是对每个分区进行操作,分区会生成Task,Task会调度到Executor上执行相关的计算逻辑,进而对数据进操作与本地集合区别:1)RDD里面存入的是描述信息(从哪里读数据、以后对数据如何计算),不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数)2)RDD的算子分为

2020-05-23 18:27:00 650

原创 Spark运行流程

参考博文:https://blog.csdn.net/qq_17677907/article/details/88685705Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark相对于Hadoop的优势Hadoop虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求,因而只适用...

2020-05-23 17:40:26 275

原创 大数据案例 -- App数据分析

1. 项目需求2. flume采集数据3. 编写数据清洗程序4. 脚本开发和启动将数据清洗程序导出成data-clean.jar存储在windows本地,并导入到linux,接下来就是用一个shell脚本(命名为data-clean.sh)去运行data-clean.jar。#!/bin/bashday_str=`date + '%Y-%m-%d'`inpath=/app-log-...

2020-04-11 21:35:03 2003

原创 Flume

1. Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统Flume可以采集文本文件,socket数据包、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中2. Flume运行机制Flume分布式系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连...

2020-04-02 22:00:37 195

原创 Hbase

1. 什么是Hbase?HBASE是一个数据库----可以提供数据的实时随机读写(MySQL就不行)HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)HBASE相比于其他NoSQL数据库(mongodb、redis、cassendra、hazelcast)的特点:Hbase的表数据存储在HDFS文件系统中从而,...

2020-03-12 17:30:25 320

原创 Hadoop -- Hive

文章目录1. 什么是hive?1.1 基本思想1.2 为什么使用hive?2. hive安装2.1.mysql安装2.2.hive的元数据库配置3. hive使用方式3.1 最基本使用方式3.2 启动hive服务使用3.3 脚本化运行4. 建库建表与数据导入4.1 建库4.2 建表4.2.1 基本建表语句4.2.2 删除表4.2.3 内部表与外部表4.2.4 分区表4.3 数据导入导出4.3.1 ...

2020-03-10 22:34:12 283

原创 Hadoop -- ZooKeeper

1. 什么是ZooKeeper?ZooKeeper 就是动物园管理员,他是用来管 hadoop(大象)、Hive(蜜蜂)等的管理员。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop、Hbase、kafka、dubbo等重要组件。ZooKeeper是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeepe...

2020-03-07 11:27:53 430

原创 Hadoop -- MapReduce

1. 为什么用MapReduce?小案例:统计HDFS的/wordcount/input 目录下所有文件中的每个单词出现的次数——wordcount这个wordcount程序可以在任何地方运行,访问HDFS上的文件并进行统计运算,并且可以把统计的结果写回HDFS的结果文件中;但是,进一步思考:如果文件又多又大,用上面那个程序有什么弊端?慢!因为只有一台机器在进行运算处理!如何变得更快?...

2020-02-28 16:13:54 255

原创 Hadoop -- HDFS

1. 什么是Hadoophadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源2. HDFS的工作机制HDFS对用户提供一个统一的目录树存储用户的文件时,会切成若干文件...

2020-02-21 16:32:07 278

原创 Spring与SpringMVC

1. Spring概述Spring是一个开源框架Spring为简化企业级开发而生,使用Spring,JavaBean就可以实现很多以前要靠EJB才能实现的功能。同样的功能,在EJB中要通过繁琐的配置和复杂的代码才能够实现,而在Spring中却非常的优雅和简洁。Spring是一个IOC(DI)和AOP容器框架。Spring的优良特性依赖注入:DI——Dependency I...

2019-12-11 17:14:52 1433

原创 Maven

一. Maven是什么?1. 自动化构建工具Maven这个单词本意是:专家,内行,读音是['meivn]或['mevn];是一款自动化构建工具,专注服务于java平台的项目构建和依赖管理。构建就是以我们编写的Java代码、框架配置文件、国际化等其他资源文件、JSP页面和图片等静态资源作为“原材料”,去“生产”出一个可以运行的项目的过程。2. 构建环节1)清理:删除以前的编译结果,为重新...

2019-12-03 11:29:11 159

原创 数据分析

1. 什么是数据分析?数据分析是根据业务问题,对数据进行收集、清洗、处理和建模的过程,用于识别有助于业务的信息,获取关键业务结论并辅助决策制定。2. 数据分析具体做什么?业务问题界定→数据收集与清洗→处理分析与模型3. 数据分析产生什么价值?数据分析是为企业盈利的提高收入更低成本获客(客源)提高现有顾客购买金额让购买中低端产品的顾客购买更高价利润更高的产品成本和风险控制...

2019-11-19 21:24:55 1402

原创 数据分析基础 - 统计学

1. 集中趋势与离散趋势通常一批数据,先看他们的描述统计(可画出箱型图),即看集中趋势和离散趋势。集中趋势:集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值。统计学中常用平均数来描述一组变量值的集中位置或平均水平。常用的统计量指标有算数均数、几何均数、中位数和百分位数。1)算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。2)几何均数:常用以反映一...

2019-10-28 21:45:03 6654

原创 KNN最近邻分类算法梳理

1. KNN算法简介K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。其指导思想是”近朱者赤,近墨者黑“,即由你的邻居来推断出你的类别。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从...

2019-09-23 21:27:23 937

原创 决策树算法梳理

目录0. 前言1. 信息论基础1.1 熵1.2 联合熵1.3 条件熵1.4 信息增益1.5 基尼不纯度2. 决策树不同分类算法的原理及应用场景2.1 ID30. 前言决策树是什么?决策树(decision tree) 是一种分类与回归方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。它主要用于分类,决策树模型呈现树形结构,是基于输入特征对实例进行分类...

2019-07-17 22:05:34 528

原创 排序算法总结(python动图版)

目录一. 冒泡排序--BubbleSort基本思想:优化后的冒泡排序二. 选择排序--SelectionSort基本思想:本博客的排序算法元素的排序顺序默认从小到大。一. 冒泡排序–BubbleSort基本思想:两两比较相邻记录的元素,如果反序则交换,直到没有反序的记录。想象一下气泡往上冒的过程,在往上冒的过程比较的是相邻元素,最终会变成一个大气泡(最后一个元素是最大的,如此类推)。优...

2019-07-03 21:40:10 275

转载 SVM算法(三层境界)

            支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化...

2019-05-31 15:25:22 466

原创 Excel 与 VBA

1. 什么是VBA?Excel里的VBA(Visual Basic for Applications)是Visual Basic的一种宏语言。VBA是微软开发出来在其桌面应用程序中执行通用的自动化(OLE)任务的编程语言。主要能用来扩展Windows的应用程序功能,特别是Microsoft Office软件。也可说是一种应用程式视觉化的Basic 脚本。2. Excel与VBA的关系EXCE...

2019-05-30 11:17:48 901

原创 Excel 数据透视表

一. 数据透视表1. 创建数据透视表2. 数据透视表字段与区域筛选、切片、行、列、值3. 如何改变数据透视表布局设计:分类汇总、总计、报表布局4. 数据透视表刷新分析:手动刷新、设置全部刷新、打开文件时自动刷新5. 实现数据分段统计分析:自动等距离组合、自定义组合6. 变更值汇总依据值(值字段设计):求和、计数、平均值、最大/最小值、乘积7. 设置三种值百分比值(值字段设...

2019-05-20 21:47:26 941

原创 Excel 图表

1. 基础图表参考:https://www.cnblogs.com/nxld/p/6121340.html2. 任务一统计各个城市对于数据分析师的需求情况。生成如下两列:(升序排列)注意:模糊匹配插入柱状图选择U2:V14两列数据->插入->二维柱状图->调节间隙宽度和添加数据标签3. 任务二统计对求职者学历要求的情况。生成education和pro...

2019-05-19 19:57:27 357

原创 Excel 查找函数

一. 查找函数1. vlookup函数vlookup(lookup_value,table_array,col_index_num,[range_lookup])lookup_value表示要查找的对象table_array表示查找的表格区域col_index_num表示要查找的数据在table_array区域中处于第几列的列号range_lookup表示查找类型,其中1表示近似匹配...

2019-05-16 14:34:31 3283

原创 Excel 基础函数

一. 基础函数1. 单元格引用1.1 相对引用我们在日常使用公式计算时,函数参数实际是数据的相对位置,在复制公式时,函数参数的位置也发生变化,比方说,我们在使用sum公式求和时,在a3中输入的公式是=sum(a1:a2),将公式复制到b3中,公式则变成了=sum(b1:b2)。1.2 绝对引用公式不论复制到哪里,参数的绝对地址不变,使用方法就是在地址上添加’$’,1.3 混合引用...

2019-05-14 10:10:51 521

原创 Excel 界面和基础操作

一. 文件操作和基础单元格操作1. 文件操作新建workbook新建sheet/移动sheet/重命名sheet/修改sheet颜色sheet种类: 工作表/图表/宏表等保存为xls/xlsx/csv2. 基础单元格操作输入数据,数据格式,合并单元格,自动填充,选择性粘贴,去重,分列,排序,筛选,条件格式,插入下拉列表,行高列宽设置,冻结首行首列,边框,单元格换行…二. 作业...

2019-05-10 22:11:41 260

原创 MySQL -- 实战

1. 数据导入导出声明:以下操作都是在navicat for mysql下操作!将之前创建的任意一张MySQL表导出,且是CSV格式,再将CSV表导入数据库。1.1 导出数据(csv格式)导出的过程中遇到以上问题,原因是secure_file_priv参数问题。secure_file_priv 为 NULL 时,表示限制mysqld不允许导入或导出。secure_file_priv...

2019-04-07 00:05:28 152

原创 MySQL基础 -- 表

目录一. 表操作1. MySQL数据类型2. 用SQL创建表3. 用SQL向表中添加数据4. 用SQL删除表数据5. 用SQL修改表二. 作业1. 列出所有超过或等于5名学生的课2. 交换性别三. 表联结1. MySQL别名2. MySQL连接的使用四. 作业1. 组合两张表一. 表操作1. MySQL数据类型MySQL支持多种类型,大致可以分为三类:数值、日期/时间和字符串(字符)类型。...

2019-04-04 14:12:57 469

原创 MySQL基础 -- 查询语句

SQL查询语句1. 导入示例数据库2. SQL与MySQL3. SELECT...FROM...3.1 解释3.2 去重语句3.3 前N个语句3.4 CASE...END语句4. 筛选语句 WHERE4.1 解释4.2 运算符4.2.1 操作符4.2.2 通配符5. 分组语句GROUP BY5.1 聚集函数1. 导入示例数据库教程:MySQL导入示例数据库2. SQL与MySQLSQL...

2019-04-02 19:16:09 358

原创 逻辑回归算法梳理

逻辑回归算法梳理1. 逻辑回归原理1.1 由来1.2 Sigmod函数以及设定阈值1.2.1 Sigmod函数1.2.1 设定合适的阈值1.3 决策边界1. 逻辑回归原理逻辑回归是一个机器学习分类算法,它将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够对事件发生的概率进行预测,根据这个概率与设定的阈值作比较,从而实现分类功能。1.1 由来回归任务是结果为连续型变量...

2019-04-01 17:07:14 584

原创 MySQL 软件安装及数据库基础

MySQL 软件安装及数据库基础1. 软件安装及服务器设置2. 数据库基础知识数据库定义(database)关系型数据库二维表行、列1. 软件安装及服务器设置教程 http://www.runoob.com/mysql/mysql-install.html这里要注意的几点:必须要以管理员身份打开cmd 命令行工具;当出现 ‘服务器无法启动’ 时,通常是端口被占用了,我的解决方法是...

2019-03-31 16:20:52 365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除