自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 使用随机森林回归填补缺失值

使用随机森林填补缺失值

2023-04-23 23:17:51 987 2

原创 机器学习算法 随机森林

随机森林算法

2023-04-23 22:39:13 592

原创 机器学习算法 决策树

机器学习算法,决策树

2023-04-22 22:55:45 934 1

原创 机器学习算法 KNN

机器学习算法 KNN算法

2023-04-19 23:00:58 447

原创 机器学习 特征工程

机器学习中的特征工程,包含数据预处理,缺失值处理,异常值处理;特征提取,特征构造,特征选择,不平衡样本处理等技术

2023-04-18 22:47:46 843 2

原创 Seaborn 变量分布分析

使用seaborn对特征变量进行相关性分析,并可视化

2023-04-16 22:58:31 644

原创 Pandas 删除数据

pandas中删除数据,删除重复值、删除缺失值等

2023-04-16 13:42:26 7993

原创 机器学习 异常值检测与处理

数据挖掘中 异常值检测与处理

2023-04-16 11:14:56 1802

原创 Pandas 常用按照查询条件筛选数据

python中按照条件筛选数据,包含单条件、多条件筛选等

2023-04-15 21:34:17 3454

原创 pandas 使用loc和iloc读取行数据或列数据

pandas 使用loc和iloc读取数据

2023-04-13 23:34:17 3316 2

原创 Pandas 创建DataFrame

pandas 创建DataFrame

2023-04-13 22:00:36 1150

原创 Pandas Series详解

pandas Series详解

2023-04-12 22:56:11 3056

原创 机器学习 探索性数据分析

机器学习探索性数据分析,包含维度、可视化分析,连续型变量,类别型变量分析等

2023-04-11 22:30:00 2075 2

原创 Python 项目中日志输出为JSON格式

Python项目中使用日志的时候,使用Pythonjsonlogger格式化JSON日志输出

2023-04-11 11:54:56 779

原创 Python 迭代器 与 生成器

python中的迭代器和生成器

2023-04-09 17:43:10 496

原创 Python 中类属性和对象属性

python中类属性和对象属性的介绍

2023-04-09 11:56:14 1120

原创 python lambda表达式

python 匿名函数 lambda表达式

2023-04-09 11:16:37 399

原创 Python 异常处理

python中异常处理

2023-04-09 10:28:06 623

原创 Spark 3.0中 Spark SQL优化

spark 3.0 新特性

2023-04-08 21:34:18 714

原创 Spark Shuffle介绍

Spark shuffle介绍

2023-04-08 21:14:32 767

原创 Spark 任务调度介绍

Spark任务调度

2023-04-08 19:59:03 671

原创 Spark 并行度

Spark中并行度设置

2023-04-08 19:36:30 2423

原创 Spark 内存迭代计算

Spark内存迭代计算,算子之间形成DAG,每个task根据并行度在内存中不断迭代计算

2023-04-08 17:30:44 1364

原创 PyMysql 增删改查

Pymsql增删改查操作和回滚操作

2023-04-07 14:52:14 46

原创 Mysql表中创建默认的时间字段列并自动更新

Mysql表中创建时间字段列,并自动更新时间

2023-04-07 12:04:21 684

原创 filebeat 日志采集到 elasticsearch

filebeat日志采集,输出到es中,配置包含多个输入多个日志文件,根据不同的日志文件类型创建不同的索引,同时支持去除无效字段等。支持JSON格式日志采集等

2023-04-07 11:01:18 1037

原创 Spark 内核调度之DAG

spark DAG有向无环图和宽窄依赖划分

2023-04-06 23:45:58 1033

原创 PySpark 共享变量之 广播变量和累加器

Pyspark累加器和广播变量

2023-04-06 22:12:11 688

原创 PySpark RDD的缓存和Checkpoint

pyspark 中的缓存技术和Checkpoint技术

2023-04-06 21:36:05 582

原创 PySpark 基础之 Transformation算子和Action算子

spark算子,常用的transformation算子和action算子

2023-04-05 23:39:12 659

原创 PySpark基础之RDD的创建

pyspark创建rdd的两种方式,文件读取,和通过并行化创建

2023-04-05 21:34:29 314

原创 Spark 基础 RDD介绍

spark中rdd介绍,血缘关系,弹性分布式数据集,五大特性等

2023-04-05 20:51:11 447

原创 Pyspark 基础知识

Pyspark基础知识,包括Pyspark基本介绍,和Spark框架对比,WordCount执行流程,Pyspark执行原理等

2023-04-05 16:53:54 3147

原创 Spark运行模式介绍

Spark三种运行模式,本地运行模式,StandAlone运行模式,Spark on Yarn运行模式介绍

2023-04-05 15:23:59 1765

原创 Spark 基本知识介绍

spark基本概念理解

2023-04-05 10:55:47 2390

原创 Hive 函数查询

hive常用函数,数值函数,集合函数,类型转换函数,日期函数,条件函数,字符串函数,数据脱敏函数,其他比如md5函数

2023-04-02 23:24:05 90

原创 Hive 基本数据查询

hive 基本查询hql,包含分组聚合查询,join关联查询,union查询,sampling采样

2023-04-02 22:56:42 379

原创 Hive 数据表操作

hive 表相关操作,包含表创建,分区表,分桶表,删除表等操作

2023-04-02 21:03:33 395

原创 Hive 数据库操作

hive 中数据库操作,包含hive启动,hive数据库创建、删除等

2023-04-02 16:39:50 484

原创 分布式SQL计算平台 HIVE

hive 分布式sql计算

2023-04-02 16:08:56 318

jdk1.8包含linux版本,window版本,mac版本 具体版本:jdk-8u351

jdk1.8包含linux版本(jdk-8u351-linux-x64.tar.gz),window版本(jdk-8u351-windows-x64.exe),mac版本(jdk-8u351-macosx-x64.dmg)。

2023-04-02

hbase-2.1.0-bin.tar.gz

linux hbase安装包

2023-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除