自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (2)
  • 收藏
  • 关注

原创 Airflow学习之路五 Airflow性能优化(airflow.cfg配置)

Airflow2.0版本[core][logging][webserver][scheduler][core]# dags存放路径dags_folder = /home/xxx/airflow/dags# 获取服务器IP的方式hostname_callable = socket.getfqdn# 时区,可以是UTC(默认),也可以换成国内Asia/Shanghaidefault_timezone = utc# airflow支持并行性的工作器,有`SequentialExecutor`(默认

2021-03-08 15:30:31 1534

原创 Airflow学习之路四 Scheduler时间调度

概念文档1中有如下几句话:The first DAG Run is created based on the minimum start_date for the tasks in your DAG. Subsequent DAG Runs are created by the scheduler process, based on your DAG’s schedule_interval, sequentially.If you run a DAG on a schedule_interval o

2021-03-03 14:45:04 1662

翻译 Airflow学习之路三 airflow最佳实践

在airflow官方文档1中不推荐使用动态的start_date。start_date是前DagRun部分遗留,但仍然运用在许多方面。当创建了一个新的DAG时, 对于你的任务可能需要使用default_args来设置一个全局的start_date。建立的第一个DagRun将会基于所有任务中最小的(start_date)。从那时起,调度程序将会根据你的schedule_interval 来建立新的DagRun,并且在满足所设立的依赖时运行相应的任务实例。将新任务引入DAG时,需要特别注意start_date

2021-03-02 16:57:16 612

原创 Airflow学习之路二 task状态关系

1

2021-03-01 14:20:53 2357

翻译 Airflow学习之路一 概念

Airflow学习之路一 概念Concept IntroductionDAGSDefault ArgumentsDAG Runsexecution_dateOperatorsTasksTask InstancesDAGSDAG是一个由n(n⩾1n\geqslant1n⩾1)个task构成的有向无环图。它记录了任务之间的逻辑关系,调度时间,任务状态等等。Default Arguments以字典的形式将参数传入DAG中。官方文档1中将参数统一放置于default_args中,其适用于任意实例化运算符

2021-03-01 14:14:33 169

原创 回归类模型的种类

数据状况 对应模型 Python函数 数据为理想状态 线性回归模型/一般线性模型 statesmodles.regression.liner_model* sklearn.liner_model.LinerRegression 非线性关联/存在高次项/交互项 曲线直线化 sklearn.preprocessing.Polyn...

2019-05-14 10:48:48 1907

原创 挖掘建模之K-means聚类算法

定义K-Means算法(K-均值聚类)是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度越大。算法过程从N个样本数据中随机选取K个对象作为初始的聚类中心分别计算每个样本到各聚类中心的距离,将对象分配到距离最近的聚类中所有对象分配完成之后,重新计算K个聚类的中心与前一次计算得到的K个聚类中...

2019-05-07 20:04:39 656

原创 Sklearn学习_03特征选择

1

2019-05-06 10:33:48 480

原创 挖掘建模之神经网络

人工神经网络是一种模拟生物神经网络进行信息处理的数学模型。人工神经网络的设计是以人工神经元为基础的。它也是人工神经网络操作的基本信息处理单位。上图为人工神经元模型。图中的激活函数有如下几种激活函数在分类与预测,δ学习规则(误差校正学习算法)是使用最为广泛的一种。常用的用来实现否对、、分类和预测的人工神经网络算法有人工神经网络BP神经网络的学习算法是δ学习规则,目标函数采用E=∑...

2019-04-24 20:02:46 484

原创 Sklearn学习_02数据的预处理

1

2019-04-23 15:20:07 309

原创 第五章——挖掘建模之决策树

1

2019-04-22 16:51:43 685

原创 Sklearn学习_01数据挖掘概述

通过下面这张图了解一下Sklearn的工作原理这是一张CRISP-DM,即为"跨行业数据挖掘标准流程"。它强调的是一个循环迭代的过程。想要详细的了解这张图可以在https://www.bigdatas.cn/article-2103-1.html该网站中了解。在这张图中Sklearn是从"数据准备"阶段开始的。首先,Sklearn有预处理的模块,可以把特征进行提取和归一化 ,把相应的原始输入...

2019-04-18 16:28:53 631

原创 Python常用库_01—Numpy

什么是NumpyNumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndar...

2019-04-17 17:09:29 216

原创 第六章——电力窃漏电用户自动识别 实验一

实验一是处理表格中的缺失值,这里用的是拉格朗日插值法# 导入pandas数据分析库import pandas as pd# 导入lagrange插值函数from scipy.interpolate import lagrange# 忽略警告信息import warningswarnings.filterwarnings('ignore')# 输入数据的路径inputfile =...

2019-04-16 21:09:47 1156 1

groceries数据集

共计9835条数据,33个特征属性。利用Apriori等关联算法,寻找频繁项集,挖掘关联规则。平时测试用用

2020-09-29

ID3.Python.zip

资源中包含完整的ID3决策树算法Python代码和原始数据,其中有2个文件:main.py是算法的实现代码,agaricus-lepiota是原始数据,decision_tree.py用来构建、绘制决策树,pre_processing.py用来读取文件,代码运行时,自行划分测试集与训练集。

2019-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除