自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

student_thon的博客

原创 Airflow学习之路五 Airflow性能优化(airflow.cfg配置)

Airflow2.0版本[core][logging][webserver][scheduler][core]# dags存放路径dags_folder = /home/xxx/airflow/dags# 获取服务器IP的方式hostname_callable = socket.getfqdn# 时区，可以是UTC(默认)，也可以换成国内Asia/Shanghaidefault_timezone = utc# airflow支持并行性的工作器，有`SequentialExecutor`(默认

2021-03-08 15:30:31 1534

原创 Airflow学习之路四 Scheduler时间调度

概念文档1中有如下几句话：The first DAG Run is created based on the minimum start_date for the tasks in your DAG. Subsequent DAG Runs are created by the scheduler process, based on your DAG’s schedule_interval, sequentially.If you run a DAG on a schedule_interval o

2021-03-03 14:45:04 1662

翻译 Airflow学习之路三 airflow最佳实践

在airflow官方文档1中不推荐使用动态的start_date。start_date是前DagRun部分遗留，但仍然运用在许多方面。当创建了一个新的DAG时，对于你的任务可能需要使用default_args来设置一个全局的start_date。建立的第一个DagRun将会基于所有任务中最小的(start_date)。从那时起，调度程序将会根据你的schedule_interval 来建立新的DagRun，并且在满足所设立的依赖时运行相应的任务实例。将新任务引入DAG时，需要特别注意start_date

2021-03-02 16:57:16 612

原创 Airflow学习之路二 task状态关系

1

2021-03-01 14:20:53 2357

翻译 Airflow学习之路一概念

Airflow学习之路一概念Concept IntroductionDAGSDefault ArgumentsDAG Runsexecution_dateOperatorsTasksTask InstancesDAGSDAG是一个由n(n⩾1n\geqslant1n⩾1)个task构成的有向无环图。它记录了任务之间的逻辑关系，调度时间，任务状态等等。Default Arguments以字典的形式将参数传入DAG中。官方文档1中将参数统一放置于default_args中，其适用于任意实例化运算符

2021-03-01 14:14:33 169

原创回归类模型的种类

数据状况对应模型 Python函数数据为理想状态线性回归模型/一般线性模型 statesmodles.regression.liner_model* sklearn.liner_model.LinerRegression 非线性关联/存在高次项/交互项曲线直线化 sklearn.preprocessing.Polyn...

2019-05-14 10:48:48 1907

原创挖掘建模之K-means聚类算法

定义K-Means算法（K-均值聚类）是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度越大。算法过程从N个样本数据中随机选取K个对象作为初始的聚类中心分别计算每个样本到各聚类中心的距离，将对象分配到距离最近的聚类中所有对象分配完成之后，重新计算K个聚类的中心与前一次计算得到的K个聚类中...

2019-05-07 20:04:39 656

原创 Sklearn学习_03特征选择

1

2019-05-06 10:33:48 480

原创挖掘建模之神经网络

人工神经网络是一种模拟生物神经网络进行信息处理的数学模型。人工神经网络的设计是以人工神经元为基础的。它也是人工神经网络操作的基本信息处理单位。上图为人工神经元模型。图中的激活函数有如下几种激活函数在分类与预测，δ学习规则（误差校正学习算法）是使用最为广泛的一种。常用的用来实现否对、、分类和预测的人工神经网络算法有人工神经网络BP神经网络的学习算法是δ学习规则，目标函数采用E=∑...

2019-04-24 20:02:46 484

原创 Sklearn学习_02数据的预处理

1

2019-04-23 15:20:07 309

原创第五章——挖掘建模之决策树

1

2019-04-22 16:51:43 685

原创 Sklearn学习_01数据挖掘概述

通过下面这张图了解一下Sklearn的工作原理这是一张CRISP-DM,即为"跨行业数据挖掘标准流程"。它强调的是一个循环迭代的过程。想要详细的了解这张图可以在https://www.bigdatas.cn/article-2103-1.html该网站中了解。在这张图中Sklearn是从"数据准备"阶段开始的。首先，Sklearn有预处理的模块，可以把特征进行提取和归一化，把相应的原始输入...

2019-04-18 16:28:53 631

原创 Python常用库_01—Numpy

什么是NumpyNumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。NumPy 是一个运行速度非常快的数学库，主要用于数组计算，包含：一个强大的N维数组对象 ndar...

2019-04-17 17:09:29 216

原创第六章——电力窃漏电用户自动识别实验一

实验一是处理表格中的缺失值，这里用的是拉格朗日插值法# 导入pandas数据分析库import pandas as pd# 导入lagrange插值函数from scipy.interpolate import lagrange# 忽略警告信息import warningswarnings.filterwarnings('ignore')# 输入数据的路径inputfile =...

2019-04-16 21:09:47 1156 1

groceries数据集

共计9835条数据，33个特征属性。利用Apriori等关联算法，寻找频繁项集，挖掘关联规则。平时测试用用

2020-09-29

ID3.Python.zip

资源中包含完整的ID3决策树算法Python代码和原始数据，其中有2个文件：main.py是算法的实现代码，agaricus-lepiota是原始数据，decision_tree.py用来构建、绘制决策树，pre_processing.py用来读取文件，代码运行时，自行划分测试集与训练集。

2019-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除