自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fitzgerald0的博客

统计,机器学习,算法

  • 博客(57)
  • 资源 (3)
  • 收藏
  • 关注

原创 Multi-task LightGBM安装

Multi-task LightGBM安装

2022-11-13 13:32:16 918 1

原创 (时间序列)回归模型融合策略

机器学习回归预测中,存在多个模型预测结果,我们可以选择最优的模型结果 ,也可以组合多个不同模型结果,研究表明,在许多情况下,只需对不同预测方法的预测结果进行平均就可以显著提高预测精度。同时达到最优模型的效果。

2022-02-21 22:42:51 3956

原创 PySpark与DataFrame简介

PySpark与DataFrame简介

2021-05-06 15:34:54 2142 5

原创 PySpark.ml时间序列特征工程

PySpark.ml时间序列特征工程

2021-05-06 14:43:07 2113

原创 PySpark机器学习调参方法

PySpark.ML调参方法(CrossValidator与TrainValidationSplit)

2021-05-06 13:54:05 1790

原创 PySpark线性回归与广义线性模型

本节从原理和代码上讲解销量预测任务中使用到的Spark.ML内置线性回归模型和广义线性模型。

2021-05-06 12:31:01 1561

原创 Spark.SQL时间序列缺失值填充与异常值处理

PySpark时间序列缺失值填充与异常值修复

2021-04-30 17:14:03 3444 1

原创 时序距离度量方式DTW(python)

时序距离度量方式Dynamic Time Warping (DTW) Python代码

2021-04-28 14:41:55 2498

原创 PySpark时间序列数据统计描述,分布特性与内部特性

为更好的洞察和处理大规模时序数据的特性,本文针对大规模时序数据,从基本统计特性,分布,序列内部检测三方面,提供Spark和借助numpy,scipy,statsmodels封装的成UDF函数脚本与理论讲解

2021-04-24 14:29:58 1892

原创 销量预测简单模型

销量预测常用简单模型总结,基于python和Spark.SQL

2021-04-20 20:58:02 5134

原创 PySpark机器学习特征选择

本文基于SPARK.SQL和SPARK.ML实现常见的4种结构化数据特征选择方法,并给出基于树模型的特征选择代码。

2021-04-19 23:01:04 2139 1

原创 销量预测建模中常用的损失函数与模型评估指标

本文详细的梳理了销量预测领域常见的损失函数和模型评估指标。

2021-04-06 21:49:43 1965

原创 PySpark外部包lightgbm的jar依赖文件

PySpark外部包lightgbm的jar依赖文件

2021-02-17 22:36:46 1697 3

原创 时间序列可预测性度量

时间序列可预测性度量,讲解从序列长度到平稳性,排序熵等指标

2020-10-10 14:04:31 5183

原创 k-shape时间序列聚类(tslearn)

时间序列聚类概述时间序列数据挖掘从技术角度来讲,一般有四种时间序列预测,时间序列分类,时间序列聚类,时间序列异常检测基本上包含了机器学习的几大领域由于时序数据的特殊性,所以每一个方面都与截面数据挖掘有所区别。本文主要讲讲时序聚类中的k-shape算法,和以往的风格一样,重在算法实现。时间序列数据的聚类,关键在于如何定义相似度。比如基于时间序列特征(len,max,min,std,lag)等可以使用 KMeans算法进行聚类。除了使用欧式距离以外,还可以使用dtw等方法,以及动态规划原理,对时间序列.

2020-08-23 21:15:27 25959 53

原创 基于PySpark的销量预测

“ 本文阐述基于Pyspark的sql数据读取、特征处理、寻找最优参数、使用最优参数预测未来销量的全过程,重在预测流程和Pyspark相关知识点的讲解,展示可供企业级开发落地的demo。”

2020-06-21 15:07:02 2054 1

原创 PySpark-prophet预测

简介Prophet是facebook开源时间序列预测工具,使用时间序列分解与机器学习拟合的方法进行建模预测。关于prophet模型优点我不打算说,网络上的文章非常多,各种可视化,和参数的解释与demo演示。但是在正在用到工业上大规模的可供学习的中文材料并不多。本文打算使用pyspark进行多序列预测建模,会给出一个比较详细的脚本,供交流学习,重点在于使用hive数据/分布式,以及中间数据预处理,以及pandas_udf对多条序列进行循环执行。背景说明,在十万级别的sku序列上使用prophet预测每

2020-05-16 12:01:50 2350 5

原创 pyarrow.lib.ArrowInvalid: ‘utf-32-le‘ codec can‘t decode

使用pyspark的时候定义数据类型通过@pandas_udf的形式进行装饰的时候发现这个错误schema = StructType([ StructField("store_sku", StringType()), StructField("ds", StringType()), StructField("pro_pred", DoubleType())])@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP

2020-05-13 21:12:02 1997 2

原创 时间序列树模型特征工程汇总

时间序列特征汇总特征一、时间特征特征二、类别mean encoding特征特征三、统计特征特征四:滞后历史特征特征五:高阶特征特征六:外部特征稍微总结一下,时间序列中的特征,主要针对机器学习树模型,因为是时序数据,所以和寻常的机器学习特征略有不同,比如关注时间特征,滞后特征,滑窗特征等。特征一、时间特征import datetimeimport pandas as pddf['ds']=...

2020-01-18 14:10:02 6881 4

原创 多元线性模型中共线性产生的原因解析

在很多书籍中谈到了共线性问题,作为多元统计中基本假设之一,却经常被违背,影响模型稳定性和统计power。在不少的论文中谈到了,国内的很多书籍往往一笔带过。因为,属于统计计算领域内容,非专业人士,也鲜有能明白其中内涵,现依据手上的一些资料和自己的理解,写就一些。一.共线性概念共线性问题(collinearity),是指两个或者更多的自变量高度相关,当只有两个高度相...

2019-12-02 20:05:28 19079 3

原创 利用SARIMAX进行销量预测

本文从传统的时间序列SARIMAX算法讲解销量预测模型。主要涉及到python的pandas、statsmodels、joblib等模块,通过对多个模型进行并行网格搜索寻找评价指标MAPE最小的模型参数,虽然供应链销量预测可供使用的模型非常多,但是作为计量经济学主要内容之一,时间序列因为其强大成熟完备的理论基础,应作为我们处理带有时序效应数据时首要尝试的模型类型,且往往效果不错。本文只是从代码的...

2019-09-14 10:32:14 20733 17

原创 基于tsfresh特征扩展和lasso时序建模

本文介绍使用tsfresh库进行时序 Freature Extract,结合Lasso进行建模。一、背景众所周知,lasso是机器学习鼻祖之一Robert Tibshirani之作,以L1正则作为特征筛选的回归模型,在多元回归和高维数据建模中具有广泛的应用,但在时序模型中使用的较少,可以查到的几篇文章中文期刊中,主要使用在ARIMA模型中p的定阶,以及多元时间序列的特征筛选。而tsfresh...

2019-05-27 21:52:19 2056

原创 TensorFlow Probability概率编程-时序模型

本文使用TensorFlow Probability这一新的概率编程工具,通过实例介绍其中的时间序列建模。

2019-05-16 23:44:56 3897 2

原创 机器学习-特征工程笔记

机器学习-特征工程 对于某个特定任务来说,如何找到最佳数据表示,称之为特征工程(feature engineering)分类变量 One_Hot编码与dummy variable python代码实现在我另一篇博客连接连续变量离散化 特征离散化( discretization)也叫分箱(bining),与上文不同的是,离散化是把原理连续取值的变量转化为几个值表示。 比如在...

2018-04-12 09:56:25 550

原创 数据未归一化时可能产生的精度损失问题

先祭出Andrew Ng的这张图 除了平时大多数文中解释很明白的会对模型的拟合造成困扰, 特征之间的量纲相差很大也会存在精度损失的问题,比如 a=0.1234, b=0.000001234 在允许保留六位有效数字的时候 a+b=0.1234 此时b就被吃掉了,该问题也叫大数吃小数。...

2018-04-04 13:57:56 1032

原创 正则化最小二乘与条件数(cond)

来源于自学《凸优化》和《矩阵分析与应用》笔记正则化最小二乘给定AϵRm×nAϵRm×nA\epsilon R^{m\times n},bϵRmbϵRmb\epsilon R^{m },为函数F1和F2两个目标的优化问题,Ax中A为已知系数矩阵,x表示要求的系数参数,b表示真实值,label,或者y值Ax中A为已知系数矩阵,x表示要求的系数参数,b表示真实值,label,或者y值Ax中A...

2018-03-29 22:11:29 4341

原创 多元模型的交互作用与共线性

实际上,共线性的存在是可以看作是无限接近于违背多元模型中自变量线性可加这个假设,也就是说,违背了自变量之间独立性。建立多元线性模型,就给定了自变量,X=x1+x2+x3+....xnX=x1+x2+x3+....xnX=x_{1}+x_{2}+x_{3}+....x_{n},这样的线性关系。 如果两个变量存在高度相关,比如相关系数大于0.9,那么,就是自变量xi≈λxjxi≈λxjx_{i}\...

2018-03-12 20:03:53 10595 1

原创 多元回归中的最大似然和最小二乘估计

\qquad 多元回归中的最大似然和最小二乘估计最大似然估计 \quad 最大似然估计:对于因变量YYY,最大似然估计就是去找到YYY的参数估计值θθ\theta ,使其发生概率最大,利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。 \quad 函数YYY中的自变量是相互独立,变量发生的概率联合分布可以写作当个边际分布的乘积,我们通常最大化的似然函数: Λ(θ...

2018-03-09 12:12:18 9992 3

原创 python类别变量(class_label)转换为One_Hot的几种方式

    首先解析一下,one_hot (独热)编码,和dummy variable(哑变量)的区别:    在用keras时候,有一个模块写好one_hot转换from keras.utils import to_categoricaldata = [1, 3, 2, 0, 3, 2, 2, 1, 0, 1]encoded=to_categorical(data)pri...

2018-01-29 23:19:29 38331 3

原创 python实现总体最小二乘(TLS)

用python实现总体最小二乘导入库,读取数据(数据网址为点击打开链接)import numpy as npimport matplotlib.pyplot as pltimport pandas as pddata=pd.read_table("/Users/cofreewy.txt")x1=data['Traffic']y1=data['CO']数据归一化f

2018-01-25 22:43:41 3551 2

原创 Mplus中出现‘NO CONVERGENCE. NUMBER OF ITERATIONS EXCEEDED’

用Mplus分析数据的时候,在输出的output中出现‘NO CONVERGENCE.  NUMBER OF ITERATIONS EXCEEDED.‘的警告    今天刚好翻到凸优化中讲解‘范数逼近中野值或大误差的灵敏性’这个知识点,略微扩展实践一下。     一、关于野值   野值,就是平时在统计中说的离群点或者异常值。注:图中的id为4个的这个点明显的偏离其他样本

2018-01-22 00:26:13 24098 3

原创 mac系统文件突然增多

这几天一直在跑python程序,因为经常调试的缘故,中途多次,强行退出程序。前几天还有100G空间的,今天突然提醒我,内存不足,确实是吃了一惊,删除一些大的文件后,发现原来只有20G的系统文件,占了100G左右,系统文件是没有办法在内存管理这里手动删除的,于是先关机,同时,按住shift + option + command + 电源键,重置,开机后系统文件在20多G,几乎是恢复正常了,但

2018-01-09 20:09:29 2969

原创 keras做CNN的训练误差loss的下降

采用二值判断如果确认是噪声,用该点上面一个灰度进行替换。噪声点处理:对原点周围的八个点进行扫描,比较。当该点像素值与周围8个点的值小于N时,此点为噪点 。处理后的文件大小只有原文件小的三分之一,前后的图片内容肉眼几乎无法察觉。但是这样处理后图片放入CNN中在其他条件不变的情况下,模型loss无法下降,二分类图片,loss一直在8-9之间。准确率维持在0.5,同时,测试集的训练误差持续下...

2018-01-08 14:06:15 13477 7

原创 验证性因素分析AVE和CR值

AVE (Average Variance Extracted)“平均方差提取值” 衡量收敛效度CR(Construct Reliability, CR)建构信度,反映了每个潜变量中所有题目是否一致性地解释该潜变量,当该值高于0.70时表示该潜变量具有较好的建构信度。验证性因素分析AVE和CR值,可以通过AMOS或者Mplus输出的因子负荷和误差变异,手工求解,也可以用R公式如下:...

2018-01-08 10:06:41 87988 2

原创 CNN 训练集和测试集loss值配对T检验

对输出的两组loss值进行配对样本T检验1.两组值如图所示:(A-训练集loss , B-测试集loss)2 . 二组值的相关:可以看出是中度的显著负相关3 . 二组的配对T检验:结果表明在二者在0.01置信水平呈显著差异4 . 绘图:随着训练epoch的增加,训练集的loss逐渐降低,而测试集loss增加

2018-01-07 17:16:53 2720

原创 PIL批量对图片进行转换(RGB-->Gray)

Image模块中主要有八种模式,分别为1,L,P,RGB,RGBA,CMYK,YCbCr,I,以往很多博客都是对一张图片做转换,本文简单的读取文件夹中的图片,做颜色通道的转换,可以改改做其他的尝试。from os.path import splitextimport globfrom PIL import Image def get_file(filename): file

2018-01-06 11:40:02 8463

原创 百度云-深度学习tensorflow搭建

百度云上部署Tensorflow进行模型训练    上半年就了解过百度云但是还是tf1.0版本的,而谷歌3月份的升级到1.2改动挺大的,百度云上更新滞后,所以尽管有tf平台,版本落后每小时付费还是有点小贵,于是没有考虑了,近日有对比了几家平台,百度云深度学习tensorflow是1.2了,更符合个人的习惯,同时可以选择用jupyter登录写代码。    首先是进入百度云官网 实名认证,目前所有的云...

2017-12-25 21:35:46 6482 2

原创 出现“cannot identify image file '/Users//.DS_Store'”问题的解决办法

“cannot identify image file '/Users//.DS_Store'”在用mac跑深度学习tensorflow框架是制作图片格式向tfrecord格式转化中,读取文件夹中的图片出现系统文件时候报错,提示有.DS_Store系统文件。最简单的办法就是删除,之前在网上找了有些办法不太适用,要么是删除内存中所有的.DS_Store文件,显然在这里是小题大做了,...

2017-12-21 21:09:23 9006 12

原创 在列表中找出两个彼此最接近但不相等的数

在列表中找出两个彼此最接近但不相等的数data=[1,5,7,45,3,12,18]def seqnum(data): dd=max(data) for i in data: for j in data: if i==j: continue d=abs(i-j) if d <dd:

2017-11-19 23:52:55 2347

原创 无约束优化基础--解的条件

无约束优化基础——解的条件解的条件补充:凸函数的实用场合:局部最小值就是全局最小值。必要和充分条件都是一阶(2)终止条件(3)算法的收敛性:(4)收敛速度:

2017-11-19 19:39:07 405

(Multicollinearity)多重共线性R语言讲解

卡内基梅隆大学(CMU)统计教授课件中关于(Multicollinearity)多重共线性R语言讲解

2017-11-15

Mastering python Data Analysis.pdf

Mastering python Data Analysis.英文本python数据分析书籍

2017-10-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除