fitzgerald0-CSDN博客

时间序列聚类概述时间序列数据挖掘从技术角度来讲，一般有四种时间序列预测，时间序列分类，时间序列聚类，时间序列异常检测基本上包含了机器学习的几大领域由于时序数据的特殊性，所以每一个方面都与截面数据挖掘有所区别。本文主要讲讲时序聚类中的k-shape算法，和以往的风格一样，重在算法实现。时间序列数据的聚类，关键在于如何定义相似度。比如基于时间序列特征（len，max,min,std,lag）等可以使用 KMeans算法进行聚类。除了使用欧式距离以外，还可以使用dtw等方法，以及动态规划原理，对时间序列.

2020-08-23 21:15:27 25959 53

原创基于PySpark的销量预测

“ 本文阐述基于Pyspark的sql数据读取、特征处理、寻找最优参数、使用最优参数预测未来销量的全过程，重在预测流程和Pyspark相关知识点的讲解，展示可供企业级开发落地的demo。”

2020-06-21 15:07:02 2054 1

原创 PySpark-prophet预测

简介Prophet是facebook开源时间序列预测工具,使用时间序列分解与机器学习拟合的方法进行建模预测。关于prophet模型优点我不打算说，网络上的文章非常多，各种可视化，和参数的解释与demo演示。但是在正在用到工业上大规模的可供学习的中文材料并不多。本文打算使用pyspark进行多序列预测建模，会给出一个比较详细的脚本，供交流学习，重点在于使用hive数据/分布式，以及中间数据预处理，以及pandas_udf对多条序列进行循环执行。背景说明，在十万级别的sku序列上使用prophet预测每

2020-05-16 12:01:50 2350 5

原创 pyarrow.lib.ArrowInvalid: ‘utf-32-le‘ codec can‘t decode

使用pyspark的时候定义数据类型通过@pandas_udf的形式进行装饰的时候发现这个错误schema = StructType([ StructField("store_sku", StringType()), StructField("ds", StringType()), StructField("pro_pred", DoubleType())])@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP

2020-05-13 21:12:02 1997 2

原创时间序列树模型特征工程汇总

时间序列特征汇总特征一、时间特征特征二、类别mean encoding特征特征三、统计特征特征四：滞后历史特征特征五：高阶特征特征六：外部特征稍微总结一下，时间序列中的特征，主要针对机器学习树模型，因为是时序数据，所以和寻常的机器学习特征略有不同，比如关注时间特征，滞后特征，滑窗特征等。特征一、时间特征import datetimeimport pandas as pddf['ds']=...

2020-01-18 14:10:02 6881 4

原创多元线性模型中共线性产生的原因解析

在很多书籍中谈到了共线性问题，作为多元统计中基本假设之一，却经常被违背，影响模型稳定性和统计power。在不少的论文中谈到了，国内的很多书籍往往一笔带过。因为，属于统计计算领域内容，非专业人士，也鲜有能明白其中内涵，现依据手上的一些资料和自己的理解，写就一些。一.共线性概念共线性问题(collinearity)，是指两个或者更多的自变量高度相关，当只有两个高度相...

2019-12-02 20:05:28 19079 3

原创利用SARIMAX进行销量预测

本文从传统的时间序列SARIMAX算法讲解销量预测模型。主要涉及到python的pandas、statsmodels、joblib等模块，通过对多个模型进行并行网格搜索寻找评价指标MAPE最小的模型参数，虽然供应链销量预测可供使用的模型非常多，但是作为计量经济学主要内容之一，时间序列因为其强大成熟完备的理论基础，应作为我们处理带有时序效应数据时首要尝试的模型类型，且往往效果不错。本文只是从代码的...

2019-09-14 10:32:14 20733 17

原创基于tsfresh特征扩展和lasso时序建模

本文介绍使用tsfresh库进行时序 Freature Extract,结合Lasso进行建模。一、背景众所周知，lasso是机器学习鼻祖之一Robert Tibshirani之作，以L1正则作为特征筛选的回归模型，在多元回归和高维数据建模中具有广泛的应用，但在时序模型中使用的较少，可以查到的几篇文章中文期刊中，主要使用在ARIMA模型中p的定阶，以及多元时间序列的特征筛选。而tsfresh...

2019-05-27 21:52:19 2056

原创 TensorFlow Probability概率编程-时序模型

本文使用TensorFlow Probability这一新的概率编程工具，通过实例介绍其中的时间序列建模。

2019-05-16 23:44:56 3897 2

原创机器学习-特征工程笔记

机器学习-特征工程对于某个特定任务来说，如何找到最佳数据表示，称之为特征工程（feature engineering）分类变量 One_Hot编码与dummy variable python代码实现在我另一篇博客连接连续变量离散化特征离散化( discretization)也叫分箱(bining),与上文不同的是，离散化是把原理连续取值的变量转化为几个值表示。比如在...

2018-04-12 09:56:25 550

原创数据未归一化时可能产生的精度损失问题

先祭出Andrew Ng的这张图除了平时大多数文中解释很明白的会对模型的拟合造成困扰，特征之间的量纲相差很大也会存在精度损失的问题，比如 a=0.1234, b=0.000001234 在允许保留六位有效数字的时候 a+b=0.1234 此时b就被吃掉了，该问题也叫大数吃小数。...

2018-04-04 13:57:56 1032

原创正则化最小二乘与条件数（cond）

来源于自学《凸优化》和《矩阵分析与应用》笔记正则化最小二乘给定AϵRm×nAϵRm×nA\epsilon R^{m\times n},bϵRmbϵRmb\epsilon R^{m },为函数F1和F2两个目标的优化问题，Ax中A为已知系数矩阵，x表示要求的系数参数，b表示真实值，label,或者y值Ax中A为已知系数矩阵，x表示要求的系数参数，b表示真实值，label,或者y值Ax中A...

2018-03-29 22:11:29 4341

原创多元模型的交互作用与共线性

实际上，共线性的存在是可以看作是无限接近于违背多元模型中自变量线性可加这个假设，也就是说，违背了自变量之间独立性。建立多元线性模型，就给定了自变量,X=x1+x2+x3+....xnX=x1+x2+x3+....xnX=x_{1}+x_{2}+x_{3}+....x_{n},这样的线性关系。如果两个变量存在高度相关，比如相关系数大于0.9，那么，就是自变量xi≈λxjxi≈λxjx_{i}\...

2018-03-12 20:03:53 10595 1

原创多元回归中的最大似然和最小二乘估计

\qquad 多元回归中的最大似然和最小二乘估计最大似然估计 \quad 最大似然估计：对于因变量YYY，最大似然估计就是去找到YYY的参数估计值θθ\theta ，使其发生概率最大,利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。 \quad 函数YYY中的自变量是相互独立，变量发生的概率联合分布可以写作当个边际分布的乘积，我们通常最大化的似然函数： Λ(θ...

2018-03-09 12:12:18 9992 3

原创 python类别变量（class_label）转换为One_Hot的几种方式

首先解析一下，one_hot (独热)编码，和dummy variable（哑变量）的区别：在用keras时候，有一个模块写好one_hot转换from keras.utils import to_categoricaldata = [1, 3, 2, 0, 3, 2, 2, 1, 0, 1]encoded=to_categorical(data)pri...

2018-01-29 23:19:29 38331 3

原创 python实现总体最小二乘（TLS）

用python实现总体最小二乘导入库,读取数据（数据网址为点击打开链接）import numpy as npimport matplotlib.pyplot as pltimport pandas as pddata=pd.read_table("/Users/cofreewy.txt")x1=data['Traffic']y1=data['CO']数据归一化f

2018-01-25 22:43:41 3551 2

原创 Mplus中出现‘NO CONVERGENCE. NUMBER OF ITERATIONS EXCEEDED’

用Mplus分析数据的时候，在输出的output中出现‘NO CONVERGENCE. NUMBER OF ITERATIONS EXCEEDED.‘的警告今天刚好翻到凸优化中讲解‘范数逼近中野值或大误差的灵敏性’这个知识点，略微扩展实践一下。一、关于野值野值，就是平时在统计中说的离群点或者异常值。注：图中的id为4个的这个点明显的偏离其他样本

2018-01-22 00:26:13 24098 3

原创 mac系统文件突然增多

这几天一直在跑python程序，因为经常调试的缘故，中途多次，强行退出程序。前几天还有100G空间的，今天突然提醒我，内存不足，确实是吃了一惊，删除一些大的文件后，发现原来只有20G的系统文件，占了100G左右，系统文件是没有办法在内存管理这里手动删除的，于是先关机，同时，按住shift + option + command + 电源键，重置，开机后系统文件在20多G，几乎是恢复正常了，但

2018-01-09 20:09:29 2969

原创 keras做CNN的训练误差loss的下降

采用二值判断如果确认是噪声，用该点上面一个灰度进行替换。噪声点处理：对原点周围的八个点进行扫描，比较。当该点像素值与周围8个点的值小于N时，此点为噪点。处理后的文件大小只有原文件小的三分之一，前后的图片内容肉眼几乎无法察觉。但是这样处理后图片放入CNN中在其他条件不变的情况下，模型loss无法下降，二分类图片，loss一直在8-9之间。准确率维持在0.5,同时，测试集的训练误差持续下...

2018-01-08 14:06:15 13477 7

原创验证性因素分析AVE和CR值

AVE (Average Variance Extracted)“平均方差提取值” 衡量收敛效度CR(Construct Reliability, CR)建构信度,反映了每个潜变量中所有题目是否一致性地解释该潜变量，当该值高于0.70时表示该潜变量具有较好的建构信度。验证性因素分析AVE和CR值，可以通过AMOS或者Mplus输出的因子负荷和误差变异，手工求解，也可以用R公式如下：...

2018-01-08 10:06:41 87988 2

原创 CNN 训练集和测试集loss值配对T检验

对输出的两组loss值进行配对样本T检验1.两组值如图所示：(A-训练集loss , B-测试集loss)2 . 二组值的相关：可以看出是中度的显著负相关3 . 二组的配对T检验：结果表明在二者在0.01置信水平呈显著差异4 . 绘图:随着训练epoch的增加，训练集的loss逐渐降低，而测试集loss增加

2018-01-07 17:16:53 2720

原创 PIL批量对图片进行转换（RGB-->Gray）

Image模块中主要有八种模式，分别为1，L，P，RGB，RGBA，CMYK，YCbCr，I，以往很多博客都是对一张图片做转换，本文简单的读取文件夹中的图片，做颜色通道的转换，可以改改做其他的尝试。from os.path import splitextimport globfrom PIL import Image def get_file(filename): file

2018-01-06 11:40:02 8463

原创百度云-深度学习tensorflow搭建

百度云上部署Tensorflow进行模型训练上半年就了解过百度云但是还是tf1.0版本的，而谷歌3月份的升级到1.2改动挺大的，百度云上更新滞后，所以尽管有tf平台，版本落后每小时付费还是有点小贵，于是没有考虑了，近日有对比了几家平台，百度云深度学习tensorflow是1.2了，更符合个人的习惯，同时可以选择用jupyter登录写代码。首先是进入百度云官网实名认证，目前所有的云...

2017-12-25 21:35:46 6482 2

原创出现“cannot identify image file '/Users//.DS_Store'”问题的解决办法

“cannot identify image file '/Users//.DS_Store'”在用mac跑深度学习tensorflow框架是制作图片格式向tfrecord格式转化中，读取文件夹中的图片出现系统文件时候报错，提示有.DS_Store系统文件。最简单的办法就是删除，之前在网上找了有些办法不太适用，要么是删除内存中所有的.DS_Store文件，显然在这里是小题大做了，...

2017-12-21 21:09:23 9006 12

原创在列表中找出两个彼此最接近但不相等的数

在列表中找出两个彼此最接近但不相等的数data=[1,5,7,45,3,12,18]def seqnum(data): dd=max(data) for i in data: for j in data: if i==j: continue d=abs(i-j) if d <dd:

2017-11-19 23:52:55 2347

原创无约束优化基础--解的条件

无约束优化基础——解的条件解的条件补充：凸函数的实用场合：局部最小值就是全局最小值。必要和充分条件都是一阶（2）终止条件（3）算法的收敛性：（4）收敛速度：

2017-11-19 19:39:07 405

（Multicollinearity）多重共线性R语言讲解

Mastering python Data Analysis.pdf

空空如也