@你好-CSDN博客

原创 autofis

autofis大概分成两个阶段 serach 和retrain1.search 搜索feature交互的参数2.retrain 用search出来的架构训练模型search是Differentiable ARchiTecture Search这样的方法+GRDA...

2020-03-27 21:49:18 462

原创 deepfm代码实践

在数据citrio的情况下：import pandas as pdfrom sklearn.metrics import log_loss, roc_auc_scorefrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoder, MinMaxScaler...

2020-03-08 20:13:58 379 1

原创数据学习（十七）-时间序列分析和预测实践

import pandas as pdimport numpy as npdata=pd.read_excel('E:\date.xlsx')data#读取数据结果如下：处理数据def getseason(s): #print(s[5:7]) return s[5:7]data['季度']=data['日期'].apply(getseason)def get...

2020-03-08 01:22:46 676

本课程是推荐系统的入门课程，主要从推荐系统背景介绍、推荐算法、推荐系统工程、推荐产品形态、实战等五个部分对推荐系统做初略的介绍。在背景介绍部分，会讲解推荐系统的技能要求、推荐系统的价值与应用场景、推荐系统团队组成及角色定位、推荐系统的未来发展等。在推荐算法部分，会讲解最主流的基于内容的、协同过滤等推荐算法。在工程实践部分会讲解怎么评估推荐系统、推荐系统AB测试等方面的工程知识。在产品形态部分...

2020-03-06 16:49:25 124

原创数据学习（十六）-时间序列分析和预测

1.时间序列及其分解2. 时间序列的描述性分析3. 平稳序列的平滑和预测4. 有趋势序列的分析和预测5.复合型型序列的分解1.时间序列及其分解同一现象在不同的时间相继观察值排列而成的序列，称为给时间序列。根据观察时间的不同，时间序列中的时间可以是年份，季度，月份或其他时间形式。时间序列可以分为平稳序列和非平稳序列。基本上不存在趋势的序列，称为平稳序列。包含趋势性。季度性或周期性的序列...

2020-03-01 15:50:24 8552

原创数据学习（十五）-方差分析实践

有A、B、C、D四个地区，不同地区的销售量不一样，现抽取了不同时间段内每个地区的销售量，试解决：1、每个地区间的销售量是否相同？2、不同月份的销售量是否相同？3、不同时间与地区的销售量是否相同？1、每个地区间的销售量是否相同？（1）提出假设H0:u1=u2=u3=…=un，每个地区间的销售量没有显著变化。H1:ui(i=1,2,3,…)不完全相等，地区对销量有显著变化。(2)构造检...

2020-02-22 17:29:44 543 1

原创数据学习（十四）-方差分析与试验设计

1.方差分析引论2.单因素方差分析3.方差分析中的多重比较4.双因素方差分析5.试验设计初步1.方差分析引论方差分析是比较多个总体的均值是否相等，但本质上它所研究的是变量之间的关系。1.1 方差分析及其有关术语检验多个总体均值是否相等的统计方法，成为方差分析。方差分析所研究的是分类型自变量对数值型因变量的影响，包括它们之间有没有关系，关系的强度如何等。通过检验各总体的均值是否相...

2020-02-16 21:58:40 4402

原创数据学习（十三）-回归分析实践

回归分析实践导入包和读取数据import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitdata=pd.read_csv("E:\data.csv")data结果如...

2020-02-08 23:50:36 373

原创数据学习(十二)-回归分析

1.一元线性回归2.多元线性回归一元线性回归1.1.1 变量间的关系相关与回归是处理变量之间关系的一种统计方法。从所处理的变量多少来看，如果研究的是两个变量之间的关系，称为简单相关与回归分析；如果研究的是两个以上变量之间的关系，称为多元回归分析。从变量之间的关系形态上看，有线性与非线性回归分析。变量间的关系变量之间存在不确定数量关系，称为相关关系。1.1.2 相关关系的描述与测度1...

2020-01-29 23:19:14 8108

原创数据学习（十一）-假设检验实践

读取数据import pandas as pdimport numpy as npfrom scipy import statsdata=pd.read_csv('G:\\Datasets\\test.csv')data结果如下：根据数据回答以下问题：1.人体体温的总体均值是否为98.6华氏度？#人体体温的总体均值是否为98.6华氏度?print("样本均值")print...

2020-01-12 23:51:59 489

原创数据学习（十）-假设检验

目录1.假设检验的基本问题2.一个总体参数的检验3. 两个总体参数的检验1.假设检验的基本问题假设检验是推断统计的另一项重要内容，它与参数估计类似，但角度不同，参数估计是利用样本信息推断未知的总体参数，而假设检验则是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立。1.1 假设的陈述1.对总体参数的具体数值所作的陈述，称为假设，或称为统计假设。2. 先对总体参数提出...

2020-01-05 23:54:34 4841

原创数据学习（九）-参数估计实践

#导入包import pandas as pdimport numpy as npfrom scipy import stats#读取数据data=pd.read_excel('G:\Datasets\data.xlsx')data结果如下：#取数据中的age列，并求该列的平均值age=data['Age']age.mean()结果如下：#从总的数据中抽取一百个样...

2019-12-29 18:02:22 262

原创数据学习（八）-参数估计

1.参数估计的一般问题2.一个总体参数的区间估计3. 两个总体参数的区间估计4. 样本容量的确定1.参数估计得一般问题所谓参数估计也就是用样本统计量取估计总体的参数。例如，用样本均值x估计总体均值u等。1.1 估计量与估计值用来估计总体参数的统计量的名称，称为估计量，用符号O表示。用来估计总体参数时计算出来的估计量的具体数值，称为估计值。1.2 点估计与区间估计参数估计方法有点...

2019-12-22 23:35:11 3418

原创数据学习（七）-抽样分布实践

实践import pandas as pdimport numpy as npdata=pd.read_excel('G:\Datasets\data.xlsx')data结果如下：embark = data.groupby(['Embarked'])embark_basic = data.groupby(['Embarked']).agg(['count','min','ma...

2019-12-15 23:31:44 195

原创数据学习（六）-抽样与抽样分布

1.概率抽样分布2.三种不同性质的分布3.一个总体参数推断时样本统计量的抽样分布4. 两个总体参数推断时样本统计量的抽样分布1.概率抽样分布根据抽取原则的不同，分为概率抽样和非概率抽样。概率抽样是根据已知的概率来抽取样本单位；非概率抽样则是根据研究人员有意识的选取样本单位，样本抽样的选取是不随机的。1.1 简单随机抽样从含有N个元素的总体中，抽取n个元素作为样本，使得每一个容量为n的...

2019-12-08 22:10:20 3600

原创 fit,trasform,fit_transform

特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练方法fit同名（不光同名，参数列表都一样），这难道都是巧合？显然，这不是巧合，这正是sklearn的设计风格。我们能够更加优雅地使用sklearn进行特征工程和模型训练工作。通过分析sklearn源码，我们可以看到除训练，预测和评估以外，处理其他工作的类都实现了3个方法：fit、transfo...

2019-12-03 16:50:59 211

原创数据学习（五）-概率分布实践

概率分布实践# 案例：玩抛硬币的游戏，只抛1次硬币，成功抛出正面朝上记录为1，反面朝上即抛硬币失败记录为0# 导入包import numpy as npimport matplotlib.pyplot as plt# 统计计算包的统计模块from scipy import stats# 解决jupyter 中文问题from pylab import mplmpl.rcParam...

2019-12-01 21:09:38 265

原创数据学习（四）-概率与概率分布

1.事件及其概率2.离散型概率分布3.连续型概率分布4. 知识点小结1. 事件及其概率具体如下：1.1 试验与其概率概率：是对某一特定事件出现可能性大小的一种数值度量。试验：对一个或多个试验对象进行一次观察或测量的过程。试验的结果为事件。不能被分解成其他事件组合的基本事件成为简单事件。在一定条件下，一定发生的事件称为必然事件，用符号表示；在一定条件下，一定不会发生的事件成为不可...

2019-11-24 20:59:47 2267

原创数据学习（三）-理论的实践

集中趋势离散趋势分布形状数据的读入基本数据的描述包括平均数，标准差，最小、最大值，四分位数，中位数。#求众数counts = np.bincount(data['data'])#返回众数np.argmax(counts)#众数为：```python#求解四分位差a=np.percentile(data, (25, 50, 75), interpolation='m...

2019-11-16 16:22:21 184

原创数据学习（二）-数据的概括分析

数据的概括性度量1.集中趋势的度量2.离散程度的度量3.偏态与峰态的度量4.小知识模块1.集中趋势的度量集中趋势是指一组数据向某一中心值靠拢的倾向，它反应了一组数据中心点的位置所在。集中趋势度量也就是寻找数据水平的代表值或中心值。1.1 分类数据：纵数一组数据中出现次数最多的变量值。它主要用于测量分类数据、顺序数据和数值型数据的集中趋势。一般情况下，只有数据较大时，纵数才有...

2019-11-10 23:17:33 940

原创数据学习-统计学(1)

数据整理与展示1.数据预处理2.分类和顺序数据的整理与展示3.数值型数据的整理与展示4.统计表1 数据预处理数据预处理分为数据审查、数据筛选、数据排序1.1 数据审查数据审核要从数据的完整性和准确性两方面入手。完整性主要是检查是否有遗漏准确性主要是数据是否有错误二手数据着重数据的适用性和时效性1.2 数据筛选数据筛选包括两方面内容：一是将某些不符合要求的数据或有...

2019-11-01 15:20:04 3034

原创 python3.6安装XGB

python3.6安装Anaconda踩坑https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost找到下载到Anaconda文件下的Scripts然后打开cmd<cd /d d: 进入D盘再cd进入下载文件所在的目录文件，输出命令：>pip install D:\Anaconda\Scripts\xgboost-0.90-cp3...

2019-08-29 11:20:33 452

Julysxl的博客