自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 MaxCompute学习笔记

MaxCompute MapReduce 过程:以wordcount为例:a.txt文件如下: a,b,a b,b,a c,a,a如上所示,有3行MAP阶段:1.每一行一个mapmap1 负责 a,b,amap2 负责 b,b,amap3 负责 c,a,a2.以 key-value形式读取数据map1: <a,1> <b,1>

2018-11-07 17:25:04 713

原创 从今天开始学数据结构(c/c++)之排序

排序算法:快速,冒泡,选择,直接插入,堆排序,归并排序 二分查找,hash算法,贪心算法,分治算法,动态规划算法,随机划分算法,回溯算法等,STL,查找算法#include <iostream>using namespace std;void select_sort(int a[],int n){ for(int i=0;i<n;i++) { //取出最小的...

2018-10-09 09:38:06 261

原创 从今天开始学习数据结构(c++/c)---链表

先实现这么多功能,后续再填代码#include <iostream>using namespace std;struct Node{ int value; Node *next;};//尾插法void insertNode(Node *p,int i){ Node *q=p; while(q->next!=NULL) { ...

2018-09-04 16:15:32 234

原创 集成算法小结

bagging算法: 自助抽样样本, T个弱学习器中选择投票数最高的(分类) T个弱学习器分别得到的回归结果进行算术平均得到的值(回归)random forest: bagging算法进化 自助抽样,弱学习器:cart树 随机选择样本特征,增加泛化能力 T个弱学习器中选择投票数最高的(分类) T个弱学习器分别得到的回归结果进行算术平均得到的值(回归) ...

2018-08-30 15:46:44 2360

原创 数据分析师养成之路之python(机器学习-决策树(完整))

ID3: C4.5 CARTID3实现: C4.5实现 CART实现sklearn下实现SVM: 各种核函数含义及 sklearn下 实现 Apriori实现 Apriori sklearn下实现集成算法FP-growth 算法 PCA算法 SVD应用 map Reduce HIVE HBASE...

2018-08-14 18:07:09 390

原创 数据分析师养成之路之keras篇(sklearn 与keras结合实现调参)

keras 调参(姑且这么叫) 参考网址: http://www.cnblogs.com/surfzjy/p/6445404.html 话不多说,上代码: 导包:from keras.datasets import cifar10from keras.layers import Input, Dense, Dropout, Activation, Flattenfrom keras...

2018-08-09 20:08:10 1722

原创 数据分析师养成之路之python篇:(keras 中 roc和混淆矩阵)

本篇主要集中实现 roc和混淆矩阵(至于模型,这里随便建了一个(知道是个模型就好,当然太low,最后实现的效果也不太好),但,这里重点是除模型以外的内容) 陈述至此,开始进入正题—请看代码! 导入所有用到的包from keras.datasets import cifar10from keras.layers import Input, Dense, Dropout, Activatio...

2018-08-09 17:04:32 5540

原创 数据分析师养成之路之python偏:(画AUC和混淆矩阵)

画AUC和混淆矩阵 代码如下:准备数据,构造模型:from sklearn import datasetsimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom sklearn import linear_modelfrom sklearn.metrics import roc_curv...

2018-08-09 11:40:57 1578

原创 数据分析师养成之路之python篇(从头学习机器学习之逻辑回归)

Logistic回归: 要实现分类,如二分类,我们需要得到的结果是 0,1,即y(x)=0,或y(x)=1,要如何实现这样的效果呢? 单位阶跃函数可以帮助我们实现! 单位阶跃函数: 自变量大于0时,函数值为1; 自变量小于0时,函数值为0(自变量为0时,函数值不做要求) 1.Heaviside step function(海维塞德阶跃函数): 如上图,该函数在跳跃点x=0上,函数...

2018-08-04 18:03:18 419

原创 数据分析师养成之路之keras篇:保存,载入模型笔记

保存模型:model.save('...model.h5') 载入模型:from keras.models import load_modelmodel = load_model('...model.h5')#loss,accuracy = model.evaluate(x_test,y_test)保存参数,载入参数model.save_weights('......

2018-07-28 15:37:34 377

原创 数据分析师养成之路之python篇:从头学习机器学习(决策树(熵,信息增益,创建树的代码实现))

python实现 熵 对上节课的简单回顾:实体为人,他有很多属性,长相,身高…. 信息: 属性的特征 :长相(属性): 很帅(特征) 熵: (包含所有的属性的信息(特征): 身高:很高,长相:很帅,经济:很有钱) 对它进行求熵 条件熵: 某个属性的信息(特征),求熵(如:身高(属性):很高(特征)) 信息增益:熵 -条件熵 : 即为某个属性的信息增益注:笔者是按’实体-属性-特...

2018-07-27 13:28:45 392

原创 数据分析师养成之路之Python篇:从头学习机器学习之决策树(预)

引言: 上一节我们实现了k近邻算法,它可以给出很多分类任务,但是,它无法解释数据中所蕴含的信息(我们预测某个样本点,只找它附近的k个点,看它们分别属于哪个类别,从而断定这个样本点就属于该类别,(即所谓的物以类聚),但是我们不知道,预测的样本点在属性上为什么属于该类别?比如在K近邻中,把鸭子和鸟是划为一个类别,它所给出的解释是,因为鸭子周围大部分都是鸟,这种解释,太过于牵强,我们期待的解释是,因为...

2018-07-24 11:10:35 235

原创 数据分析师养成之路之python:从头学习机器学习(KNN_1)

实现kNN分类算法: 快速理解kNN分类算法: 如上图,绿色圆即为我们要预测的样本,K=3时,即距离绿色圆最近的3个样本(最内圈内) 中,2个红色三角,1个蓝色方框,2>1,所以我们判定绿色圆为红色三角 算法:[距离–排序–取k–求概率–选类别] 1.计算要预测的样本点 和 其他点的距离(已知类别) 2.得到的距离按照从小到大排...

2018-07-23 18:04:51 613

原创 数据分析师养成之路之python:从头学习机器学习(预)

机器学习? 就是把无序数据转换成有用的信息(例如,尿布湿和啤酒) 机器学习的主要任务是 1.分类,2.回归 如何分类? 要想分类,我们需要学习如何分类,即让机器通过算法来分类 怎么实现?回归同分类 输入:样本集合(训练集=n个训练样本,每个训练样本=特征*m+目标变量(分类中:标称型,回归中:连续型) 算法通过输入的样本集合,发现特征和目标变量间的关系(y(目标变量)=kx+b(...

2018-07-23 15:53:50 270

原创 数据分析师养成之路之keras:(Modelcheckpoint,交叉验证等实现篇)

1.数据集的划分和打乱: 主要学习一下,permutation的使用方法,代码简单,这里不多讲解data=np.load(open('/home/LLwang/桌面/wang/bottle_train.npy','rb'))train_labels=fold1train_generator.classesy=utils.to_categorical(train_labels,2)per...

2018-07-23 14:40:27 5782 2

原创 数据分析师养成之路之keras篇,添加auc,costtime

每个epoch显示结果中添加auc,costtime 以下代码,显示结果中添加了auc,acc,costtime,当然这几个参数也可以写在callbacks中for epoch in range(10): starttime=time.time() #注意,这里也可以是fit_generate,不过要保证epochs=1 model.fit(train_data,tr...

2018-07-23 11:38:19 1790

原创 数据分析师养成之路之keras篇:fine-tune学习小结

fine-tune学习小结: 大佬博客链接:https://www.cnblogs.com/andre-ma/p/8676186.htmla.数据集小,和原数据集相似: <5000 -不采取fine-tune,使用预训练网络做特征提取器(高层特征可使用) b.数据集大,和原数据集相似: >10000 -可以fine-tune整个网络 c.数据集小...

2018-07-20 17:05:39 3023

原创 数据分析师养成之路之keras篇:提取bottleneck

提取bottleneck小结: 提取bottleneck的时候,遇到了一个大坑,flatten()那里的size貌似总也改不对 后来重新思考,我要做什么?提取bottleneck 特征啊,仅仅是提取特征而已,我为什么要compile, 为什么要fit?model再经过compile和fit 后,再进行predict,得到的是y_pred,而不是我要的bottleneck 了,所以,compi...

2018-07-20 15:39:33 841

原创 数据分析师养成之路--keras学习中metrics和callbacks笔记

complie中的metrics参数model.compile(...metrics=['accuracy'])如上, metrics中有两个arguments,y_true,和y_pred 它所接收的评估指标为,损失函数,(mse等)和准确率(accuracy等),它们都作用于训练集和验证集(eg: loss:..acc..mae .. val_loss:..val_a...

2018-07-19 17:52:24 8950

原创 数据分析师养成之路---keras中笔记(上,下采样,数据增强部分)

上采样: 有两类样本(A,B),A>B数量,若n*B=A(约等于),则B样本数据变为:n*B,A样本数据为:Adef upperSample(df) df.index=range(len(df)) df_A=df[df['class']=='A'] df_B=df[df['class']=='B'] len_A=len(df_A) len_B=l...

2018-07-19 11:58:21 3816 1

原创 数据分析师养成之路---keras实现自己的数据集

数据准备: 建立几个文件夹(处于方便起见), 用于训练,测试的文件夹(training,testing)(当然也可以留一部分专门用于验证的文件夹(vassidation),这里,验证和测试放一起了) 然后创建training,testing的子文件夹,A,B,这两个子文件夹是类别(A,B两类,多类的话,A,B,C…) 成如下效果: traing/A traing/B testing/...

2018-07-19 10:22:39 3263 1

原创 数据分析师养成之路--python实战分类案例2(如何调参,选择模型等)

对the Breast Cancer Wisconsin dataset进行分类1.准备数据-载入数据,pd.read_csv.. -其中的label,有’M’和‘B’两个值,我们需要标记为数值型from sklearn.preprocessing import LabelEncoderle=LabelEncoder()y=le.fit_transform(y)#这里,原来的...

2018-06-20 22:21:32 1566

原创 数据分析师养成之路--python实战分类案例1

数据预处理与特征工程代码提要如下,具体输出信息不予展示imoprt pandas as pddata=pd.read_csv('D:\Tianic\Train.csv')data.info()data.describe()以上数据共有12个变量 数值变量7个:int64(PassengerID,Survived,Pclass,SibSp,Parch)–891 ...

2018-06-20 10:51:47 826

原创 数据分析师养成之路——成长笔记1,计划

以后我会更新或添加以下内容:1.tableau的实战内容2.

2018-06-19 15:21:22 482

原创 R语言笔记——回顾小结(数据清洗,建模简单流程)

已经好久没有写博客了,今天来复习一下简单的建模流程以kaggle比赛的房价预测为例:(具体数据这里不给出,只说一下思路)里面所提供的数据较为干净,我们只需对数据进行简单的清洗(较为干净含义为,我们不需要自己手工提取相应变量字段等内容,如,之前某池比赛中关于某宝的一些购物数据,需要我们自己分离出有用的数据,此流程较为繁琐,当然,大致做法就是用python的pandas,或是sql语句,各种处理,各种...

2018-05-29 11:46:54 2150

原创 R语言笔记之数据科学算法总结

1.回归算法(Regression) a.一般最小二乘回归(Ordinary Least Squares) b.逻辑回归(Logistic Regression) c.自适应样条回归(Multivariate Adaptive Regression Splines,MARS) d.局部估计散点图平滑回归(Locally Estimated Scatterplot Smoothing,LOES

2018-01-15 15:25:19 1029

原创 R语言笔记之广义线性模型压缩方法2

逻辑回归 1.普通逻辑回归 在逻辑回归中,当变量个数相对观测较大时,很容易发生完全分离或者准完全分离的现象,这时候没有唯一的极大似然估计,因此参数估计的方差极大。> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/sim1_da1.csv")> fit=glm(y~.,

2018-01-15 15:05:41 5084 5

原创 R语言笔记之广义线性模型压缩方法1

glmnet包可以对一系列调优参数值同时计算参数估计。 该包可以用于线性回归,也可以拟合广义线性模型,如逻辑回归,多项式回归,泊松回归,cox回归。初始glmnet> install.packages("glmnet")trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.4/glmnet_2.0-13.zip'Content t

2018-01-15 14:17:11 2333

原创 R语言笔记之线性回归及其衍生(续)

> library(lattice)Warning message:程辑包‘lattice’是用R版本3.4.3 来建造的 > library(caret)载入需要的程辑包:ggplot2Warning messages:1: 程辑包‘caret’是用R版本3.4.3 来建造的 2: 程辑包‘ggplot2’是用R版本3.4.3 来建造的 > library(dplyr)载入程辑包:

2018-01-15 11:43:58 2137

原创 R语言笔记之线性回归及其衍生

普通线性回归1.最小二乘线性模型> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/SegData.csv")> dat=subset(dat,store_exp >0&online_exp >0)> modeldat=dat[,grep("Q",names(dat))]

2018-01-14 23:30:40 5251 1

原创 R语言笔记之特征工程

1.特征构建(艺术成分最高)特征构建指的是从原始数据中人工地构建新的特征 它需要我们从原始数据中找出一些具有物理意义的特征2.特征提取它是一项用不同变量的组合代替原变量的技术 它的目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义的特征。 下面是3个常用的对数据降维的特征提取方法 (1)主成分分析(PCA) (2)探索性因子分析(EFA) (3)高维标度化(MDS

2018-01-14 19:32:31 5939

原创 R语言笔记之模型评估度量

1.回归模型评估度量回归模型的表现度量方式: RMSE:均方误差平方根 校正R^2:对 原始R^2的改进 Cp:在训练集的RSS上加上惩罚 AIC和BIC:基于最大似然值,对参数进行惩罚2.分类模型评估度量分类是指对给定观测样本预测其所属类别,而且类别空间已知,它是有监督学习。> library(dplyr)> library(randomForest)> library(caret)

2018-01-13 17:02:47 6232

原创 R笔记之基础建模技术

1.有监督和无监督 2.误差极其来源 (1)系统误差和随机误差 (2) 因变量误差 (3) 自变量误差 3.数据划分和再抽样 数据划分:将一部分数据预留出来用于模型测试,只用另外的部分数据进行模型训练。 再抽样:重复从数据集中抽取样本并且在不同样本上拟合模型 ,以此得到关于拟合模型的信息。 为什么要对数据进行划分和再抽样? 为了避免过度拟合。

2018-01-12 23:14:57 257

原创 R语言笔记之装袋树和随机森林

装袋法优势:1.有效降低了预测的方差 2.具有更好的预测效能 3.可以提供内在的预测效能估计 装袋法局限: 1.计算量 2.解释性差 如何用R建立装袋树? 先得到自变量和因变量> library(caret)> library(pROC)> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScienti

2018-01-12 22:34:14 3051

原创 R语言笔记之树模型(回归树和决策树)

回归树过程:例:有10名学生,他们的身高分布如下: R1: 女生(7):156,167,165,163,160,170,160 R2: 男生(3):172,180,176 那么,落入R1的样本均值为163,落入R2的样本均值为176,那么对于新样本,如果是女生,树模型预测的身高是163,是男生,则为176. 那么如何划分出区域R1,R2(建造树模型)? 需要使用自上到下的贪婪算法—–递

2018-01-12 22:06:58 22648 5

原创 R语言笔记之树模型

本文来源于《北美数据科学家的私房课》树模型中几个重要定义词分类树(预测离散型结果的树),回归树(预测连续型结果的树),分裂点,根节点,叶节点,节点的度,树的度,修剪,树枝(子树),亲节点和子节点。 (本人乌鸦之作,大家了解分类过程就好,大伙稍安勿躁~) 其中长相—-根节点(分裂点),年龄和经济状况—–分裂点,小鲜肉所在的那些节点是终节点(叶子节点),长相节点的度为2(2条树枝),整颗树的度为

2018-01-12 20:27:24 818

原创 k-近邻算法(预)

步骤1:准备,使用python导入数据创建kNN.py文件,代码如下: 注意格式!注意格式!注意格式!#numpy为科学计算包from numpy import *#operator为运算符模块,提供排序操作的函数import operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

2018-01-09 12:46:13 245

原创 Numpy 函数库基础

打开anaconda prompt(base) C:\Users\LLJiang>pythonPython 2.7.14 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03:34:40) [MSC v.1500 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "li

2018-01-08 12:22:54 333

原创 R语言之数据操作

数据读写对离散变量,我们会观测变量各个层级观测的频数,或者使用两个变量的交叉表格,对离散变量绘制条形图等; 对连续变量,我们会看某个变量的均值,标准差,分位数等 此外,summary(),str(),describe(()等函数(psych包里)做义工数据框的总结。 以上即为一些最基础的方法,但这些方法灵活性不高,输出的信息也是固定的,这时我们需要对数据进行整形。 在整合和整形操作前,我们

2017-12-25 22:09:05 3756

原创 R语言之数据预处理(下)

处理高度相关变量算法:1.计算自变量的相关系数矩阵 2.找出相关系数绝对值最大的那对自变量(a和b) 3.计算a和其他自变量相关系数的均值,对b也做同样操作 4.若a的平均相关系数更大,则将a移除,否则移除b 5,重复2-4,直到所有相关系数的绝对值都低于设定的阈值为止。#结果返回需要删除的列号,变量相关性在0.75左右,findCorrelation()为carat包中的函数> high

2017-12-15 13:57:05 2286

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除