鲁鲁酱1996-CSDN博客

原创 MaxCompute学习笔记

MaxCompute MapReduce 过程:以wordcount为例:a.txt文件如下: a,b,a b,b,a c,a,a如上所示,有3行MAP阶段:1.每一行一个mapmap1 负责 a,b,amap2 负责 b,b,amap3 负责 c,a,a2.以 key-value形式读取数据map1: &amp;lt;a,1&amp;gt; &amp;lt;b,1&amp;gt;

2018-11-07 17:25:04 713

原创从今天开始学数据结构(c/c++)之排序

排序算法:快速,冒泡,选择,直接插入,堆排序,归并排序二分查找,hash算法,贪心算法，分治算法，动态规划算法，随机划分算法，回溯算法等,STL,查找算法#include &lt;iostream&gt;using namespace std;void select_sort(int a[],int n){ for(int i=0;i&lt;n;i++) { //取出最小的...

2018-10-09 09:38:06 261

原创从今天开始学习数据结构(c++/c)---链表

先实现这么多功能,后续再填代码#include &amp;lt;iostream&amp;gt;using namespace std;struct Node{ int value; Node *next;};//尾插法void insertNode(Node *p,int i){ Node *q=p; while(q-&amp;gt;next!=NULL) { ...

2018-09-04 16:15:32 234

原创集成算法小结

bagging算法: 自助抽样样本, T个弱学习器中选择投票数最高的(分类) T个弱学习器分别得到的回归结果进行算术平均得到的值(回归)random forest: bagging算法进化自助抽样,弱学习器:cart树随机选择样本特征,增加泛化能力 T个弱学习器中选择投票数最高的(分类) T个弱学习器分别得到的回归结果进行算术平均得到的值(回归) ...

2018-08-30 15:46:44 2360

原创数据分析师养成之路之python(机器学习-决策树(完整))

ID3: C4.5 CARTID3实现: C4.5实现 CART实现sklearn下实现SVM: 各种核函数含义及 sklearn下实现 Apriori实现 Apriori sklearn下实现集成算法FP-growth 算法 PCA算法 SVD应用 map Reduce HIVE HBASE...

2018-08-14 18:07:09 390

原创数据分析师养成之路之keras篇(sklearn 与keras结合实现调参)

keras 调参(姑且这么叫) 参考网址: http://www.cnblogs.com/surfzjy/p/6445404.html 话不多说,上代码: 导包:from keras.datasets import cifar10from keras.layers import Input, Dense, Dropout, Activation, Flattenfrom keras...

2018-08-09 20:08:10 1722

原创数据分析师养成之路之python篇:(keras 中 roc和混淆矩阵)

本篇主要集中实现 roc和混淆矩阵(至于模型,这里随便建了一个(知道是个模型就好,当然太low,最后实现的效果也不太好),但,这里重点是除模型以外的内容) 陈述至此,开始进入正题—请看代码! 导入所有用到的包from keras.datasets import cifar10from keras.layers import Input, Dense, Dropout, Activatio...

2018-08-09 17:04:32 5540

原创数据分析师养成之路之python偏:(画AUC和混淆矩阵)

画AUC和混淆矩阵代码如下:准备数据,构造模型:from sklearn import datasetsimport numpy as npfrom sklearn.model_selection import StratifiedKFoldfrom sklearn import linear_modelfrom sklearn.metrics import roc_curv...

2018-08-09 11:40:57 1578

原创数据分析师养成之路之python篇（从头学习机器学习之逻辑回归）

Logistic回归: 要实现分类,如二分类,我们需要得到的结果是 0,1,即y(x)=0,或y(x)=1,要如何实现这样的效果呢? 单位阶跃函数可以帮助我们实现! 单位阶跃函数: 自变量大于0时,函数值为1; 自变量小于0时,函数值为0(自变量为0时,函数值不做要求) 1.Heaviside step function(海维塞德阶跃函数): 如上图,该函数在跳跃点x=0上,函数...

2018-08-04 18:03:18 419

原创数据分析师养成之路之keras篇:保存,载入模型笔记

保存模型:model.save('...model.h5') 载入模型:from keras.models import load_modelmodel = load_model('...model.h5')#loss,accuracy = model.evaluate(x_test,y_test)保存参数,载入参数model.save_weights('......

2018-07-28 15:37:34 377

原创数据分析师养成之路之python篇:从头学习机器学习(决策树(熵,信息增益,创建树的代码实现))

python实现熵对上节课的简单回顾:实体为人,他有很多属性,长相,身高…. 信息: 属性的特征 :长相(属性): 很帅(特征) 熵: (包含所有的属性的信息(特征): 身高:很高,长相:很帅,经济:很有钱) 对它进行求熵条件熵: 某个属性的信息(特征),求熵(如:身高(属性):很高(特征)) 信息增益:熵 -条件熵 : 即为某个属性的信息增益注:笔者是按’实体-属性-特...

2018-07-27 13:28:45 392

原创数据分析师养成之路之Python篇:从头学习机器学习之决策树(预)

引言: 上一节我们实现了k近邻算法,它可以给出很多分类任务,但是,它无法解释数据中所蕴含的信息(我们预测某个样本点,只找它附近的k个点,看它们分别属于哪个类别,从而断定这个样本点就属于该类别,(即所谓的物以类聚),但是我们不知道,预测的样本点在属性上为什么属于该类别?比如在K近邻中,把鸭子和鸟是划为一个类别,它所给出的解释是,因为鸭子周围大部分都是鸟,这种解释,太过于牵强,我们期待的解释是,因为...

2018-07-24 11:10:35 235

原创数据分析师养成之路之python:从头学习机器学习(KNN_1)

实现kNN分类算法: 快速理解kNN分类算法: 如上图,绿色圆即为我们要预测的样本,K=3时,即距离绿色圆最近的3个样本(最内圈内) 中,2个红色三角,1个蓝色方框,2&gt;1,所以我们判定绿色圆为红色三角算法:[距离–排序–取k–求概率–选类别] 1.计算要预测的样本点和其他点的距离(已知类别) 2.得到的距离按照从小到大排...

2018-07-23 18:04:51 613

原创数据分析师养成之路之python:从头学习机器学习(预)

机器学习? 就是把无序数据转换成有用的信息(例如,尿布湿和啤酒) 机器学习的主要任务是 1.分类,2.回归如何分类? 要想分类,我们需要学习如何分类,即让机器通过算法来分类怎么实现?回归同分类输入:样本集合(训练集=n个训练样本,每个训练样本=特征*m+目标变量(分类中:标称型,回归中:连续型) 算法通过输入的样本集合,发现特征和目标变量间的关系(y(目标变量)=kx+b(...

2018-07-23 15:53:50 270

原创数据分析师养成之路之keras:(Modelcheckpoint,交叉验证等实现篇)

1.数据集的划分和打乱: 主要学习一下,permutation的使用方法,代码简单,这里不多讲解data=np.load(open('/home/LLwang/桌面/wang/bottle_train.npy','rb'))train_labels=fold1train_generator.classesy=utils.to_categorical(train_labels,2)per...

2018-07-23 14:40:27 5782 2

原创数据分析师养成之路之keras篇,添加auc,costtime

每个epoch显示结果中添加auc,costtime 以下代码,显示结果中添加了auc,acc,costtime,当然这几个参数也可以写在callbacks中for epoch in range(10): starttime=time.time() #注意,这里也可以是fit_generate,不过要保证epochs=1 model.fit(train_data,tr...

2018-07-23 11:38:19 1790

原创数据分析师养成之路之keras篇:fine-tune学习小结

fine-tune学习小结: 大佬博客链接:https://www.cnblogs.com/andre-ma/p/8676186.htmla.数据集小,和原数据集相似: <5000 -不采取fine-tune,使用预训练网络做特征提取器(高层特征可使用) b.数据集大,和原数据集相似: >10000 -可以fine-tune整个网络 c.数据集小...

2018-07-20 17:05:39 3023

原创数据分析师养成之路之keras篇:提取bottleneck

提取bottleneck小结: 提取bottleneck的时候,遇到了一个大坑,flatten()那里的size貌似总也改不对后来重新思考,我要做什么?提取bottleneck 特征啊,仅仅是提取特征而已,我为什么要compile, 为什么要fit?model再经过compile和fit 后,再进行predict,得到的是y_pred,而不是我要的bottleneck 了,所以,compi...

2018-07-20 15:39:33 841

原创数据分析师养成之路--keras学习中metrics和callbacks笔记

complie中的metrics参数model.compile(...metrics=['accuracy'])如上, metrics中有两个arguments,y_true,和y_pred 它所接收的评估指标为,损失函数,(mse等)和准确率(accuracy等),它们都作用于训练集和验证集(eg: loss:..acc..mae .. val_loss:..val_a...

2018-07-19 17:52:24 8950

原创数据分析师养成之路---keras中笔记(上,下采样,数据增强部分)

上采样: 有两类样本(A,B),A>B数量,若n*B=A(约等于),则B样本数据变为:n*B,A样本数据为:Adef upperSample(df) df.index=range(len(df)) df_A=df[df['class']=='A'] df_B=df[df['class']=='B'] len_A=len(df_A) len_B=l...

2018-07-19 11:58:21 3816 1

原创数据分析师养成之路---keras实现自己的数据集

数据准备: 建立几个文件夹(处于方便起见), 用于训练,测试的文件夹(training,testing)(当然也可以留一部分专门用于验证的文件夹(vassidation),这里,验证和测试放一起了) 然后创建training,testing的子文件夹,A,B,这两个子文件夹是类别(A,B两类,多类的话,A,B,C…) 成如下效果: traing/A traing/B testing/...

2018-07-19 10:22:39 3263 1

原创数据分析师养成之路--python实战分类案例2（如何调参，选择模型等）

对the Breast Cancer Wisconsin dataset进行分类1.准备数据-载入数据,pd.read_csv.. -其中的label，有’M’和‘B’两个值，我们需要标记为数值型from sklearn.preprocessing import LabelEncoderle=LabelEncoder()y=le.fit_transform(y)#这里，原来的...

2018-06-20 22:21:32 1566

原创数据分析师养成之路--python实战分类案例1

数据预处理与特征工程代码提要如下，具体输出信息不予展示imoprt pandas as pddata=pd.read_csv('D:\Tianic\Train.csv')data.info()data.describe()以上数据共有12个变量数值变量7个：int64(PassengerID,Survived,Pclass,SibSp,Parch)–891 ...

2018-06-20 10:51:47 826

原创数据分析师养成之路——成长笔记1，计划

以后我会更新或添加以下内容：1.tableau的实战内容2.

2018-06-19 15:21:22 482

原创 R语言笔记——回顾小结（数据清洗，建模简单流程）

已经好久没有写博客了，今天来复习一下简单的建模流程以kaggle比赛的房价预测为例：(具体数据这里不给出，只说一下思路）里面所提供的数据较为干净，我们只需对数据进行简单的清洗（较为干净含义为，我们不需要自己手工提取相应变量字段等内容，如，之前某池比赛中关于某宝的一些购物数据，需要我们自己分离出有用的数据，此流程较为繁琐，当然，大致做法就是用python的pandas，或是sql语句，各种处理，各种...

2018-05-29 11:46:54 2150

原创 R语言笔记之数据科学算法总结

1.回归算法(Regression) a.一般最小二乘回归（Ordinary Least Squares） b.逻辑回归(Logistic Regression) c.自适应样条回归（Multivariate Adaptive Regression Splines,MARS） d.局部估计散点图平滑回归(Locally Estimated Scatterplot Smoothing,LOES

2018-01-15 15:25:19 1029

原创 R语言笔记之广义线性模型压缩方法2

逻辑回归 1.普通逻辑回归在逻辑回归中，当变量个数相对观测较大时，很容易发生完全分离或者准完全分离的现象，这时候没有唯一的极大似然估计，因此参数估计的方差极大。> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/sim1_da1.csv")> fit=glm(y~.,

2018-01-15 15:05:41 5084 5

原创 R语言笔记之广义线性模型压缩方法1

glmnet包可以对一系列调优参数值同时计算参数估计。该包可以用于线性回归，也可以拟合广义线性模型，如逻辑回归，多项式回归，泊松回归，cox回归。初始glmnet> install.packages("glmnet")trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.4/glmnet_2.0-13.zip'Content t

2018-01-15 14:17:11 2333

原创 R语言笔记之线性回归及其衍生（续）

> library(lattice)Warning message:程辑包‘lattice’是用R版本3.4.3 来建造的 > library(caret)载入需要的程辑包：ggplot2Warning messages:1: 程辑包‘caret’是用R版本3.4.3 来建造的 2: 程辑包‘ggplot2’是用R版本3.4.3 来建造的 > library(dplyr)载入程辑包：

2018-01-15 11:43:58 2137

原创 R语言笔记之线性回归及其衍生

普通线性回归1.最小二乘线性模型> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/SegData.csv")> dat=subset(dat,store_exp >0&online_exp >0)> modeldat=dat[,grep("Q",names(dat))]

2018-01-14 23:30:40 5251 1

原创 R语言笔记之特征工程

1.特征构建（艺术成分最高）特征构建指的是从原始数据中人工地构建新的特征它需要我们从原始数据中找出一些具有物理意义的特征2.特征提取它是一项用不同变量的组合代替原变量的技术它的目的是自动地构建新的特征，将原始特征转换为一组具有明显物理意义或者统计意义的特征。下面是3个常用的对数据降维的特征提取方法 (1)主成分分析（PCA) (2)探索性因子分析（EFA) (3)高维标度化（MDS

2018-01-14 19:32:31 5939

原创 R语言笔记之模型评估度量

1.回归模型评估度量回归模型的表现度量方式： RMSE：均方误差平方根校正R^2：对原始R^2的改进 Cp：在训练集的RSS上加上惩罚 AIC和BIC:基于最大似然值，对参数进行惩罚2.分类模型评估度量分类是指对给定观测样本预测其所属类别，而且类别空间已知，它是有监督学习。> library(dplyr)> library(randomForest)> library(caret)

2018-01-13 17:02:47 6232

原创 R笔记之基础建模技术

1.有监督和无监督 2.误差极其来源（1）系统误差和随机误差（2）因变量误差（3）自变量误差 3.数据划分和再抽样数据划分：将一部分数据预留出来用于模型测试，只用另外的部分数据进行模型训练。再抽样：重复从数据集中抽取样本并且在不同样本上拟合模型，以此得到关于拟合模型的信息。为什么要对数据进行划分和再抽样？为了避免过度拟合。

2018-01-12 23:14:57 257

原创 R语言笔记之装袋树和随机森林

装袋法优势：1.有效降低了预测的方差 2.具有更好的预测效能 3.可以提供内在的预测效能估计装袋法局限： 1.计算量 2.解释性差如何用R建立装袋树？先得到自变量和因变量> library(caret)> library(pROC)> dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScienti

2018-01-12 22:34:14 3051

原创 R语言笔记之树模型（回归树和决策树）

回归树过程：例：有10名学生，他们的身高分布如下： R1：女生（7）：156，167，165，163，160，170，160 R2：男生（3）：172，180，176 那么，落入R1的样本均值为163，落入R2的样本均值为176，那么对于新样本，如果是女生，树模型预测的身高是163，是男生，则为176. 那么如何划分出区域R1，R2(建造树模型）？需要使用自上到下的贪婪算法—–递

2018-01-12 22:06:58 22648 5

原创 R语言笔记之树模型

本文来源于《北美数据科学家的私房课》树模型中几个重要定义词分类树（预测离散型结果的树），回归树（预测连续型结果的树），分裂点，根节点，叶节点，节点的度，树的度，修剪，树枝（子树),亲节点和子节点。（本人乌鸦之作，大家了解分类过程就好，大伙稍安勿躁~）其中长相—-根节点（分裂点），年龄和经济状况—–分裂点，小鲜肉所在的那些节点是终节点（叶子节点），长相节点的度为2（2条树枝），整颗树的度为

2018-01-12 20:27:24 818

原创 k-近邻算法（预）

步骤1：准备，使用python导入数据创建kNN.py文件，代码如下：注意格式！注意格式！注意格式！#numpy为科学计算包from numpy import *#operator为运算符模块，提供排序操作的函数import operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

2018-01-09 12:46:13 245

原创 Numpy 函数库基础

打开anaconda prompt(base) C:\Users\LLJiang>pythonPython 2.7.14 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03:34:40) [MSC v.1500 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "li

2018-01-08 12:22:54 333

原创 R语言之数据操作

数据读写对离散变量，我们会观测变量各个层级观测的频数，或者使用两个变量的交叉表格，对离散变量绘制条形图等；对连续变量，我们会看某个变量的均值，标准差，分位数等此外，summary(),str(),describe(()等函数（psych包里）做义工数据框的总结。以上即为一些最基础的方法，但这些方法灵活性不高，输出的信息也是固定的，这时我们需要对数据进行整形。在整合和整形操作前，我们

2017-12-25 22:09:05 3756

原创 R语言之数据预处理（下）

处理高度相关变量算法：1.计算自变量的相关系数矩阵 2.找出相关系数绝对值最大的那对自变量（a和b) 3.计算a和其他自变量相关系数的均值，对b也做同样操作 4.若a的平均相关系数更大，则将a移除，否则移除b 5，重复2-4，直到所有相关系数的绝对值都低于设定的阈值为止。#结果返回需要删除的列号，变量相关性在0.75左右,findCorrelation()为carat包中的函数> high

2017-12-15 13:57:05 2286

空空如也

空空如也