自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

转载 noSQL简要介绍

NoSQL(NoSQL = Not Only SQL ),意即"不仅仅是SQL"。在现代的计算系统上每天网络上都会产生庞大的数据量。这些数据有很大一部分是由关系数据库管理系统(RDBMS)来处理。 1970年 E.F.Codd's提出的关系模型的论文 "A relational model of data for large shared data banks",这使得数据建模和应用程序编...

2018-09-11 11:37:21 239

原创 ython3中filter函数,map函数和reduce函数

filter函数:filter()为已知的序列的每个元素调用给定的布尔函数,调用中,返回值为非零的元素将被添加至一个列表中map函数:map()将函数调用映射到每个序列的对应元素上并返回一个含有所有返回值的列表reduce函数:在Python 3里,reduce()函数已经被从全局名字空间里移除了,它现在被放置在fucntools模块里 用的话要 先引入:>>> ...

2018-09-07 00:12:13 256

原创 python的学习笔记

最近整理了一下自己以前学习的python入门笔记,给大家发一波。Python的输入和输出:Input(‘你的名字:’)(可以先打印字符串在执行输出的功能)(input函数返回的数据类型为字符串)Print()变量之间用,隔开;可以在函数内部用表达式:100+200,print会自行计算。 Python中的数据类型:整数、浮点数、字符串、布尔值、空值,字典、列表、元组等。Py...

2018-09-06 00:43:35 285

转载 SQL中的CONSTRAINT用法总结

主要就是增加数据约束的。 Oracle中的约束简单介绍约束   Including Constraints    在数据库中使用约束(constraints)是为了在该数据库中实施所谓的"业务规则"其实就是防止非法信息进入数据库,满足管理员和应用开发人员所定义的规则集.    ORACLE使用完整性约束(integrity constraints)防止不合法的数据写入数据库,管...

2018-08-31 15:03:39 1184

原创 银行定期存款产品目标客户的确定——基于逻辑回归

本篇文章将会介绍用Python分析银行定期存款产品目标客户的确定详细建模细节,业务框架分析以及模型的选择与评估分析参见上一篇文章:银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)1.导入各种模块并读取数据:2.数据预处理:维规约:在之前的分析中基于业务知识最终选定了8个协变量,1个目标变量,5072个样本用于分析,分别是:Age:年龄;job:工作类型(行政人员,...

2018-08-15 11:17:53 4153 4

原创 银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)

一、得到数据集:银行定期存款产品营销研究变量:Age:年龄;job:工作类型(行政人员,管理人员,保姆,企业家,学生,蓝领,个体户,技师,退休,服务人员,失业,未知);marital:婚姻状况(已婚,离婚,单身);education:教育水平(初等,中等,高等,未知);default:信用违约(是,否);balance:平均年收支余额;housing:住房贷款(是,否);loan:个人贷款(...

2018-08-14 19:54:53 5649

原创 用matplotlib制作马赛克图

几天没写文章了,一直在转载大佬的文章,我都有点不好意思了......anyway!今天教大家用Python中的matplotlib制作马赛克图。进行数据挖掘,数据分析必不可少的两门语言就是R和Python了,这两门语言并不是二择一的,各有各的优点,虽然说Python现在很火,但是R语言的绘图功能也很强大啊。用于分类变量的列联分析里面有一款图,称为马赛克图,但是Python的matplo...

2018-08-14 16:34:34 1666

转载 数据挖掘建模过程中常见的几类错误

统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)...

2018-08-13 23:28:33 1211

转载 逻辑回归直观解释

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。1 逻辑回归模型    回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因...

2018-08-12 19:18:47 1234

转载 Regression Tree 回归树

1. 引言AI时代,机器学习算法成为了研究、应用的热点。当前,最火的两类算法莫过于神经网络算法(CNN、RNN、LSTM等)与树形算法(随机森林、GBDT、XGBoost等),树形算法的基础就是决策树。决策树因其易理解、易构建、速度快的特性,被广泛应用于统计学、数据挖掘、机器学习领域。因此,对决策树的学习,是机器学习之路必不可少的一步。根据处理数据类型的不同,决策树又分为两类:分类决策树与...

2018-08-11 17:13:16 681

转载 数据预处理_数据清理(缺失值、噪声等详细处理)

1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换...

2018-08-11 10:57:21 58926 1

转载 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

数据挖掘概念与技术定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价第一章、数据挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据; 挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。衡量取样数据质量的标准:资料完整无缺,各类指标项齐全 数据准确无误,反应的都是正...

2018-08-11 10:42:21 8383

转载 如何用增益图和提升图进行模型评估

在评估模型的预测能力上,提升图 (lift chart)和增益图(gain chart)是一种非常有用的图形表达方式。在SPSS中,一个典型的增益图如下所示: 在今天这篇博文中,博主会和大家一起探讨制作增益图的逻辑以及如何解释增益图和提升图。以下博文中,我们会运用一个直邮公司的例子来为大家讲解。假设在以往经验基础上,这家公司知道他们的直邮营销活动的平均响应率是10%。接下来我们继续假设:...

2018-08-10 16:21:01 5112

转载 pandas中DataFrame基本操作

怎样删除list中空字符?最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示: a b cone 4 1 1two 6 2 0three 6 1 6一、查看数据(查看对象的...

2018-08-10 13:47:27 13831

原创 pandas的三种数据结构(dataframe,series,index)

pandas有三种数据结构形式,分别是Series,DataFrame和索引对象。1.SeriesSeries和一维数组很像,只是它的每一个值都有一个索引,输出显示时索引在左,值在右。如果语言无法清晰表达,不妨看段代码,毕竟talk is cheap,show me your code!!!首先导入pandas库:>>from pandas import Serie...

2018-08-10 13:45:56 2707

原创 Access denied for user 'root'@'localhost' (using password:YES) 解决方案

关于昨天下午说的MySQL服务无法启动的问题,解决之后没有进入数据库,就直接关闭了电脑。今早打开电脑,开始-运行 输入“mysql -uroot -pmyadmin”后出现以下错误:“Access denied for user 'root'@'localhost' (using password:YES)”直接输入“mysql” 也回报类似的错误:应该是:“Access deni...

2018-08-09 14:05:09 506

转载 为什么mysql设置了密码之后,本地还可以直接访问,不需要输入密码就可以登录数据库了?

今天开发中在Centos7中安装MySQL5.6版本后,在表中新建了一个weicheng的账户,并且设置了密码,但是在用weicheng账号登陆mysql发现,如果使用“mysql -uweicheng -p”登陆会报错,即使密码正确也不能登录,最后发现,直接用“mysql -uweicheng”不输入密码也可以登陆。后来,查询了资料原因是:应为数据库里面有空用户,通过select * fro...

2018-08-09 13:42:14 1846

转载 mysql 使用order by field() 自定义排序

一、mysql field自定义排序函数的格式 order by field(value,str1,str2,str3,str4,,,,,,strn)其中value后面的参数自定义,不限制参数个数 含义将获取出来的数据根据str1,str2,str3,str4等的顺序排序...

2018-08-08 10:04:44 1653

转载 数据库SQL语句 SELECT LIKE like用法详解

在SQL结构化查询语言中,LIKE语句有着至关重要的作用。LIKE语句的语法格式是:select * from 表名 where 字段名 like 对应值(子串),它主要是针对字符型字段的,它的作用是在一个字符型字段列中检索包含对应子串的。A:% 包含零个或多个字符的任意字符串: 1、LIKE'Mc%' 将搜索以字母 Mc 开头的所有字符串(如 McBadden)。2、LIKE'%ing...

2018-08-06 18:24:17 14349

原创 向MySQL数据库表内导入txt出现错误情况

1.ERROR 1148 (42000): The used command is not allowed with this MySQL version错误语句:mysql> LOAD DATA LOCAL INFILE '/var/lib/mysql/pet.txt' INTO TABLE tbl_pet;出错原因:多了一个LOCAL关键词。当文件在客户机端时要写LOCAL,在服...

2018-08-06 10:34:19 2678

转载 最小二乘法与岭回归的介绍与对比

一 线性回归(最小二乘法)假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。即对应的线性模型写成矩阵的形式即是Y=XA由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量即B=Y-XAY为样本值,XA为模型的计算值,即期望值误差的平方的计算公式Xi为行向量,A为列向量。最小二乘法的目标就是取得最小的e对应的A,...

2018-08-03 16:29:42 676

转载 稀疏表示学习

1.提出问题:什么是稀疏表示 假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻找一个系数矩阵A(K*N)以及一个字典矩阵B(M*K),使得B*A尽可能的还原X,且A尽可能的稀疏。A便是X的稀疏表示。 书上原文为(将一个大矩阵变成两个小矩阵,而达到压缩)“为普通稠密表达的样本找到合适...

2018-08-03 16:28:41 405

转载 详解 Pandas 透视表(pivot_table)

偶然间看到一篇介绍pandas透视表的文章,说的很详细,推荐给大家。 介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为 pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数 pivot_table,并教大家如何使用它来进行数据...

2018-08-01 08:15:22 349

原创 BP算法的基础——方向导数与梯度

1.方向导数讨论函数在一点沿某一方向的变化率问题(即方向导数).定义 设函数在点的某一邻域内有定义.自点引射线.设轴正向到射线的转角为(逆时针方向:0;顺时针方向:0),并设'(+△,+△)为上的另一点且'∈.我们考虑函数的增量(+△,+△)-与、'两点间的距离的比值.当'沿着趋于时,如果这个比的极限存在,则称这极限为函数在点沿方向的方向导数,记作,即                 ...

2018-07-30 15:42:09 1555 1

原创 矩阵的特征值分解、奇异值分解及其在PCA主成分分析中的应用

主成分分析是通过一组变量的线性组合来解释这组变量的协方差矩阵里面的变异性信息的。以此来达到数据的压缩和根据原变量前前系数大小对数据进行解释。在多元统计分析的学习中,我们通常用主成分分析进行自变量多重共线性问题的处理,进行变量的约减后还可利于数据的聚类分析。简要谈谈主成分分析里面会用到的数学知识:首先是特征值以及特征向量的几何意义:1.     矩阵乘法在介绍特征值与特征向量的几...

2018-07-30 13:10:07 2106

转载 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件

接下来的几篇文章会给大家介绍一些线性模型,一元线性回归,多元线性回归,广义线性模型中的逻辑回归,由Fisher判别分析演变而来的线性判别分析,其中的线性判别分析会用到拉格朗日乘子法和矩阵奇异值,矩阵特征值分解的相关知识,网上有很多优秀的文章。在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等...

2018-07-30 08:24:12 3219

转载 凸优化理论学习

在机器学习和深度学习的工作中,最后一步都是对损失函数的极值计算,而这个极值如果我们能够找到全局极值也就是最小值,这是最好的情况;否则我们就必须想办法把原来的问题进行转化或者尝试其他的方法。这其中用到的方法就是凸优化理论。下面我将对我学习的凸优化理论进行一些整理,知识点可能比较杂碎,但句句是关键和我们所必须了解的。衡量一个问题难易的程度不在于其是否线性,而在于是凸问题还是非凸问题。一阶导...

2018-07-30 08:08:40 585

原创 机器学习数据挖掘——模型评估与选择4(模型性能度量)

    我在前几篇文章中提到了错误率和精度的问题(具体不记得是哪一篇了......)。    显然,错误率和精度这种模型泛化能力的评价标准只能针对于二分类学习器,或者是多分类学习器;不同的模型有不同的泛化能力的评价标准,这是毋庸置疑的,比如说监督性学习里面的回归任务通常是需要建立一个线性模型用以预测连续值,这时候我们就需要用到均方误差这种性能度量(统计学中有很多种性能度量,均方误差就是典型的一...

2018-07-27 09:59:26 382

原创 调参与最终模型的补充

    以下内容是参数以及调参过程的一点心得,分享给大家。    在机器学习中,一般有两种参数,一个是算法的参数,一个是模型的参数,在算法和算法的参数选定之后,将这个算法应用在数据集上,就训练出了一个模型,这个模型的参数就已经全部确定而不需要我们去调整,所以在机器学习中,我们可以调整的参数只是学习算法的参数,模型的参数是不需要调整的。    我们得到最终模型的流程是,现将总的数据集D分为训...

2018-07-27 08:49:42 385

转载 机器学习数据挖掘——模型评估与选择(参数与超参数之间的区别)

机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数,这样,很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义,并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。 我们在做研究的时候,会碰到很多术语。有时,在不同的研究领域还会出现同样名称的术语。比...

2018-07-27 08:16:09 1461

原创 机器学习数据挖掘——模型评估与选择2

在上一篇文章我介绍了评估模型的标准——泛化误差最小,以及浅谈了拟合不足与过拟合的问题(也是要结合训练误差和泛化误差来判断的)。这篇文章将要介绍怎么进行分割数据集使得模型的构造能更有代表性也能使泛化误差的估计更准确。在现实的数据挖掘任务中,我们针对不同的目的往往有很多不同的算法可供选择,能构造出不同的模型,甚至同一种算法的不同参数配置也会产生不同的模型,这就产生了很多问题,这些算法和模型可以...

2018-07-26 14:46:19 683

原创 机器学习模型评估与选择1

整理了之前学习的知识,给大家介绍一下怎么进行一个模型的评估与选择。我们根据训练数据是否具有标记信息,将学习任务分为两大类:“supervised learning”(例如分类和回归)和“unsupervised learning”(例如聚类)不管是使用哪种算法,使用多大的数据集进行训练,参数的选择是怎么样的,我们的目的只有一个,就是使学习的模型能更好地适用于新样本(而由于数据的时效性等等原因,...

2018-07-25 00:04:59 153

原创 机器学习和数据挖掘(主流算法介绍)

对机器学习和数据挖掘的科学定义是这样的:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演...

2018-07-24 14:43:04 23908

原创 数据分析学习总结

作为一个应用数学系的学生,两年前的我,对学校实行的大类培养深感不满,计算机原理、大学物理、C语言编程、数据结构...... 你能想象这都是数学系的学生在学的东西吗?看着满满当当的课表和中午来不及赶回寝室的一个小时的休息时间,欲哭无泪啊......为了避免自己学艺不精加之对统计学的兴趣,我趁着寒暑假的时间自修了大量的统计学的课程,随机过程、线性回归分析、多元统计分析、时间序列分析、矩阵分析......

2018-07-24 10:28:13 5692 1

原创 Python绘图和数据可视化

经过几个月的学习,总算是对Python这门语言有了一定的了解。据说Python语言使用流行度排名已经是第一了!Python之所以这么流行得益于它适用于很多不同领域,目前使用最广泛的领域包括有数据分析挖掘,网络爬虫,机器学习与人工智能,Python Wab后端开发,运维开发等等。当然,精通一个方向比了解所有方向要重要得多。初学者第一次接触到的Python可视化package基本上都是matp...

2018-07-23 12:05:48 8330 1

原创 如何利用函数和映射操作数据集,进行数据转换?

在数据分析过程中,我们往往将数据集(Series和DataFrame类型的)的每一列看作是一个特征或变量,然后进行求取一些统计量(例:mean,sum,std(当然这些特殊的统计量在pandas中已经有现成的定义好的函数可以使用,这里只是举个例子)),进行的操作也分为元素级的和数据集的列。pandas中的map,applymap and apply就可以达到这样的目的。1.applymap...

2018-07-22 09:39:27 1008

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除