自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

转载 Python matplotlib画图的中文显示问题

Python matplotlib 默认不支持中文。代码中出现中文的话,图片中会显示乱码。其实这是由于matplotlib默认的字体库中,没有中文的字体库引起的。只要指定机器上的中文字体,即可解决这个问题。 下面是一段示例代码,在Python3.4下运行通过。# -*- coding=utf-8 -*-from matplotlib import fon

2016-06-16 11:46:51 15955

原创 欧几里德算法及python脚本实现

欧几里德算法又称辗转相除法, 用于计算两个整数a, b的最大公约数。其计算原理依赖于下面的定理:定理: gcd(a, b) = gcd(b, a mod b)定理证明:  a可以表示成a = kb + r, 则r = a mod b (1) 先假设d是a, b的一个公约数, 则有  d|a, d|b, 而r = a - kb, 等式两边同时除以d,则r/d=a/d -

2016-05-31 16:42:17 1848

原创 Python入门重点

1.容器类型Python提供多种数据类型来存放数据项集合。用户还可以通过添加模块创建出更多容器类型。Python中常用的容器有:(1)列表List——列表是Python中存放有序对象的容器,可以容纳任何数据类型:数值、布尔型、字符串等等。列表一般用两个中括号来表示,下面的代码演示了如何创建一个名为jj的列表,并在列表内添加一个整数和一个字符串:>>> jj=[]>>> jj.app

2016-05-27 10:34:27 785

原创 数据挖掘含义及过程

现在市面上销售的移动电话和智能手机均带有三轴磁力计,智能手机还有操作系统,可以运行编写的应用软件,十几行代码就可以让手机按照每秒上百次的频率读取磁力计的数据。除此之外,智能手机还封装了很多其他传感器,如偏航率陀螺仪、三轴加速计、温度传感器和GPS接收器,这些传感器都可以用于测量研究,比如地震预测。移动计算和传感器产生的海量数据意味着未来我们将面临着越来越多的数据,如何从海量数据中抽取到有价值的

2016-05-26 10:43:05 1772

原创 Python——可执行的伪代码

Python代码简单优雅、易于上手,科学计算软件包众多,已经成为不少大学和研究机构进行计算机教学和科学计算的语言。

2016-05-26 09:58:47 10611 1

原创 我理解中的机器学习

机器学习是把无序的数据转换成有用的信息。机器学习横跨计算机科学、数学、统计学等多个学科,需要多学科的专业知识。机器学习算法在包含信息检索和数据挖掘在内的多个领域中都有着十分广泛的应用。现代互联网中的搜索引擎、社交网络、推荐引擎、计算广告、电子商务等应用中,都包含大量机器学习算法。大型金融机构,信用建模,判断某人是否会偿还贷款,两种趋势:第一,为了开发出竞争力强的应用,不能仅仅连接数据源

2016-05-26 09:06:09 542

原创 主题模型分析模型——pLSA

基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。pLSA应用与信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。pLSA可以看做概率化的矩阵分解。 D代表文档,Z代表主题(隐含类别),W代表单词;

2016-05-25 23:12:34 1908

原创 项目经验总结(—)

项目一 2015阿里移动推荐算法竞赛一、比赛背景以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。参赛队伍需要通过大数据和算法构建面向建移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。二、第一赛季(1)比赛数据官方提供了两个文本文件,第一个是用户在商品全集上的移动端行为数据 tianc

2016-05-25 15:48:58 1288

原创 MySQL中的事务

当多个用户访问同一份数据,一个用户在更改数据的过程中可能有其他用户同时发起更改请求,为保证数据库记录的更新从一个一致性状态变更为另外一个一致性状态,使用事务处理是非常必要的。事务具有以下4个特性:(1)原子性。事务中所有的操作视为一个原子单元,即对于事务所进行的数据修改等操作只能是完全提交或者完全回滚;(2)一致性。事务在完成时,必须使所有的数据从一种一致性状态变更为另外一种一致性状态

2016-05-25 14:41:23 545

原创 MySQL数据库中的存储过程和函数的操作

在实际操作中,不是单条SQL语句所能实现。因为实现这个完整操作需要编写针对表的多条SQL语句。在执行过程中需要根据前面SQL语句的执行结果有选择的执行后面的SQL语句。因此,需要用到MySQL软件提供的数据库对象存储过程和函数。存储过程和函数可以简单理解为一条或多条SQL语句的集合。存储过程和函数就是事先经过编译并存储在数据库中的一段SQL语句集合。存储过程和函数的执行不是由程序调用,也不

2016-05-25 10:55:00 1858

原创 MySQL数据库中的系统信息函数

NU在MySQL软件中通过系统信息函数可以获取关于数据库和数据库对象的各种信息。1.获取MySQL系统信息经常需要获取的系统信息有MySQL软件版本号,数据库名和连接数据库用户名SELECT      VERSION() 版本号,      DATABASE() 所选择的数据库名,     USER() 用户名; 2.获取AUTO_INCREMENT 约束的最后ID

2016-05-25 10:38:17 1345

原创 MySQL中的常用字符串函数

1.合并字符串函数SELECT CONCAT('My','S','QL') 合并后字符串;SELECT CONCAT('My','S','QL','NULL') 合并后字符串; #当所传入的参数值中有一个为NULL,返回的结果将为NULLSELECT CONCAT(CURDATE(),12.34) 合并后字符串; SELECT CONCAT_WS('-','029',88461

2016-05-25 10:36:56 977

原创 MySQL运算符使用问题

1.使用算术运算符(1)直接操作数值SELECT 6+4 加法操作,          6-4 减法操作,         6*4 乘法操作,         6/2 除法操作,         6%4 求模操作,        6 MOD 4 求模操作;(2)操作表中的字段SELECT ename 雇员, sal 月工资, sal*12 年薪       

2016-05-25 09:32:15 1807

原创 MySQL数据库中的多表数据记录查询

1.关系数据操作(1)并(UNION)“并”就是把具有相同字段数目和字段类型的表合并到一起。(2)笛卡儿积(CARTESIAN PRODUCT)笛卡儿积就是没有连接条件表关系返回的结果。SELECT e.ename employeename, e.job     FROM t_employee e;(3)内连接(INNER JOIN)在表关系的笛卡儿积数据记录中,保

2016-05-24 19:22:13 2432

原创 MySQL单表数据记录查询经典语句

1.避免重复数据查询——DISTINCTSELECT DISTINCT job              FROM t_employee;2.实现数学四则运算数据查询SELECT ename,sal*12           FROM t_employee;SELECT ename,sal*12 AS yearsalary           FROM t_employ

2016-05-24 17:18:56 926

原创 MySQL数据操作的经典语句

1.插入查询结果INSERT INTO table_name(field11,field12,...field1n)    SELECT (field21,field22,...field2n)       FROM table name2              WHERE....举例   INSERT INTO t_dept(dname,loc)           

2016-05-24 17:04:53 744

原创 Mysql数据库中的触发器操作

数据库对象触发器用来实现由一些表事件触发的某个操作,是与数据库对象表关联最紧密的数据库对象之一。在数据库系统中,当执行表事件时,则会激活触发器,从而执行其包含的操作。触发器是MySQL的数据库对象之一,该对象与编程语言中的函数非常类似,都需要声明、执行等。但是触发器的执行不是由程序调用,也不是由手工调动,而是由事件来触发、激活从而实现执行。为什么使用数据库对象触发器?先举一个例子,在学

2016-05-24 15:34:32 2705

原创 MySQL中的视图操作

在具体操作表前,有时候要求只能操作部分字段,而不是全部字段。为了提高复杂SQL语句的复用性和表操作的安全性,MySQL数据库管理系统提供了视图特性。视图本质上是一种虚拟表,其内容和真实的表相似,包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值形式存在。行和列数据来自定义视图的查询所引用基本表,并且在具体引用视图时动态生成。视图使程序员只关心感兴趣的某些特定数据和他们所负责

2016-05-24 14:14:29 3491

原创 MySQL数据库表操作的经典语句

1.表的相关操作SHOW CREATE TABLE table_name;  #查看表结构的详细定义ALTER TABLE t_dept RENAME tab_dept; ALTER TABLE table_name ADD 属性名 属性类型;   #在表的最后一个位置增加字段ALTER TABLE table_name ADD 属性名 属性类型 FIRST;  #在表的第一个位置

2016-05-24 11:34:15 667

原创 MySQL数据库索引问题

数据库对象索引是一种有效组合数据的方式。通过索引对象,可以快速查询到数据库对象表中的特定记录,是一种提高性能的常用方式。一个索引会包含表中按照一定顺序排序的一列或多列字段。数据库对象索引其实与书的目录非常类似,主要是为了提高从表中检索数据的速度。由于数据存储在数据库表中,所以索引是创建在数据库表对象上的,由表中的一个字段或多个字段生成的键组成,这些键存储在数据结构中,通过MySQL可以快速有效

2016-05-24 10:41:15 1279

原创 MySQL中操作表的约束问题

对于创建好的表,虽然字段的数据类型决定了所能存储的数据类型,但是表中所存储的数据是否合法并没有进行检查。在具体使用MySQL软件时,如果想针对表中的数据做一些完整性检查操作,可以通过表的约束来完成。MySQL支持的完整性约束所谓完整性约束是数据的准确性和一致性,而完整性检查就是指检查数据的准确性和一致性。MySQL数据库管理系统提供了一致机制来检查数据库表中的数据是否满足规定的条件,以保证

2016-05-24 09:33:52 1382

原创 MySQL数据库中存储引擎问题

存储引擎是以插件的形式被MySQL数据库软件引入,可以根据实际应用、实际的领域来选择相应的存储引擎。在MySQL数据库软件中,通过存储引擎决定数据库对象表的类型,但是如果想创建表,还需要了解数据类型,因为数据类型决定了表中可以存储数据的类型。存储引擎指定了表的类型,即如何存储和索引数据、是否支持事务等,同时存储引擎决定了表在计算机中的存储方式。SHOW ENGINES \G  #查看存

2016-05-24 08:34:04 725

原创 用SPSS做数据分析时遇到的几个小问题——解决方法!

1.把excel数据导入SPSS中之后总是丢失小数,现在需要保留2位小数通常spss读入xls的数据通常第一行是变量名,数据格式都是默认第一条数据(第二行)格式,把第二行的数据小数点设置好,后面就都默认了。2.在SPSS中做多个因素的方差分析时,为什么确定按钮用不了多变量方差分析,至少添加2个“因变量”才能运算,下面的“固定因子”添加1个就是“多变量单因素方差分析”,添加多个就是“多变

2016-05-23 17:30:06 37089

原创 计算机快捷键及word的几个常用技巧

1.绘制三线表此时,变成二线表选中表格,单击设计,绘制表格,光标变成笔形,然后从左到右绘制2. 在word中,如何使表格、图片在word文档中的位置相对固定选中表格/图片,右击、表格属性/设置对象格式、3一不小心把文件设置成了隐藏属性,该怎么还原?我的电脑——工具——文件夹选项——查看——。。。

2016-05-23 17:28:23 577

原创 Excel使用技巧

1.在Excel中进行斜线表头的制作先在某单元格中输入“科目”,Alt + Enter键强制换行,输入“姓名”2.在Excel中,在数字和文字反复出现的区域,专门复制其中的数字且相对位置不变?3.在Excel中的几种拖动单元格的方式和区别(1)普通拖动:我们先选中B3单元格(源单元格),鼠标悬停在边框上,当鼠标指针正中出现移动的十字的时候就可以拖动了(2)按住C

2016-05-23 17:19:45 501

原创 photoshop图像处理技术(二)

1. PS中的颜色替换工具打开前景色拾色器,设置Photoshop CS6前景色1.“模式”选项可以调整替换颜色与底图的混合模式选择模式:色相,涂抹后效果(色相是调整图像颜色的形式,得到不同颜色图像)选择模式:饱和度,涂抹后效果(饱和度是得到新旧不同的图像;明暗是调整图像中的光线强弱)这样可以免去勾画选区的步骤,节省时间 2.图像的类型,位图式与

2016-05-23 16:36:01 2750

原创 photoshop图像处理技术(一)

喜欢摄影的我,平时少不了要用到photoshop,这是之前自己摸索总结出来的photoshop图像处理技术,今天拿出来和大家分享。1.在PS中,如何调整图像选区中的颜色(1)选中选区、图像、调整(2)或者,吸管工具、调整所需要的前景色(可以用吸管采集图像中的颜色作为前景色)、alt + backspace实现前景色填充(3)选中选区、图层、新填充图层/新调整图层,通过的图层的形式覆

2016-05-23 14:54:09 4037

原创 无监督学习中的常用聚类算法总结

聚类是一个把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似。通常涉及距离度量。数据对象的簇可以看做隐含的类。在这种意义下,聚类有时又称自动分类。聚类可以自动地发现这些分组,这是聚类分析的突出优点。聚类被称做无监督学习,因为没有提供类标号信息。由于这种原因,聚类是通过观察学习,而不是通过示例学习。  (1)K-均值:一种基于形心得技术基于

2016-05-22 14:27:02 18941

原创 数据挖掘中的特征选择问题

特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法:①计算每一个特征与响应变量的相关性:计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MI

2016-05-22 11:09:44 3824

原创 数据挖掘中的预处理——以电信客户流失问题为例

数据预处理Step1:数据采样:由于在建立客户流失模型过程中,流失客户往往占所有客户人群的比例很小,这时,最好的办法是保留真个流失客户人群,而对非流失客户人群进行采样,使得客户流失与非客户流失人群在1:1~1:2Step2:数据探索(缺失值和异常值)Step3:创建缺失变量指示器;对于每一个缺失变量,值缺失时,令值为1,没有缺失时,令其为0,即创建了对应的缺失变量Step4:对样本

2016-05-22 09:06:09 5556

原创 谈互联网思维

用户思维,以用户为中心:得屌丝者得天下;提升用户参与感;用户体验至上   简约思维,产品战略:专注;简约即是美   极致思维,从渠道为王,到产品为王:打造让用户尖叫的产品;服务即营销   迭代思维,从敏捷开发到精益创业:小处着眼,微创新;快是一种力量   流量思维,用户关注度:免费是为了更好的收费;坚持到质变的临界点   社会化思维,社会化商业时代:社会化媒体;社会化网络

2016-05-22 09:03:49 473

原创 购物篮分析分类算法——频繁模式挖掘(聚类算法)

频繁模式是频繁地出现在数据集中的模式,包括频繁项集(如牛奶和面包)、频繁子序列(首先购买PC,然后是数码相机,再后是内存卡)或频繁子结构(涉及不同的结构形式,如子图、子树或子格,它可能与项集或子序列结合在一起)。从大量的商务事物记录中发现有趣相关联系,可为分类设计、交叉销售和购物购买习惯分析等许多商务决策过程提供帮助。频繁项集挖掘,如购物篮分析等,这些模式可用关联规则的形式表示。

2016-05-21 19:04:30 13267

原创 数据库中常用的sql语句

SQL是目前使用最为广泛的数据库语言之一。这里,我总结了在数据库上,用SQL语言对数据排序、过滤和分组,以及表、视图、联结、子查询、游标、存储过程和触发器等内容。1.检索数据SELECT prod_nameFROM Products; #检索单列 SELECT prod_id, prod_name, prod_priceFROMProducts; #检索多列

2016-05-21 18:53:29 10701

原创 k-近临算法及代码实现

K-最近邻分类(惰性学习法),即KNN。惰性学习法在提供训练元组时只做少量工作,而在进行分类或数值预测时做更多的工作。惰性学习法不提供多少解释或对数据结构的洞察。但是,惰性学习法天生地支持增量学习。惰性学习法的计算开销可能相当大。“近邻性”用距离度量,如欧式距离。在算式之前,需要把每个属性的值规范化,这有助于防止具有较大初始值域的属性(如收入)比具有较小初始值域的属性(

2016-05-21 17:56:33 975

原创 基于统计学的商务与经济数据分析知识

以下基于统计学视角,对商务与经济的数据分析知识进行总结:(1)数据元素(数据来源的原有实物(体))、变量和观测值度量尺度定性和定量数据截面数据和时间序列数据 (2)描述性统计①表格法和图形法汇总定性数据(柱状图和饼状图)汇总定量数据(点位图(横轴表示观测值得取值范围,每一个观测值由位于横轴上的点表示)、直方图、累积分布、累积曲线)探索性数据分析(茎叶图)

2016-05-21 17:31:49 2065

原创 线性回归算法总结

利用样本(已知数据),产生拟合方程,从而对(未知数据)进行预测。用途:预测、判别合理性。困难:①选定变量(多元);②避免多重共线性;③观察拟合方程,避免过度拟合;④检验模型的合理性。因变量与自变量的关系:①相关关系(非确定性关系,比如物理与化学成绩相关性),使用相关系数衡量线性相关性的强弱;②函数关系(确定性关系)相关系数求解:Pearson样本积矩相关系数注意

2016-05-21 16:12:34 10186

原创 新版mysql5.7.12在win7系统下成功安装小结

第一大步:下载。a.这里用的是 ZIP Archive 版的,win7 64位的机器支持这个。因为这个简单,而且还干净。dev.mysql.com/downloads/mysql拉倒最下面,看清楚64bit ZIP Archive ,这里,我选择的是mysql-5.7.12-winx64 ZIP Archive,点击Download。另外,MySQL 是开源

2016-05-21 01:46:03 1597

原创 k-means与EM算法小结

EM算法像是k-means的应用场景,比如双峰分布的数据,k-means方法,将其看成2-means聚类的方法处理场景。        k-means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。       假定输入样本为,则算法步骤为:        (1)选择初始的k个簇中心u1,u2,...,uk        (2)将样本xi标记

2016-05-20 13:37:39 5305

转载 轻轻松松搞定Python基本知识小结

Python是一门具有强类型(即变量类型是强制要求的)、动态性、隐式类型(不需要做变量声明)、大小写敏感(var和VAR代表了不同的变量)以及面向对象(一切皆为对象)等特点的编程语言。python语言简洁,易学。语法Python中没有强制的语句终止字符,且代码块是通过缩进来指示的。缩进表示一个代码块的开始,逆缩进则表示一个代码块的结束。声明以冒号(:)字符结束,

2016-05-19 15:40:56 2687

转载 如何在命令行模式下查看Python帮助文档---dir、help、__doc__

1、dir函数式可以查看对象的属性,使用方法很简单,举str类型为例,在Python命令窗口输入 dir(str) 即可查看str的属性,如下图所示:2、如何查看对象某个属性的帮助文档 ?如要查看str的split属性,可以用__doc__, 使用方法为print(str.split.__doc__),如下图所示:3、查看对象的某个属性还可以

2016-05-19 09:52:00 1311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除