自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

原创 时间序列(五)股票分析

首先导入相关模块import pandas as pdimport pandas_datareaderimport datetimeimport matplotlib.pylab as pltimport seaborn as snsfrom matplotlib.pylab import stylefrom statsmodels.tsa.arima_model import ARIM

2017-12-11 21:23:44 12491 5

原创 时间序列(四)ARIMA模型与差分

ARIMA模型平稳性: 平稳性就是要求经由样本时间序列所得到的拟合曲线 在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳: 严平稳:严平稳表示的分布不随时间的改变而改变。 弱平稳:期望与相关系数(依赖性)不变 未来某时刻的t的值Xt就要依赖于它过去的信息,所以需要依赖性import pandas as pdimport nump

2017-12-11 20:41:07 36290 5

原创 时间序列(三)滑动窗口

滑动窗口就是能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。import matplotlib.pylabimport numpy as npimport pandas as pd指定六百个数据的序列df = pd.Series(np.random.randn(600), index = pd.date_

2017-12-11 15:46:41 38141 1

原创 时间序列(二)数据重采样

数据重采样 时间数据由一个频率转换到另一个频率 降采样 升采样生成一条带随机值的时间序列rng = pd.date_range('1/1/2011', periods=90, freq='D')ts = pd.Series(np.random.randn(len(rng)), index=rng)print(ts.head())2011-01-01 -1.025562 2011-01

2017-12-11 15:35:43 3051

原创 时间序列(一)时间序列的生成

时间序列 时间戳(timestamp) 固定周期(period) 时间间隔(interval)date_range¶ 可以指定开始时间与周期 H:小时 D:天 M:月产生时间序列# TIMES #2016 Jul 1 7/1/2016 1/7/2016 2016-07-01 2016/07/01rng = pd.date_range('2016-07-01', periods = 1

2017-12-11 15:29:29 10838 2

转载 搭建 Hadoop 伪分布式环境

软硬件环境 CentOS 7.2 64 位 OpenJDK- 1.8 Hadoop- 2.7关于本教程的说明 云实验室云主机自动使用 root 账户登录系统,因此本教程中所有的操作都是以 root 用户来执行的。若要在自己的云主机上进行本教程的实验,为了系统安全,建议新建一个账户登录后再进行后续操作。安装SSH 安装SSH:sudo yum install openssh-clients

2017-11-23 16:37:36 636

原创 Linux (CentOS)安装VNC+XFCE可视化桌面环境 附安装FireFox浏览器

一、检测系统XFCE版本yum grouplist二、安装XFCEyum groupinstall Xfce在安装过程中会出现”Is this ok [y/n]”我们只需要输入y且回车就可以。 比较漫长三、安装VNC桌面系统yum -y install tigervnc-server 四、配置VNC系统及分辨率vi /etc/sysconfig/vncservers然后在内容中添加VNCSERVE

2017-11-23 14:00:36 5768 1

转载 机器学习算法python实现

github:https://github.com/lawlite19/MachineLearning_Python#

2017-11-21 16:12:06 307

原创 常见排序算法

冒泡排序冒泡排序是最简单的排序之一了,其大体思想就是通过与相邻元素的比较和交换来把小的数交换到最前面。这个过程类似于水泡向上升一样,因此而得名。举个栗子,对5,3,8,6,4这个无序序列进行冒泡排序。首先从后向前冒泡,4和6比较,把4交换到前面,序列变成5,3,8,4,6。同理4和8交换,变成5,3,4,8,6,3和4无需交换。5和3交换,变成3,5,4,8,6,3.这样一次冒泡就完了,把最小的数3

2017-11-07 17:45:30 294

原创 Python常用函数与技巧总结(三)

主方法:if__name__='__main__':构造方法:def __init__(self): self.xxx=yyy区分公有和私有 公有的正常写 name=’jack’ 私有的前面加两个下划线 __age=12方法: 对象方法具有self参数 def method(self): 类方法使用修饰器@classmethod,具有cls参数 def

2017-11-05 22:18:03 278

原创 Python常用函数与技巧总结(二)

列表生成式 a=[i for i in range(0,5)] print(a)[0,1,2,3,4]filter(function,iterable) 过滤器list(filter(lambda x:x%2,range(10)))维度shape shape[0] 横向几行 shape[1] 纵向几列 [[5 10 15] [20 25 30]]a=np.array([5,

2017-11-05 20:24:50 246

原创 Python常用函数与技巧总结(一)

一、map(function,iterable,…..)作用:将iterable中的每一个元素应用function方法处理,将结果作为list返回 如: def add100(x): return x+100 hh=[11,22,33] a=map(add100,hh) print(list(a))如:def abc(a,b,c): return a*10000+b*10

2017-11-04 09:02:50 855

转载 Matlab基础语法

MATLAB环境的行为就像一个超级复杂的计算器。可以在>>命令提示符下输入命令。 MATLAB是一个解释性的环境。换句话说,用户只要给出一个命令,MATLAB马上执行它。在实践练习之前,首先打开 MATLAB R2017 ,如下图所示 -在命令行窗口中输入有效的表达式,例如 -5 + 5然后按回车,MATLAB立即执行,返回结果如下 - 让我们再来看几个例子 -计算次幂Trial>> 3 ^ 2

2017-10-30 23:32:36 1140

原创 自然语言处理-Word2Vec

拼音检查,关键词检索 文本挖掘(产品价格、日期、时间、地点、人名、公司名) 文本分类 机器翻译 客服系统 复杂对话系统A BC D EF N-Gram模型 指定N等于几就是跟前面几个词相关神经网络模型 输入层,投影层 Hierarchical Softmax

2017-09-28 10:03:57 7512

原创 分类算法-支持向量机(SVM)

支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。在机器学习中,支持向量机(S

2017-09-16 15:49:10 4114

原创 贝叶斯算法详解

在很多应用中,属性集和类变量之间的关系是不确定的。换句话说,尽管测试记录的属性集和某些训练样例相同,但是也不能正确地预测它的类标号。这种情况产生的原因可能是噪声,或者出现了某些影响分类的因素却没有包含在分析中。例如考虑根据一个人的饮食和锻炼的频率来预测他是否有患心脏病的危险。尽管大多数饮食健康、经常锻炼身体的人患心脏病的几率较小,是否充分也是需要论证的课题,这反过来也会给学习问题带来不确定性。贝叶斯

2017-09-15 12:24:55 902

原创 集成算法-Xgboost

Xgboost其实是将弱分类器组合起来的一种算法 核心在于加入新分类器后提升预测能力 惩罚项:欧米伽ft 其中γ是惩罚力度,T是树的个数,w是权重 Xgboost Python实例: 数据集展示: import xgboost# First XGBoost model for Pima Indians datasetfrom numpy import loadtxtfrom xgb

2017-09-12 21:53:05 682

原创 决策树算法详解(3)

from sklearn.tree import DecisionTreeClassifier# 1.criterion gini or entropy# 2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)# 3.max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所

2017-09-12 20:22:17 461

转载 决策树算法详解(2)

Python决策树原生版参考#encoding:utf-8import mathdef createDataSet(): #训练数据集 dataSet=[['young','myope','no','reduced','no lenses'], ['young','myope','no','normal','soft'],

2017-09-12 20:18:25 409

原创 决策树算法详解(1)

使用决策树解决分类问题,例如年龄在30为分界点第一次选择,第二个决策点是长相,第三个决策点是收入,在收入中等的时候还考虑是否是公务员,这就是一颗决策树引入熵和基尼系数两个概念熵其实就是混乱度,混乱度越小越好,越清晰,所以每次划分都要让熵尽可能最小,让信息增益最大。 比如我们有如下的十四条数据,我们利用这些数据来构造决策树共有4个特征和1个主类别,构造决策树到底要用哪个特征当做根节点呢? 第一步要

2017-09-12 20:14:16 2436

原创 梯度下降原理

梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。顾名思义,梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。 其迭代公式为 ,其中 代表梯度

2017-09-12 16:57:31 821

原创 回归模型-逻辑回归

逻辑回归算法 逻辑回归 sigmod函数逻辑回归其实是分类算法,而且是典型的二分类问题 逻辑回归可以把数值都映射成0和1中 theate乘x 带入到sigmod函数中便能映射在01范围内 与线性回归差不多也要求导梯度下降原理 梯度求导反方向就是下降的方向逻辑回归python:import pandas as pdimport matplotlib.pyplot as pltadmiss

2017-09-11 19:46:12 362

原创 回归模型-线性回归算法

线性回归算法问题分为有监督问题和无监督问题两类 当用到标签来划分的时候就是有监督问题,当没有用标签值的时候就是无监督问题。线性回归求解的结果是值 比如: 根据工资和年龄来预测出一个具体的值,根据工资和年龄预测出贷款额度 回归和分类是两个问题,分类的话可能得到的结论是是否银行会借钱给你。可以把两个特征分别用x1和x2来表示,每个特征的影响程度是不一样的 预测值与真实值之间存在误差ξ 通常我

2017-09-11 17:48:37 997 1

原创 Python决策树可视化Graphviz下载地址

下载地址:http://www.graphviz.org/pub/graphviz/stable/windows/

2017-09-05 12:16:20 710

原创 python插件下载地址

http://www.lfd.uci.edu/~gohlke/pythonlibs/

2017-08-28 14:46:39 1194

转载 [转载]Python爬取豆瓣影评并生成词云图代码

# -*- coding:utf-8 -*-'''抓取豆瓣电影某部电影的评论这里以《我不是潘金莲为例》网址链接:https://movie.douban.com/subject/26630781/comments为了抓取全部评论需要先进行登录'''from selenium import webdriverimport timeimport codecsimport jieba

2017-08-24 23:08:33 5354

原创 Sublime搭建Python环境

使用sublime text配置Python开发环境 安装Package Control: Preferences->install Package Control 快捷键ctrl+shift+p 输入install手动:https://packagecontrol.io/installation#st3 先安装 sidebarEnhancements 侧边栏安装下列插件: S

2017-08-24 22:07:08 445

原创 常用浏览器内核驱动下载地址

Firefox: (geckodriver.exe) https://github.com/mozilla/geckodriver/releasesIE: (IEDriverServer) http://selenium-release.storage.googleapis.com/index.html 下载版本需要与selenium版本一致 conda list即可看到Chrom: ht

2017-08-24 19:43:03 1026

原创 Python词云图

新模块介绍:Pickle 如果希望透明地存储 Python 对象,而不丢失其身份和类型等信息,则需要某种形式的对象序列化:它是一个将任意复杂的对象转成对象的文本或二进制表示的过程。同样,必须能够将对象经过序列化后的形式恢复到原有的对象。在 Python 中,这种序列化过程称为 pickle,可以将对象 pickle 成字符串、磁盘上的文件或者任何类似于文件的对象,也可以将这些字符串、文件或任何类似

2017-08-24 15:19:24 2287

转载 最常用的SQL语句

(1)数据记录筛选: sql=”select*from数据表where字段名=字段值orderby字段名[desc]” sql=”select*from数据表where字段名like’%字段值%’orderby字段名[desc]” sql=”selecttop10*from数据表where字段名orderby字段名[desc]” sql=”select*from数据表where字段名

2017-08-18 17:14:40 369

原创 交换友链的几个技巧!

这段时间都没什么时间来优化网站了,但是网站在站长工具查询的权重还是达到1了。 交换友链的几个技巧! 好文分享 第1张 看到这个还挺开心的,虽然百度官方否认权重这一说法,但是毕竟还是挺有效的,权重1以后我就准备开始交换友链了,现在为大家奉献一点交换技巧。 一,查找相关友链交换QQ群并加入群 首先,第一个方法登录自己的QQ并查找和自己网站相关类友链交换群。这个方法我认为是最合适站长们的了,而

2017-08-16 22:53:46 1407

原创 Python-Matplotlib(5) 可视化图表细节

#Colorimport pandas as pdimport matplotlib.pyplot as pltwomen_degrees = pd.read_csv('percent-bachelors-degrees-women-usa.csv')major_cats = ['Biology', 'Computer Science', 'Engineering', 'Math and St

2017-08-13 11:26:17 538

原创 Python-Matplotlib(4) 基于真实数据集的可视化分析

import pandas as pdimport matplotlib.pyplot as pltwomen_degrees = pd.read_csv('percent-bachelors-degrees-women-usa.csv')plt.plot(women_degrees['Year'], women_degrees['Biology'])plt.show()#100-women_

2017-08-13 11:22:00 1967

原创 Python-Matplotlib(4) 直方图与四分图

import pandas as pdimport matplotlib.pyplot as pltreviews = pd.read_csv('fandango_scores.csv')cols = ['FILM', 'RT_user_norm', 'Metacritic_user_nom', 'IMDB_norm', 'Fandango_Ratingvalue']norm_reviews

2017-08-13 11:16:46 5137

原创 Python-Matplotlib(3) 条形图实战

import pandas as pdreviews = pd.read_csv('fandango_scores.csv')cols = ['FILM', 'RT_user_norm', 'Metacritic_user_nom', 'IMDB_norm', 'Fandango_Ratingvalue', 'Fandango_Stars']norm_reviews = reviews[col

2017-08-13 11:11:57 2436

原创 Python-Matplotlib(2)打造一个完整的折线图

import pandas as pdimport matplotlib.pyplot as pltunrate = pd.read_csv('unrate.csv')unrate['DATE'] = pd.to_datetime(unrate['DATE'])first_twelve = unrate[0:12]plt.plot(first_twelve['DATE'], first_tw

2017-08-13 11:07:46 4587

原创 Python-Matplotlib(1)画折线图

import pandas as pdunrate = pd.read_csv('unrate.csv')unrate['DATE'] = pd.to_datetime(unrate['DATE'])print(unrate.head(12))import matplotlib.pyplot as plt#%matplotlib inline#Using the different pyp

2017-08-13 11:01:36 1024

原创 Python-Pandas(6)数据索引变换

import pandas as pd#will return a new DataFrame that is indexed by the values in the specified column #and will drop that column from the DataFrame#without the FILM column dropped fandango = pd.read

2017-08-13 10:07:25 540

原创 Python-Pandas(5)核心数据结构Series详解

#Series (collection of values)#DataFrame (collection of Series objects)#Panel (collection of DataFrame objects)#A Series object can hold many data types, including#float - for representing float val

2017-08-13 09:55:18 331

原创 Python-Pandas(4)自定义函数方法

#specifying axis=1 or axis='columns' will drop any columns that have null valuesdrop_na_columns = titanic_survival.dropna(axis=1)new_titanic_survival = titanic_survival.dropna(axis=0,subset=["Age", "

2017-08-13 09:39:17 2409

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除