自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 资源 (2)
  • 收藏
  • 关注

翻译 Spark配置

配置spark系统有如下3中方法:①spark属性:控制大多数应用程序参数,为每个应用程序设置不同的参数,通过使用SparkConf对象或者java系统属性②环境变量:通过设置每个节点的conf/spark-env.sh文件满足每台机器的不同设置。③日志:配置log4j.properties例子:通过sparkconf设置应用程序的名称和线程数方法一:在程序代码中写死sparkConf属性val ...

2018-05-21 23:29:30 1131

原创 spark读取HDFS文件java.net.ConnectException: Connection refused异常解决方法

问题:java.net.ConnectException: Call From Master/xxx.xxx.x.xxx to user:8020 failed on connection exception: java.net.ConnectException: Connection refusedscala> disfile.collect().foreach(println)java...

2018-05-19 15:13:47 10568

原创 找回path变量值

在安装RGGobi时,把整个path变量覆盖成:%GTK_BASEPATH%\bin;F:\WorkSpace\Software\R\R-3.4.1\library\ggobi;F:\WorkSpace\Software\R\R-3.4.1\library\ggobi导致

2017-08-27 15:46:27 3837

原创 R连接oracle数据库Error in odbcFetchRows negative length vectors are not allowed解决方法

问题:解决方法:配置ODBC连接时,对于oracle和Sybase驱动需要设置参数believeNRows=FALSE参数believeNRows说明:logical. Is the number of rows returned by the ODBC connection believable? Not true for some Oracle and Sybase d

2017-08-21 23:24:17 1965

翻译 hive内置UDTF函数

explode函数:hive内置的表生成函数,主要用于将一行输入拆分成多行输出。官网解释:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expressi

2017-08-20 12:09:02 7838

原创 pandas中行列转换

①列转行方法stack函数:pandas.DataFrame.stack(self, level=-1, dropna=True)通过?pandas.DataFrame.stack命令查看帮助文档Signature: pandas.DataFrame.stack(self, level=-1, dropna=True)Docstring:Pivot a level of t

2017-08-13 16:23:12 76546 3

原创 pandas中shift和diff函数关系

通过?pandas.DataFrame.shift命令查看帮助文档Signature: pandas.DataFrame.shift(self, periods=1, freq=None, axis=0)Docstring:Shift index by desired number of periods with an optional time freq该函数主要的功能就是使数据框中的

2017-08-13 10:24:17 24332

原创 pandas中时间序列——date_range函数

通过?pandas.date_range命令查看date_range函数帮助文档语法:pandas.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, name=None, closed=None, **kwargs)该函数主要用于生成一个固定频率的时间索引,在调用构造方法时,

2017-08-12 23:09:24 91443 4

原创 python中append和extend函数区别

append和extend都是python内置函数,都有扩展列表的元素功能,但两者的扩展方式是不同的。通过使用?list.append命令查看append函数帮助文档?list.appendDocstring: L.append(object) -> None -- append object to endType: method_descriptor通过?list.exte

2017-08-12 22:15:34 9324

翻译 HIVE入门二之表DDL(一)

HIVE中的表分为:内部表(也称管理表)、外部表、临时表,其中内部表和外部表最根本的区别是:hive的元数据是否由hive进程管理。create table methods1、直接创建表结构CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_

2017-08-12 18:24:14 1242

原创 HIVE入门一之数据库DDL语句

1、针对数据库Create|Drop|Alter|Use|Desccreate database 语法:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_na

2017-08-10 22:25:19 793

原创 利用Sqoop从oracle同步数据到HDFS出现The Network Adapter could not establish the connection的解决方法

问题:Data Connector for Oracle and Hadoop is disabled,Error executing statement: java.sql.SQLException: Io exception: The Network Adapter could not establish the connection解决方法:①将Oracle TNS配置文件中HO

2017-08-06 16:56:43 5378 1

翻译 scipy.spatial.distance.cdist

语法:scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None),该函数用于计算两个输入集合的距离,通过metric参数指定计算距离的不同方式得到不同的距离度量值metric的取值如下: braycurtis canberra chebyshev city

2017-07-21 23:45:19 40195 4

原创 zip函数用法

语法:zip(iter1 [,iter2 [...]]) --> zip object 解析:zip函数接受一序列可迭代对象作为参数,将迭代对象中的元素组合成一个个元组,最后返回一个由元组组成的zip对象,若传入的迭代对象的长度不同,则最终返回的zip对象的长度以传入对象中最短的长度相同。In [1]: a = [1,2,3,4] ...: b = [3,1,4,5] ...:

2017-07-20 23:33:36 4151 1

原创 pipeline应用例子

管道命令不经常使用,但是很有用,可以把多个步骤组合成一个对象执行。这样可以更方便灵活地调节和控制整个模型的配置,而不是一个一个步骤调节。下面通过pipeline把多个数据处理步骤组合成一个对象,先将缺失数据填充,然后数据集标准化构造缺失数据集:In [3]: from sklearn import datasets ...: import numpy as np ...:

2017-07-15 10:18:04 2534

翻译 sklearn.preprocessing.MultiLabelBinarizer

多标签二值化:sklearn.preprocessing.MultiLabelBinarizer(classes=None, sparse_output=False)classes_属性:若设置classes参数时,其值等于classes参数值,否则从训练集统计标签值①classes默认值,classes_属性值从训练集中统计标签值In [1]: from sklearn.prepro

2017-07-13 22:59:48 12046

翻译 sklearn.preprocessing.LabelBinarizer

标签二值化:sklearn.preprocessing.LabelBinarizer(neg_label=0, pos_label=1,sparse_output=False)主要是将多类标签转化为二值标签,最终返回的是一个二值数组或稀疏矩阵参数说明:neg_label:输出消极标签值pos_label:输出积极标签值sparse_output:设置True时,以行压缩格式

2017-07-13 16:17:48 5474

翻译 sklearn.preprocessing.Normalizer

①sklearn.preprocessing.Normalizer(norm=’l2’, copy=True)norm:可以为l1、l2或max,默认为l2若为l1时,样本各个特征值除以各个特征值的绝对值之和若为l2时,样本各个特征值除以各个特征值的平方之和若为max时,样本各个特征值除以样本中特征值最大的值In [7]: from sklearn import prepr

2017-07-13 12:20:04 14022 5

翻译 sklearn.preprocessing.LabelEncoder

sklearn.preprocessing.LabelEncoder():标准化标签,将标签值统计转换成range(标签值个数-1)以数字标签为例:In [1]: from sklearn import preprocessing ...: le = preprocessing.LabelEncoder() ...: le.fit([1,2,2,6,3]) ...:Ou

2017-07-13 09:03:17 41678 4

翻译 sklearn.preprocessing.Imputer

填补缺失值:sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)主要参数说明:missing_values:缺失值,可以为整数或NaN(缺失值numpy.nan用字符串‘NaN’表示),默认为NaNstrategy:替换策略,字符串,默认用

2017-07-12 22:33:03 27691 3

翻译 sklearn.preprocessing.OneHotEncoder

sklearn.preprocessing.OneHotEncoder(n_values=’auto’, categorical_features=’all’,dtype=, sparse=True,handle_unknown=’error’)用于处理分类变量,将变量的特征值转换为稀疏矩阵主要参数说明:n_values:每个特征的取值个数,可以为auto、整数或整数数组①若为au

2017-07-12 08:52:42 6413

翻译 sklearn.preprocessing.Binarizer

Binarizer类和binarize方法根据指定的阈值将特征二值化,小于等于阈值的,将特征值赋予0,大于特征值的赋予1,其阈值threshold默认都为0①binarize方法:sklearn.preprocessing.binarize(X, threshold=0.0, copy=True)a、对于非稀疏矩阵而言,阈值threshold可以设置任何浮点数In [1]: from

2017-07-11 16:12:59 3176

翻译 sklearn.metrics.classification_report

分类报告:sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None,sample_weight=None, digits=2),显示主要的分类指标,返回每个类标签的精确、召回率及F1值主要参数说明:labels:分类报告中显示的类标签的索引列表target_names:显

2017-07-10 22:35:58 26928 1

翻译 sklearn.model_selection.GroupKFold

分组K折交叉验证:sklearn.model_selection.GroupKFold(n_splits=3)参数说明:n_splits:折数,默认为3,至少为2注意点:同一组的样本不可能出现同时出现在同一折的测试集和训练集中。①数据集均等份,且每组中的样本也是均等In [11]: from sklearn.model_selection import GroupKFold

2017-07-10 15:36:05 9945 2

翻译 sklearn.model_selection.KFold

K折交叉验证:sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)思路:将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits训练和测试,得到n_splits个结果注意点:对于不能均等份的数据集,其前n_sa

2017-07-10 10:57:47 75564 16

翻译 sklearn.model_selection.train_test_split

数据集划分:sklearn.model_selection.train_test_split(*arrays, **options)主要参数说明:*arrays:可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框test_size:可以为浮点、整数或None,默认为None①若为浮点时,表示测试集占总样本的百分比②若为整数时,表示测试样本样本数③若

2017-07-08 16:32:47 27711 2

翻译 sklearn.linear_model.LinearRegression

最小二乘法线性回归:sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)主要参数说明:fit_intercept:布尔型,默认为True,若参数值为True时,代表训练模型需要加一个截距项;若参数为False时,代表模型无需加截距项。norma

2017-07-07 22:19:49 30156 2

原创 oracle listagg和wm_concat函数

对于将一列多值合并成一行问题,oracle提供了wmsys.wm_concat和listagg函数处理此问题,下面我们以emp表中数据为例,看看两函数的使用方法假设我们需要统计每种job下面有哪些员工,要求在一行显示员工姓名,首先看看emp表中的数据:①利用listagg函数处理②利用wm_concat函数处理wm_concat函数作用:除了处理多行合并问题

2017-07-06 23:12:22 19443 2

翻译 sklearn集成方法之一随机森林

随机森林是有一系列决策树组成的元估计器,其中每个决策树训练的样本数相同,其样本数都等于原始输入的样本数,只是取样时随机的①sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1,

2017-07-06 16:40:10 2731

原创 pprint和print区别

pprint函数时pprint模块下方法,是一种标准、格式化输出方式。pprint(object, stream=None, indent=1, width=80, depth=None, *, compact=False)In [1]: from sklearn.datasets import fetch_20newsgroups ...: from pprint impo

2017-07-06 10:08:43 18780

翻译 sklearn.metrics.confusion_matrix

①混淆矩阵:sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)参数说明:y_true:真实因变量y_pred:预测因变量labels:指定矩阵索引顺序sample_weight:样本权重from sklearn.metrics import

2017-07-03 23:21:44 16552 1

原创 sklearn.preprocessing.PolynomialFeatures

多项式生成函数:sklearn.preprocessing.PolynomialFeatures(degree=2, interaction_only=False, include_bias=True)参数说明:degree:多项式次数(就同几元几次方程中的次数一样)interaction_only:是否包含单个自变量**n(n>1)特征数据标识include_bias:是否包

2017-07-02 16:28:28 1729

原创 numpy数组合并

沿着新轴上合并:stack(arrays, axis=0)沿着轴0合并In [3]: import numpy as np ...: a = np.array([[1,2,3],[4,5,6]]) ...: b = np.array([[6,5,6],[7,8,9]]) ...: np.stack((a,b),axis=0) ...:Out[3]:array([

2017-07-02 13:50:52 2238

原创 scipy.sparse学习

①行压缩矩阵:scipy.sparse.csr_matrix(arg1, shape=None, dtype=None, copy=False)构造方法:①通过csc_matrix(D)形式构造,其中D的维度必须小于等于2

2017-06-30 08:39:22 10423

原创 numpy.linalg学习

①矩阵和向量积两个数组点积:numpy.dot(a, b, out=None)①a、b都是常量或一维数组,则返回标量In [1]: import numpy as npIn [2]: np.dot(3,4)Out[2]: 12In [3]: np.dot([1,2,3],[4,5,6])Out[3]: 32知识点:对于一维数组,其结果等于两向量的内积:设向量 a=(

2017-06-28 22:42:28 15666 1

原创 Oracle批量更新

①导出批量更新SQLselect CONCAT(CONCAT(CONCAT(CONCAT('update test_a set a_date=', b_date), 'where a_id='), b_id), ' and a_flag=1;') from test

2017-06-28 16:36:13 2185

原创 [ML with Sklearn]特征提取与处理

①分类变量特征提取分类变量通常用独热编码(One-of-K or One-Hot Encoding),通过二进制来表示每个自变量特征。例如,假设city变量有三个值:New York, San Francisco, Chapel Hill。独热编码方式就是用三位二进制数表示city特征,其中每一位代表一个城市。利用sklearn.feature_extraction.DictVec

2017-06-28 08:50:55 1108

原创 sklearn dataset模块学习

sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法,可以通过dir或help命令查看,我们会发现主要有三种形式:load_*、fetch_*及make_*方法① datasets.load_:sklearn包自带的小数据集In [2]: datasets.load_*?datasets.load_boston#波士顿房价数据集datasets.l

2017-06-25 14:05:51 15466

原创 sklearn.datasets.base中Bunch类

Bunch和字典结构类似,也是又键值对组成,和字典区别:其键值可以被实例对象当作属性使用。In [1]: from sklearn.datasets import base ...: buch = base.Bunch(A=1,B=2,c=3) ...:In [2]: type(buch)Out[2]: sklearn.datasets.base.BunchIn [3]:

2017-06-25 12:53:19 9475 6

翻译 sklearn矩阵分解类库学习

sklearn.decomposition模块提供矩阵分解算法,主要是降维技术,如PCA、NMF 或ICA

2017-06-15 22:13:44 2851

Python数据分析与挖掘实战

10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线,深入浅出介绍Python数据挖掘建模过程,实践性极强。, 本书共15章,分两个部分:基础篇、实战篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过上机实验,以快速理解相关知识与理论。, 基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对本书所用到的数据挖掘建模工具Python语言进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。, 实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程的关键环节,穿插程序实现代码。最后通过上机实践,加深读者对数据挖掘技术在案例应用中的理解。

2016-12-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除