每天进步一点点2017-CSDN博客

翻译 Spark配置

配置spark系统有如下3中方法：①spark属性：控制大多数应用程序参数，为每个应用程序设置不同的参数，通过使用SparkConf对象或者java系统属性②环境变量：通过设置每个节点的conf/spark-env.sh文件满足每台机器的不同设置。③日志：配置log4j.properties例子：通过sparkconf设置应用程序的名称和线程数方法一：在程序代码中写死sparkConf属性val ...

2018-05-21 23:29:30 1131

原创 spark读取HDFS文件java.net.ConnectException: Connection refused异常解决方法

问题：java.net.ConnectException: Call From Master/xxx.xxx.x.xxx to user:8020 failed on connection exception: java.net.ConnectException: Connection refusedscala> disfile.collect().foreach(println)java...

2018-05-19 15:13:47 10568

原创找回path变量值

在安装RGGobi时，把整个path变量覆盖成：%GTK_BASEPATH%\bin;F:\WorkSpace\Software\R\R-3.4.1\library\ggobi;F:\WorkSpace\Software\R\R-3.4.1\library\ggobi导致

2017-08-27 15:46:27 3837

原创 R连接oracle数据库Error in odbcFetchRows negative length vectors are not allowed解决方法

问题：解决方法：配置ODBC连接时，对于oracle和Sybase驱动需要设置参数believeNRows=FALSE参数believeNRows说明：logical. Is the number of rows returned by the ODBC connection believable? Not true for some Oracle and Sybase d

2017-08-21 23:24:17 1965

翻译 hive内置UDTF函数

explode函数：hive内置的表生成函数，主要用于将一行输入拆分成多行输出。官网解释：explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expressi

2017-08-20 12:09:02 7838

原创 pandas中行列转换

①列转行方法stack函数：pandas.DataFrame.stack(self, level=-1, dropna=True)通过?pandas.DataFrame.stack命令查看帮助文档Signature: pandas.DataFrame.stack(self, level=-1, dropna=True)Docstring:Pivot a level of t

2017-08-13 16:23:12 76546 3

原创 pandas中shift和diff函数关系

通过?pandas.DataFrame.shift命令查看帮助文档Signature: pandas.DataFrame.shift(self, periods=1, freq=None, axis=0)Docstring:Shift index by desired number of periods with an optional time freq该函数主要的功能就是使数据框中的

2017-08-13 10:24:17 24332

原创 pandas中时间序列——date_range函数

通过?pandas.date_range命令查看date_range函数帮助文档语法：pandas.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, name=None, closed=None, **kwargs)该函数主要用于生成一个固定频率的时间索引，在调用构造方法时，

2017-08-12 23:09:24 91443 4

原创 python中append和extend函数区别

append和extend都是python内置函数，都有扩展列表的元素功能，但两者的扩展方式是不同的。通过使用?list.append命令查看append函数帮助文档?list.appendDocstring: L.append(object) -> None -- append object to endType: method_descriptor通过?list.exte

2017-08-12 22:15:34 9324

翻译 HIVE入门二之表DDL(一)

HIVE中的表分为：内部表(也称管理表)、外部表、临时表，其中内部表和外部表最根本的区别是：hive的元数据是否由hive进程管理。create table methods1、直接创建表结构CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_

2017-08-12 18:24:14 1242

原创 HIVE入门一之数据库DDL语句

2017-08-10 22:25:19 793

原创利用Sqoop从oracle同步数据到HDFS出现The Network Adapter could not establish the connection的解决方法

问题：Data Connector for Oracle and Hadoop is disabled，Error executing statement: java.sql.SQLException: Io exception: The Network Adapter could not establish the connection解决方法：①将Oracle TNS配置文件中HO

2017-08-06 16:56:43 5378 1

翻译 scipy.spatial.distance.cdist

语法：scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None)，该函数用于计算两个输入集合的距离，通过metric参数指定计算距离的不同方式得到不同的距离度量值metric的取值如下： braycurtis canberra chebyshev city

2017-07-21 23:45:19 40195 4

原创 zip函数用法

语法：zip(iter1 [,iter2 [...]]) --> zip object 解析：zip函数接受一序列可迭代对象作为参数，将迭代对象中的元素组合成一个个元组，最后返回一个由元组组成的zip对象，若传入的迭代对象的长度不同，则最终返回的zip对象的长度以传入对象中最短的长度相同。In [1]: a = [1,2,3,4] ...: b = [3,1,4,5] ...:

2017-07-20 23:33:36 4151 1

原创 pipeline应用例子

管道命令不经常使用，但是很有用，可以把多个步骤组合成一个对象执行。这样可以更方便灵活地调节和控制整个模型的配置，而不是一个一个步骤调节。下面通过pipeline把多个数据处理步骤组合成一个对象，先将缺失数据填充，然后数据集标准化构造缺失数据集：In [3]: from sklearn import datasets ...: import numpy as np ...:

2017-07-15 10:18:04 2534

翻译 sklearn.preprocessing.MultiLabelBinarizer

多标签二值化：sklearn.preprocessing.MultiLabelBinarizer(classes=None, sparse_output=False)classes_属性：若设置classes参数时，其值等于classes参数值，否则从训练集统计标签值①classes默认值，classes_属性值从训练集中统计标签值In [1]: from sklearn.prepro

2017-07-13 22:59:48 12046

翻译 sklearn.preprocessing.LabelBinarizer

标签二值化：sklearn.preprocessing.LabelBinarizer(neg_label=0, pos_label=1,sparse_output=False)主要是将多类标签转化为二值标签，最终返回的是一个二值数组或稀疏矩阵参数说明：neg_label：输出消极标签值pos_label：输出积极标签值sparse_output：设置True时，以行压缩格式

2017-07-13 16:17:48 5474

翻译 sklearn.preprocessing.Normalizer

①sklearn.preprocessing.Normalizer(norm=’l2’, copy=True)norm：可以为l1、l2或max，默认为l2若为l1时，样本各个特征值除以各个特征值的绝对值之和若为l2时，样本各个特征值除以各个特征值的平方之和若为max时，样本各个特征值除以样本中特征值最大的值In [7]: from sklearn import prepr

2017-07-13 12:20:04 14022 5

翻译 sklearn.preprocessing.LabelEncoder

sklearn.preprocessing.LabelEncoder()：标准化标签，将标签值统计转换成range(标签值个数-1)以数字标签为例：In [1]: from sklearn import preprocessing ...: le = preprocessing.LabelEncoder() ...: le.fit([1,2,2,6,3]) ...:Ou

2017-07-13 09:03:17 41678 4

翻译 sklearn.preprocessing.Imputer

填补缺失值：sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)主要参数说明：missing_values：缺失值，可以为整数或NaN(缺失值numpy.nan用字符串‘NaN’表示)，默认为NaNstrategy：替换策略，字符串，默认用

2017-07-12 22:33:03 27691 3

翻译 sklearn.preprocessing.OneHotEncoder

sklearn.preprocessing.OneHotEncoder(n_values=’auto’, categorical_features=’all’,dtype=, sparse=True,handle_unknown=’error’)用于处理分类变量，将变量的特征值转换为稀疏矩阵主要参数说明：n_values：每个特征的取值个数，可以为auto、整数或整数数组①若为au

2017-07-12 08:52:42 6413

翻译 sklearn.preprocessing.Binarizer

Binarizer类和binarize方法根据指定的阈值将特征二值化，小于等于阈值的，将特征值赋予0，大于特征值的赋予1，其阈值threshold默认都为0①binarize方法：sklearn.preprocessing.binarize(X, threshold=0.0, copy=True)a、对于非稀疏矩阵而言，阈值threshold可以设置任何浮点数In [1]: from

2017-07-11 16:12:59 3176

翻译 sklearn.metrics.classification_report

分类报告：sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None,sample_weight=None, digits=2)，显示主要的分类指标，返回每个类标签的精确、召回率及F1值主要参数说明：labels：分类报告中显示的类标签的索引列表target_names：显

2017-07-10 22:35:58 26928 1

翻译 sklearn.model_selection.GroupKFold

分组K折交叉验证：sklearn.model_selection.GroupKFold(n_splits=3)参数说明：n_splits：折数，默认为3，至少为2注意点：同一组的样本不可能出现同时出现在同一折的测试集和训练集中。①数据集均等份，且每组中的样本也是均等In [11]: from sklearn.model_selection import GroupKFold

2017-07-10 15:36:05 9945 2

翻译 sklearn.model_selection.KFold

K折交叉验证：sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)思路：将训练/测试数据集划分n_splits个互斥子集，每次用其中一个子集当作验证集，剩下的n_splits-1个作为训练集，进行n_splits训练和测试，得到n_splits个结果注意点：对于不能均等份的数据集，其前n_sa

2017-07-10 10:57:47 75564 16

翻译 sklearn.model_selection.train_test_split

数据集划分：sklearn.model_selection.train_test_split(*arrays, **options)主要参数说明：*arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框test_size：可以为浮点、整数或None，默认为None①若为浮点时，表示测试集占总样本的百分比②若为整数时，表示测试样本样本数③若

2017-07-08 16:32:47 27711 2

翻译 sklearn.linear_model.LinearRegression

最小二乘法线性回归：sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)主要参数说明：fit_intercept：布尔型，默认为True，若参数值为True时，代表训练模型需要加一个截距项；若参数为False时，代表模型无需加截距项。norma

2017-07-07 22:19:49 30156 2

原创 oracle listagg和wm_concat函数

对于将一列多值合并成一行问题，oracle提供了wmsys.wm_concat和listagg函数处理此问题，下面我们以emp表中数据为例，看看两函数的使用方法假设我们需要统计每种job下面有哪些员工，要求在一行显示员工姓名，首先看看emp表中的数据：①利用listagg函数处理②利用wm_concat函数处理wm_concat函数作用：除了处理多行合并问题

2017-07-06 23:12:22 19443 2

翻译 sklearn集成方法之一随机森林

随机森林是有一系列决策树组成的元估计器，其中每个决策树训练的样本数相同，其样本数都等于原始输入的样本数，只是取样时随机的①sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1,

2017-07-06 16:40:10 2731

原创 pprint和print区别

pprint函数时pprint模块下方法，是一种标准、格式化输出方式。pprint(object, stream=None, indent=1, width=80, depth=None, *, compact=False)In [1]: from sklearn.datasets import fetch_20newsgroups ...: from pprint impo

2017-07-06 10:08:43 18780

翻译 sklearn.metrics.confusion_matrix

①混淆矩阵：sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)参数说明：y_true：真实因变量y_pred：预测因变量labels：指定矩阵索引顺序sample_weight：样本权重from sklearn.metrics import

2017-07-03 23:21:44 16552 1

原创 sklearn.preprocessing.PolynomialFeatures

多项式生成函数：sklearn.preprocessing.PolynomialFeatures(degree=2, interaction_only=False, include_bias=True)参数说明：degree：多项式次数(就同几元几次方程中的次数一样)interaction_only：是否包含单个自变量**n(n>1)特征数据标识include_bias：是否包

2017-07-02 16:28:28 1729

原创 numpy数组合并

沿着新轴上合并：stack(arrays, axis=0)沿着轴0合并In [3]: import numpy as np ...: a = np.array([[1,2,3],[4,5,6]]) ...: b = np.array([[6,5,6],[7,8,9]]) ...: np.stack((a,b),axis=0) ...:Out[3]:array([

2017-07-02 13:50:52 2238

原创 scipy.sparse学习

①行压缩矩阵：scipy.sparse.csr_matrix(arg1, shape=None, dtype=None, copy=False)构造方法：①通过csc_matrix(D)形式构造,其中D的维度必须小于等于2

2017-06-30 08:39:22 10423

原创 numpy.linalg学习

①矩阵和向量积两个数组点积：numpy.dot(a, b, out=None)①a、b都是常量或一维数组，则返回标量In [1]: import numpy as npIn [2]: np.dot(3,4)Out[2]: 12In [3]: np.dot([1,2,3],[4,5,6])Out[3]: 32知识点：对于一维数组，其结果等于两向量的内积：设向量 a=(

2017-06-28 22:42:28 15666 1

原创 Oracle批量更新

①导出批量更新SQLselect CONCAT(CONCAT(CONCAT(CONCAT('update test_a set a_date=', b_date), 'where a_id='), b_id), ' and a_flag=1;') from test

2017-06-28 16:36:13 2185

原创 [ML with Sklearn]特征提取与处理

①分类变量特征提取分类变量通常用独热编码(One-of-K or One-Hot Encoding),通过二进制来表示每个自变量特征。例如，假设city变量有三个值：New York, San Francisco, Chapel Hill。独热编码方式就是用三位二进制数表示city特征，其中每一位代表一个城市。利用sklearn.feature_extraction.DictVec

2017-06-28 08:50:55 1108

原创 sklearn dataset模块学习

sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法，可以通过dir或help命令查看，我们会发现主要有三种形式：load_*、fetch_*及make_*方法① datasets.load_：sklearn包自带的小数据集In [2]: datasets.load_*?datasets.load_boston#波士顿房价数据集datasets.l

2017-06-25 14:05:51 15466

原创 sklearn.datasets.base中Bunch类

Bunch和字典结构类似，也是又键值对组成，和字典区别：其键值可以被实例对象当作属性使用。In [1]: from sklearn.datasets import base ...: buch = base.Bunch(A=1,B=2,c=3) ...:In [2]: type(buch)Out[2]: sklearn.datasets.base.BunchIn [3]:

2017-06-25 12:53:19 9475 6

翻译 sklearn矩阵分解类库学习

sklearn.decomposition模块提供矩阵分解算法，主要是降维技术，如PCA、NMF 或ICA

2017-06-15 22:13:44 2851

Python数据分析与挖掘实战

10余位数据挖掘领域资深专家和科研人员，10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发，以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线，深入浅出介绍Python数据挖掘建模过程，实践性极强。, 本书共15章，分两个部分：基础篇、实战篇。基础篇介绍了数据挖掘的基本原理，实战篇介绍了一个个真实案例，通过对案例深入浅出的剖析，使读者在不知不觉中通过案例实践获得数据挖掘项目经验，同时快速领悟看似难懂的数据挖掘理论。读者在阅读过程中，应充分利用随书配套的案例建模数据，借助相关的数据挖掘建模工具，通过上机实验，以快速理解相关知识与理论。, 基础篇（第1～5章），第1章的主要内容是数据挖掘概述；第2章对本书所用到的数据挖掘建模工具Python语言进行了简明扼要的说明；第3章、第4章、第5章对数据挖掘的建模过程，包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。, 实战篇（第6～15章），重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上，本书是按照先介绍案例背景与挖掘目标，再阐述分析方法与过程，最后完成模型构建的顺序进行的，在建模过程的关键环节，穿插程序实现代码。最后通过上机实践，加深读者对数据挖掘技术在案例应用中的理解。

2016-12-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人