2 lirika_777

尚未进行身份认证

电脑版发挥稳定户外活动五大湖文化等我回去丢和我ID不请我IDUI我去打吧

等级
TA的排名 17w+

数据仓库的基础知识

数据仓库数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。——数据仓库之父--BillInmon数据仓库...

2019-09-07 11:30:34

hive添加数据报错

解决:Dynamicpartitionstrictmoderequiresatleastonestaticpartitioncolumn.Toturnthisoffset在hive表中通过子查询插入数据到分区表时报的错误:FAILED:SemanticException[Error10096]:Dynamicpartitionstrictmode...

2019-07-10 09:44:06

sc.textFiles() 与 sc.wholeTextFiles() 的区别及使用

众所周知,sc.textFiles(path)能将path里的所有文件内容读出,以文件中的每一行作为一条记录的方式:>>>textFile=sc.textFile(path)>>>textFile.collect()'Helloworld!'文件的每一行相当于列表的一个元素,因此可以在每个par...

2019-05-19 21:44:36

spark ml 归一化操作完整版

话不多说,上代码valdocTopicData=sc.textFile("src\\main\\resources\\model\\111.txt",1).map(s=>Vectors.dense(s.split('').map(_.toDouble)))importspark.implicits._valdocTopicDF=do...

2019-05-11 21:22:05

Breeze库API总结(Spark线性代数库)

导入importbreeze.linalg._importbreeze.numerics._Breeze创建函数: 操作名称 Breeze函数 对应Numpy函数 全0矩阵 DenseMatrix.zeros[Double](2,3) zeros((2,3)) 全0向量 DenseVector.zeros[D...

2019-05-11 10:00:59

spark向量矩阵的使用(scala)

向量和矩阵都是做机器学习的基础,下面来介绍下使用spark的底层的向量和矩阵是基于Breeze的,下面主要介绍下Breeze的使用,下面直接给代码,代码上有注释需要引入的包 importbreeze.linalg._ importbreeze.numerics._ importorg.apache.log4j.{Level,Logger} ...

2019-05-11 09:59:42

spark读取文件转换为矩阵

假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt1,2,3,4,5,69,3,4,5,7,75,2,5,2,7,8第一步:读取数据并切分,将每行数据从String转换成Array;此时,data的数据类型为RDD[Array[T]]data=sc.textFile("a.txt").map(_.split("\\s+")第二步...

2019-05-11 09:57:07

JVM内存划分

1.概述2.运行时数据区域2.1程序计数器2.2Java虚拟机栈2.3本地方法栈2.4Java堆2.5方法区2.6补充2.6.1运行时常量池和Class文件常量池2.6.2直接内存3.HotSpot虚拟机3.1内存划分3.2对象的创建、内存布局、访问定位3.2.1对象的创建3.2.2对象的内存布局3.2.3...

2019-05-02 20:55:13

hive中的笛卡尔积

Hive本身是不支持笛卡尔积的,不能用selectT1.*,T2.*fromtable_1,table_2这种语法。但有时候确实需要用到笛卡尔积的时候,可以用下面的语法来实现同样的效果:selectT1.*,T2.*from(select*fromtable1)T1join(select*fromtable2)T2on1=1;其中o...

2019-04-16 11:25:06

关于SPARK里RDD,多行数据合并一行以及一行数据映射多行

1.首先对于将多行缩减一行的需求我们可以通过flatMapValues字段实现该功能。flatMapValues:同基本转换操作中的flatMap,只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。样例如下valsqlContext=SparkSession.builder().master("local").getOrCreate...

2019-04-11 20:56:23

Scala 文本文件本地写入

友情提示:需要导入java的包不然会报错importjava.io.PrintWriterimportjava.io.Fileimportscala.io.Sourceimportjava.io.PrintWriterimportjava.io.Fileimportscala.io.SourceobjectFileOps{defmain(...

2019-04-06 19:45:39

Spark的Ml pipeline理解

MLpipeline提供了一组统一的高级API,它们构建在DataFrame之上,可帮助用户创建和调整实用的机器学习pipeline。一重要概念1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame:这个MLAPI使用S...

2019-02-22 15:54:44

spark pipeline学习

概念MLlib提供标准的机器学习算法API,能够方便的将不同的算法组合成一个独立的管道,或者叫工作流。 •DataFrame:MLAPI使用SarkSQL中的DataFrme作为机器学习数据集,可容纳各种类型的数据,如DataFrame可能是存储文本的不同列,特征向量,真正的标签或者预测。     •转换器:Transformer是一种算法,可以将一个DataFrame转换成另...

2019-02-22 15:51:20

Spark之pipeline机制

 1、pipeline的产生   从一个现象说起,有一家咖啡吧生意特别好,每天来的客人络绎不绝,客人A来到柜台,客人B紧随其后,客人C排在客人B后面,客人D排在客人C后面,客人E排在客人D后面,一直排到店面门外。老板和三个员工首先为客人A准备食物:员工甲拿了一个干净的盘子,然后员工乙在盘子里装上薯条,员工丙再在盘子里放上豌豆,老板最后配上一杯饮料,完成对客人A的服务,送走客人A,下一位客...

2019-02-22 15:49:42

复杂网络-标准公开数据集

 SNAP(StanfordLargeNetworkDatasetCollection)实验数据集主要包含以下数据集: Socialnetworks :onlinesocialnetworks,edgesrepresentinteractionsbetweenpeople Networkswithground-truthcommunities :g...

2019-02-11 12:51:44

pycharm 激活码及使用方式

pycharm提示过期:  博主推荐第三种:点 我 激活到2099年   点击【python交流群】    pycharm2018.3.1激活码1.授权服务器激活 优点:方便快捷 缺点:激活的人数多了就容易被封杀,所以可能经常需要去激活 选择Licenseserver激活,然后填入: idea.qmanga.com 或 http://xidea...

2018-12-23 16:03:35

Spark RDD学习: aggregate函数

Spark文档中对 aggregate的函数定义如下:defaggregate[U](zeroValue:U)(seqOp:(U,T)=>U,combOp:(U,U)=>U)(implicitarg0:ClassTag[U]):U注释:Aggregatetheelementsofeachpartition,andthen...

2018-08-13 10:36:22

K-means学习进阶以及它与EM的关系

K-means聚类算法   K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了AndrewNg的这个讲义后才有些明白K-means后面包含的EM思想。   聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有...

2018-07-03 16:11:00

Relief(Relevant Features)是著名的过滤式特征选择方法

  Relief(RelevantFeatures)是著名的过滤式特征选择方法,Relief为一系列算法,它包括最早提出的Relief以及后来拓展的Relief-F和RRelief-F,其中最早提出的Relief针对的是二分类问题,RRelief-F算法可以解决多分类问题,RRelief-F算法针对的是目标属性为连续值的回归问题。1、原始的Relief算法  最早提出的...

2018-06-30 11:06:58

粗糙集合论

   粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有      红颜色的积木构成集合X1={x1,x2,x6},      黄颜色的积木构成集合X2={x3,x4...

2018-06-27 16:20:05

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。