2 lirika_777

尚未进行身份认证

电脑版发挥稳定户外活动五大湖文化等我回去丢和我ID不请我IDUI我去打吧

等级
TA的排名 14w+

NLP数据集下载地址(转)

图像分类领域1)MNIST经典的小型(28x28 像素)灰度手写数字数据集,开发于 20 世纪 90 年代,主要用于测试当时最复杂的模型;到了今日,MNIST 数据集更多被视作深度学习的基础教材。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输入通道,只需在通道轴中选取单...

2019-10-07 09:12:59

数据仓库的基础知识

数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。——数据仓库之父--Bill Inmon数据仓库...

2019-09-07 11:29:25

hive添加数据报错

解决:Dynamic partition strict mode requires at least one static partition column. To turn this off set在hive表中通过子查询插入数据到分区表时报的错误:FAILED: SemanticException [Error 10096]: Dynamic partition strict mode...

2019-07-10 09:44:06

sc.textFiles() 与 sc.wholeTextFiles() 的区别及使用

众所周知,sc.textFiles(path)能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式:>>> textFile = sc.textFile(path)>>> textFile.collect()'Hello world!' 文件的每一行 相当于 列表 的一个元素,因此可以在每个par...

2019-05-19 21:44:36

spark ml 归一化操作完整版

话不多说,上代码 val docTopicData = sc.textFile("src\\main\\resources\\model\\111.txt", 1) .map(s => Vectors.dense(s.split(' ').map(_.toDouble))) import spark.implicits._ val docTopicDF = do...

2019-05-11 21:22:05

Breeze库API总结(Spark线性代数库)

导入import breeze.linalg._import breeze.numerics._Breeze创建函数: 操作名称 Breeze函数 对应Numpy函数 全0矩阵 DenseMatrix.zeros[Double](2,3) zeros((2,3)) 全0向量 DenseVector.zeros[D...

2019-05-11 10:00:59

spark向量矩阵的使用(scala)

向量和矩阵都是做机器学习的基础,下面来介绍下使用spark的底层的向量和矩阵是基于Breeze的,下面主要介绍下Breeze的使用,下面直接给代码,代码上有注释需要引入的包 import breeze.linalg._ import breeze.numerics._ import org.apache.log4j.{Level, Logger} ...

2019-05-11 09:59:42

spark读取文件转换为矩阵

假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt 1,2,3,4,5,6 9,3,4,5,7,7 5,2,5,2,7,8第一步:读取数据并切分,将每行数据从String转换成Array;此时,data的数据类型为RDD[Array[T]] data = sc.textFile("a.txt").map(_.split("\\s+")第二步...

2019-05-11 09:57:07

JVM内存划分

1. 概述2. 运行时数据区域2.1 程序计数器2.2 Java虚拟机栈2.3 本地方法栈2.4 Java堆2.5 方法区2.6 补充2.6.1 运行时常量池和Class文件常量池2.6.2 直接内存3. HotSpot虚拟机3.1 内存划分3.2 对象的创建、内存布局、访问定位3.2.1 对象的创建3.2.2 对象的内存布局3.2.3...

2019-05-02 20:55:13

hive中的笛卡尔积

Hive本身是不支持笛卡尔积的,不能用select T1.*, T2.* from table_1, table_2这种语法。但有时候确实需要用到笛卡尔积的时候,可以用下面的语法来实现同样的效果:select T1.*, T2.* from(select * from table1) T1join(select * from table2) T2on 1=1;其中o...

2019-04-16 11:25:06

关于SPARK里RDD,多行数据合并一行以及一行数据映射多行

1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。flatMapValues:同基本转换操作中的flatMap,只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。样例如下val sqlContext = SparkSession.builder().master("local").getOrCreate...

2019-04-11 20:56:23

Scala 文本文件本地写入

友情提示:需要导入java的包 不然会报错import java.io.PrintWriterimport java.io.Fileimport scala.io.Sourceimport java.io.PrintWriterimport java.io.Fileimport scala.io.Sourceobject FileOps { def main(...

2019-04-06 19:45:39

Spark的Ml pipeline理解

ML pipeline提供了一组统一的高级API,它们构建在 DataFrame之上,可帮助用户创建和调整实用的机器学习pipeline。一 重要概念1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame:这个ML API使用S...

2019-02-22 15:54:44

spark pipeline学习

概念MLlib提供标准的机器学习算法API,能够方便的将不同的算法组合成一个独立的管道,或者叫工作流。 • DataFrame:ML API使用Sark SQL中的DataFrme作为机器学习数据集,可容纳各种类型的数据,如DataFrame可能是存储文本的不同列,特征向量,真正的标签或者预测。       • 转换器:Transformer是一种算法,可以将一个DataFrame转换成另...

2019-02-22 15:51:20

Spark之pipeline机制

 1、pipeline的产生    从一个现象说起,有一家咖啡吧生意特别好,每天来的客人络绎不绝,客人A来到柜台,客人B紧随其后,客人C排在客人B后面,客人D排在客人C后面,客人E排在客人D后面,一直排到店面门外。老板和三个员工首先为客人A准备食物:员工甲拿了一个干净的盘子,然后员工乙在盘子里装上薯条,员工丙再在盘子里放上豌豆,老板最后配上一杯饮料,完成对客人A的服务,送走客人A,下一位客...

2019-02-22 15:49:42

复杂网络-标准公开数据集

 SNAP(Stanford Large Network Dataset Collection)实验数据集 主要包含以下数据集: Social networks : online social networks, edges represent interactions between people Networks with ground-truth communities : g...

2019-02-11 12:51:44

pycharm 激活码及使用方式

pycharm提示过期:  博主推荐第三种:点 我 激活到2099年     点击【python交流群】       pycharm 2018.3.1 激活码1.授权服务器激活 优点:方便快捷 缺点:激活的人数多了就容易被封杀,所以可能经常需要去激活 选择License server激活,然后填入: idea.qmanga.com 或 http://xidea...

2018-12-23 16:03:35

Spark RDD学习: aggregate函数

Spark 文档中对 aggregate的函数定义如下:def aggregate[U](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U)(implicit arg0: ClassTag[U]): U注释:Aggregate the elements of each partition, and then ...

2018-08-13 10:36:22

K-means学习进阶以及它与EM的关系

K-means聚类算法     K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。     聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有...

2018-07-03 16:11:00

Relief(Relevant Features)是著名的过滤式特征选择方法

  Relief(Relevant Features)是著名的过滤式特征选择方法,Relief 为一系列算法,它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 针对的是二分类问题,RRelief-F 算法可以解决多分类问题,RRelief-F 算法针对的是目标属性为连续值的回归问题。1、原始的 Relief 算法  最早提出的...

2018-06-30 11:06:58

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。