自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 go开发中遇到的问题:the ntvdm cpu has encountered an illegal instruction

刚学习go开发遇到" the ntvdm cpu has encountered an illegal instruction",如图:系统是windows 32,开发工具jetbrains golang,通过翻看资料得到解决,在C:\Windows\System32下找到ntvdm.exe,第一步:压缩该文件,删除ntvdm.exe源文件。第二步:创建空文件夹ntvdm.exe,重启电...

2020-03-01 14:03:40 2930 1

转载 NLP数据集下载地址(转)

图像分类领域1)MNIST经典的小型(28x28 像素)灰度手写数字数据集,开发于 20 世纪 90 年代,主要用于测试当时最复杂的模型;到了今日,MNIST 数据集更多被视作深度学习的基础教材。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输入通道,只需在通道轴中选取单...

2019-10-07 09:14:00 1308

转载 数据仓库的基础知识

数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。——数据仓库之父--Bill Inmon数据仓库...

2019-09-07 11:30:34 701

原创 hive添加数据报错

解决:Dynamic partition strict mode requires at least one static partition column. To turn this off set在hive表中通过子查询插入数据到分区表时报的错误:FAILED: SemanticException [Error 10096]: Dynamic partition strict mode...

2019-07-10 09:44:06 645

原创 sc.textFiles() 与 sc.wholeTextFiles() 的区别及使用

众所周知,sc.textFiles(path)能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式:>>> textFile = sc.textFile(path)>>> textFile.collect()'Hello world!' 文件的每一行 相当于 列表 的一个元素,因此可以在每个par...

2019-05-19 21:44:36 3461

原创 spark ml 归一化操作完整版

话不多说,上代码 val docTopicData = sc.textFile("src\\main\\resources\\model\\111.txt", 1) .map(s => Vectors.dense(s.split(' ').map(_.toDouble))) import spark.implicits._ val docTopicDF = do...

2019-05-11 21:22:05 546

转载 Breeze库API总结(Spark线性代数库)

导入import breeze.linalg._import breeze.numerics._Breeze创建函数: 操作名称 Breeze函数 对应Numpy函数 全0矩阵 DenseMatrix.zeros[Double](2,3) zeros((2,3)) 全0向量 DenseVector.zeros[D...

2019-05-11 10:00:59 759

转载 spark向量矩阵的使用(scala)

向量和矩阵都是做机器学习的基础,下面来介绍下使用spark的底层的向量和矩阵是基于Breeze的,下面主要介绍下Breeze的使用,下面直接给代码,代码上有注释需要引入的包 import breeze.linalg._ import breeze.numerics._ import org.apache.log4j.{Level, Logger} ...

2019-05-11 09:59:42 1083

原创 spark读取文件转换为矩阵

假设文件中数据的保存格式为:每行为一个样本数据,并由‘,’分隔。如:a.txt 1,2,3,4,5,6 9,3,4,5,7,7 5,2,5,2,7,8第一步:读取数据并切分,将每行数据从String转换成Array;此时,data的数据类型为RDD[Array[T]] data = sc.textFile("a.txt").map(_.split("\\s+")第二步...

2019-05-11 09:57:07 1595

转载 JVM内存划分

1. 概述2. 运行时数据区域2.1 程序计数器2.2 Java虚拟机栈2.3 本地方法栈2.4 Java堆2.5 方法区2.6 补充2.6.1 运行时常量池和Class文件常量池2.6.2 直接内存3. HotSpot虚拟机3.1 内存划分3.2 对象的创建、内存布局、访问定位3.2.1 对象的创建3.2.2 对象的内存布局3.2.3...

2019-05-02 20:55:13 97

转载 hive中的笛卡尔积

Hive本身是不支持笛卡尔积的,不能用select T1.*, T2.* from table_1, table_2这种语法。但有时候确实需要用到笛卡尔积的时候,可以用下面的语法来实现同样的效果:select T1.*, T2.* from(select * from table1) T1join(select * from table2) T2on 1=1;其中o...

2019-04-16 11:25:06 3446 1

原创 关于SPARK里RDD,多行数据合并一行以及一行数据映射多行

1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。flatMapValues:同基本转换操作中的flatMap,只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。样例如下val sqlContext = SparkSession.builder().master("local").getOrCreate...

2019-04-11 20:56:23 4857 1

原创 Scala 文本文件本地写入

友情提示:需要导入java的包 不然会报错import java.io.PrintWriterimport java.io.Fileimport scala.io.Sourceimport java.io.PrintWriterimport java.io.Fileimport scala.io.Sourceobject FileOps { def main(...

2019-04-06 19:45:39 2290

转载 Spark的Ml pipeline理解

ML pipeline提供了一组统一的高级API,它们构建在 DataFrame之上,可帮助用户创建和调整实用的机器学习pipeline。一 重要概念1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame:这个ML API使用S...

2019-02-22 15:54:44 3067 1

转载 spark pipeline学习

概念MLlib提供标准的机器学习算法API,能够方便的将不同的算法组合成一个独立的管道,或者叫工作流。 • DataFrame:ML API使用Sark SQL中的DataFrme作为机器学习数据集,可容纳各种类型的数据,如DataFrame可能是存储文本的不同列,特征向量,真正的标签或者预测。       • 转换器:Transformer是一种算法,可以将一个DataFrame转换成另...

2019-02-22 15:51:20 211

转载 Spark之pipeline机制

 1、pipeline的产生    从一个现象说起,有一家咖啡吧生意特别好,每天来的客人络绎不绝,客人A来到柜台,客人B紧随其后,客人C排在客人B后面,客人D排在客人C后面,客人E排在客人D后面,一直排到店面门外。老板和三个员工首先为客人A准备食物:员工甲拿了一个干净的盘子,然后员工乙在盘子里装上薯条,员工丙再在盘子里放上豌豆,老板最后配上一杯饮料,完成对客人A的服务,送走客人A,下一位客...

2019-02-22 15:49:42 208

转载 复杂网络-标准公开数据集

 SNAP(Stanford Large Network Dataset Collection)实验数据集 主要包含以下数据集: Social networks : online social networks, edges represent interactions between people Networks with ground-truth communities : g...

2019-02-11 12:51:44 3504 1

原创 pycharm 激活码及使用方式

pycharm提示过期:  博主推荐第三种:点 我 激活到2099年     点击【python交流群】       pycharm 2018.3.1 激活码1.授权服务器激活 优点:方便快捷 缺点:激活的人数多了就容易被封杀,所以可能经常需要去激活 选择License server激活,然后填入: idea.qmanga.com 或 http://xidea...

2018-12-23 16:03:35 8020 2

转载 Spark RDD学习: aggregate函数

Spark 文档中对 aggregate的函数定义如下:def aggregate[U](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U)(implicit arg0: ClassTag[U]): U注释:Aggregate the elements of each partition, and then ...

2018-08-13 10:36:22 206 1

转载 K-means学习进阶以及它与EM的关系

K-means聚类算法     K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。     聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有...

2018-07-03 16:11:00 177

转载 Relief(Relevant Features)是著名的过滤式特征选择方法

  Relief(Relevant Features)是著名的过滤式特征选择方法,Relief 为一系列算法,它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 针对的是二分类问题,RRelief-F 算法可以解决多分类问题,RRelief-F 算法针对的是目标属性为连续值的回归问题。1、原始的 Relief 算法  最早提出的...

2018-06-30 11:06:58 3791

转载 粗糙集合论

   粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有      红颜色的积木构成集合X1={x1,x2,x6},      黄颜色的积木构成集合X2={x3,x4...

2018-06-27 16:20:05 807 1

转载 Github Desktop退出当前登录用户

Github Desktop退出当前登录用户图文详解整个注销流程:打开githubDesktop 点击file点击options点击sign out以下是图文详解找到options然后就成功退出了

2018-06-26 09:20:31 5086

转载 在pycharm中利用pylot画图 一直不显示解决方案

在画图后,增加的代码如下plt.show()  

2018-06-23 10:32:31 1755

转载 xgboost原理

1.序  距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。  关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT、论文、一些网络资源,希望对xgboost原理进行深入理解。(笔者在最后的参考文献中会给出地址)2.xgboost vs gbdt  说到xgboost,不得不说g...

2018-06-20 17:30:28 189

原创 Boosted Tree:一篇很有见识的文章

作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖局  兄邀请写这篇文章。作为一个非常有效的机器学习方...

2018-06-20 17:20:56 518

转载 【模式识别】感知器 Perceptron

基本概念线性可分:在特征空间中可以用一个线性分界面正确无误地分开两 类样本;采用增广样本向量,即存 在合适的增广权向量 a 使得:则称样本是线性可分的。如下图中左图线性可分,右图不可分。所有满足条件的权向量称为解向量。权值空间中所有解向量组成的区域称为解区。通常对解区限制:引入余量b,要求解向量满足: 使解更可靠(推广性更强),防止优化算法收敛到解区的边界。感知准则函数及求解对于权向量a,如果某个...

2018-06-15 12:38:22 419

转载 axis=1是列,axis=0是行

如标题所示,自己写了个例子好用,一下就理解了import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import datetime as dtdf=pd.DataFrame([[1,1,1,1],[2,2,2,2],[3,3,3,3]])pr...

2018-06-11 10:16:26 4184

转载 【机器学习】SVR支持向量机回归

回归和分类从某种意义上讲,本质上是一回事。SVM分类,就是找到一个平面,让两个分类集合的支持向量或者所有的数据(LSSVM)离分类平面最远;SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。   我们来推导一下SVR。根据支持向量机二分类博客所述,数据集合归一化后,某个元素到回归平面的距离为r=d(x)−g(x)r=d(x)−g(x)。另外,由于数据不可能都在回归平面上,距...

2018-05-28 15:03:13 1033

转载 二次规划

       二次规划问题 是一种典型的优化问题,包括凸二次规划和非凸二次规划,在此类问题中,目标函数是变量的二次函数,约束条件是变量的线性不等式。假定变量的个数为dd,约束条件的个数为mm,则标准的二次规划问题形如:minxs.t.12xTQx+cTxAx⩽bminx12xTQx+cTxs.t.Ax⩽b其中xx为dd维向量,Q∈Rd×dQ∈Rd×d为实对称矩阵,A∈Rm×dA∈Rm×d为实矩阵,...

2018-04-12 09:31:50 2387

转载 极大似然估计

极大似然估计        以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策        首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:        其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这...

2018-03-23 10:14:16 198

原创 矩阵求偏导

2018-03-21 21:33:28 50211 11

转载 监督学习之Logistic regression——Andrew Ng机器学习笔记(二)

- 介绍欠拟合和过拟合的概念 - 从概率的角度解释上一篇博客中评价函数J(θ)J(θ)为什么用最小二乘法 - 局部加权线性回归(Locally Weighted Linear Regression (LWR)) - 逻辑回归(Logistic regression) - 感知器学习算法(The perceptron learning algorithm)欠拟合与过拟合我觉得欠拟合和过拟合都是从拟合...

2018-03-14 16:22:35 182

转载 HDFS、hbase、Hive、Pig

HDFShdfs简介hadoop中高效数据处理基础是它的数据存储模型hdfs是hadoop分布式文件系统的实现它是参考谷歌文件系统设计hdfs为处理大批大量数据而设计通过网络提供给多个分部的客户端易用的数据访问方式hdfs优势相比于nfs之类的分布式文件系统,hdfs可以存储大量数据并支持更大的文件hdfs是为在大量机器和文件系统之间传输数据而设计的hdfs具有可靠的数据存储能力,并通过数据副本的...

2018-03-14 11:13:34 410

转载 WebDriver环境搭建

在eclipse环境下搭建WebDriver1. 配置Selenium RC下载 selenium-server-standalone-3.7.1 下载地址 http://www.seleniumhq.org/download/ 启动selenium服务 java -jar selenium-server-standalone-3.7.1

2017-11-29 16:18:25 305

原创 hadoop错误org.apache.hadoop.yarn.exceptions.YarnException Unauthorized request to start container

错误:17/11/22 15:17:15 INFO client.RMProxy: Connecting to ResourceManager at Master/192.168.136.100:803217/11/22 15:17:16 INFO input.FileInputFormat: Total input paths to process : 117/11/22 15:17

2017-11-22 15:44:52 3411 1

转载 hadoop java.net.NoRouteToHostException: 没有到主机的路由

在往hdfs 发送文件的时候 hadoop dfs -put ./test.log /发送如下错误[plain] view plain copy

2017-11-22 11:16:29 1325

转载 Hadoop配置启动SecondaryNameNode

1.增加masters文件sudo vi masters复制代码 这里面放什么内容还是比较关键的,这里我们指定slave1节点上运行SecondaryNameNode。注意:如果你想单独配置一台机器,那么在这个文件里面,填写这个节点的ip地址或则是hostname,如果是多台,则在masters里面写上多个,一行一个,我们这里指定一个

2017-11-22 09:46:20 6846

原创 Python 导出csv文件时中文乱码

我遇到的问题是使用pandas的DataFrame to_csv方法实现csv文件输出,但是遇到中文乱码问题,已验证的正确的方法是:df.to_csv("cnn_predict_result.csv",index=False,encoding="utf_8")

2017-11-18 15:44:23 5658

翻译 机器学习实战-KNN算法

思路:给出一个向量inX,将dataSet的每一个点距离该点的距离d求出,根据d排序,得序号下标,而每个点(一行)对应一个label(通常为最后一个属性),顺序取得前k个d,并将其相同label计数,将label按数量递减排序,取最多数量的label输出def classify0(inX, dataSet, labels, k):   dataSetSize = dataSet.shape

2017-11-14 11:21:09 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除