自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 unity3d基本操作

unity3d初步的操作

2022-04-20 08:59:32 621

原创 图像的梯度计算

在很多图像操作中都会用到梯度的计算比如canny, sobel等边缘检测方法中但是图像并不是连续的函数,而都是一些离散的点,需要怎么求梯度呢, 这里就简单写一下假设图像以函数f(x, y)来表示, 其中(x, y)是图像中点的坐标g = f(x, y)函数g对x的偏导数 : f(x, y) - f(x-1, y)函数g对y的偏导数 : f(x

2017-06-05 13:00:19 2250

原创 opencv 实现放射变换和投影变换

仿射变换可以实现一些平移、旋转、拉伸等操作, 拉伸的操作只能是平行四边形的TranslationMatrix = np.array([[1, 0.5, 0], [0, 1, 0]], dtype=np.float32)affImg = cv2.warpAffine(Img, TranslationMatrix, (int(I

2017-06-01 15:40:11 3200

原创 使用 mapreduce 求无向图的连通子图

图的连通子图算法不是个困难的算法但是如果图过大需要分布式的话,就不那么容易了关键在于使用mapreduce的时候太不方便迭代, 而且分布式求解肯定要增加时间不过spark graphx还是提供了一个简单的方法来使用那就是 connectedCompents()这个方法,可以直接把图分解开来最后返回的就是连通子图的集合有现成的就

2017-05-17 17:34:15 813

原创 Scala List , 元组, mutable.ArrayBuffer的一些问题

学语言到不是什么难的事, 关键是很琐碎最近使用scala就碰到很多小的语言问题,只能慢慢熟悉比如List 和元组的区别List是可以使用下标做索引的, 也就是lst(0), lst(1)这样的类型而元组,也就是val tp = (1, 2, 3), 这种以括号表示的是不可以使用下标的, 获取数据要使用tp._1这样来获取索引从

2017-05-11 10:42:07 903

原创 spark java.utils.List 没有map方法的问题

spark使用scala来编码的时候,有时候会使用java中的数据结构在使用java中的list的时候,使用map方法会提示出错这个问题倒是很简单,java的list确实没有map方法,不过转换成scala的list就可以解决了scala中的list和java中的list是可以直接隐式转换的,不用在代码里面体现只需要引入相应的包就可以

2017-05-10 13:28:43 425

原创 spark map和mapPartitions的区别

记录一下spark使用中遇到的问题spark map应该是个经常使用到的方法了, map与mapPartitions是两个类似的方法二者出了功能上不同以外,使用上也略微不一样简单的说对于map中如果有需要先初始化才能做的操作的话为了降低初始化的成本,一般会使用mapPartitions来做,例如:rdd.map{case (a, b) =

2017-05-04 17:16:30 366

原创 spark reduceByKey的小问题

spark reduceByKey有个小问题需要注意就是reduceByKey前后的数据格式需要一致,如果不一致则会出错比如以前的数据格式是(String, (Int, String)), 那么reduceByKey后也需要保持这个格式如果格式变化则会出错实在是想要(String, String)类型的话那么需要后面加个map

2017-05-04 10:26:59 804

原创 spark graphx joinvertices和outerjoinvertices简介

spark有个graphx的功能,能够处理图类型数据先介绍一下graphx中的基本结构,其中有vertex 和edgevertex:包括点和属性,也就是类似于(id, attr)edge:包括原点, 目标点, 边属性,类似于(src, dst, attr)这里介绍的是joinvertices和outerjoinvertices, 都是对顶点进行的操作,所以不涉及边

2017-04-19 16:59:25 3354

原创 共轭法解线性方程组-简介无推导

这里记录一下共轭梯度法,一直想了解这个算法但是网上搜了很多东西写的都没法看看来以后想学什么还是直接去看英文原版比较好这个共轭梯度最初的提出是用来解线性方程组的,这里先介绍解方程组的步骤求解方程组AX = b , 要求A是对称正定矩阵, 这要求够严苛的原文中给出了简洁明了的求解步骤:

2017-04-14 19:32:04 1733

原创 LINE:Large-scale Information Network Embedding介绍

传统的network embedding的方法不太适用于大规模的网络运算因为像MDS, LLE这样的线性映射方法都是需要矩阵操作的凡是这样的操作,是比较难以实现分布式的处理,导致不能处理大的网络但是在2015年微软的唐建等人提出了另一种network embedding的方式,能够处理大规模数据这里就简单的记录一下这个LINE的处理方式,看有什么不一样的LINE这种方式

2017-04-07 14:45:40 7929 1

原创 伯努利分布、二项分布、泊松分布、指数分布简介

伯努利分布:    首先说伯努利分布, 这个是最简单的分布,就是0-1分布以抛硬币为例, 为正面的概率为p, 反面的概率为q是一种离散型概率分布,也是很多分布的基础二项分布:    还是以伯努利分布为基础,假设伯努利分布中得1的概率为p, 0的概率为q那么二项分布求的就是进行n次伯努利分布,得到k次1的概率是多少例如:单身汪找妹子要微信,假设妹子会给微信的概

2017-04-06 15:03:22 18965

原创 tranlating embedding 算法的一些理解

这个是NIPS上的一篇文章,2013年出品,但是文章写的不是特别清楚也或许是我自己想的太过复杂,到目前也不清楚优化过程,只能简单记录一下文章:Translating Embeddings for Modeling Multi-relational Data主要是对于一些知识库三元组的形式来使用,例如(百度, 用户, 老王), (百度, 总裁, 李彦宏)这样的情况,

2017-04-05 18:06:06 391

原创 LLE算法简介-工程实现

LLE算法是一种经典都降维算法,是在2000年提出的到现在也已经很多年了,两位大牛提出了LLE算法可以说是打开了一个领域后来的这些年围绕这个算法的论文估计要成百上千篇,该领域出现的硕博估计也是人数众多我这里只能简单记录一下这个LLE的工程实现,免得以后忘记假设有高维数据A, A中的点为A1, A2, A3.....An, A为K维矩阵目的是把A映射到d维空间中,也就是生

2017-03-28 14:21:42 3681

原创 关于network embeding 中的MDS算法——classical multidimensional scalling问题

这个是降维问题里的一个经典解法用现在比较流行的说法就是network embedding , 这个在图形数据流中研究广泛实际上也就是个降维的问题,比如社交网络,电话网络,通信网络等等,把维度降到低维然后用低维的向量来进行聚类分类等的操作,有时候会有更好的效果这个研究中MDS可以说是鼻祖级别的了, MDS又有很多种解法,这里就介绍比较经典的那个

2017-03-24 14:03:47 906

原创 矩阵分解中的损失函数

简单记录一下矩阵分解的损失函数矩阵分解的一般形式可以表示为V = WH其中V是m*n矩阵, W是m*r矩阵,H是r*n矩阵一般来说r会比较小,这样能达到矩阵分解的目的, 矩阵分解还有很多的实现方法比如特征值分解、奇异值分解、非负分解等等矩阵分解在求解的时候也是需要损失函数的损失函数主要有以下两种:欧式距

2017-03-16 14:37:27 3700

原创 PCA和矩阵

PCA就是主成分分析,这是个无监督的数据处理过程目的是把原有的数据降低到一个比较小的维度,便于后续的处理整个过程的理论是:原有m个样本,每个样本为n维向量,那么可组成一个n*m的矩阵S找到一个矩阵A,将上面的样本矩阵映射到A中,假设A为k*n的矩阵矩阵映射过程就是A矩阵左乘S矩阵得到矩阵E, 那么E为k*m的矩阵如果k

2017-03-14 17:09:45 999

原创 Minibach kmeans 方法

kmeans是一个基本的聚类方法,相信学过数据挖掘的都会懂这个算法不过kmeans在数据量大的情况下会导致计算时间过长的问题,所以自然而然的就会有相应的提高计算速度的方法出现其实跟随机梯度下降的方法类似,也就是minibatch方法,基本上都一样随机梯度下降是使用随机的样本来计算下降的梯度,而不是使用全局梯度这个好处就是计算快,坏处就是局

2017-03-13 13:11:55 1187

原创 最近的面试经历

最近去面了几个地方,这里总结一下,按时间顺序排列排名不分先后:A公司:svm的原理能不能解释一下:解释的确实不好,对于smo和损失函数没能写出来X、Y都是向量,那么AX-Y这个向量的1范数最小求A:我说用爬山法优化最值,后来想清楚了,这个是极值点左单调递减,右边单调递增,是有极值的,而且就在折点上gbdt:能不能解释一下:这个gbm的原理和ls损失函数的梯度问题都说了一下,也还需要

2016-07-23 17:55:02 1790 1

libsvm python版安装包

安装python版的libsvm,具体参照http://blog.csdn.net/m624197265/article/details/41894261就可以了

2016-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除