4 diudiu2025

尚未进行身份认证

暂无相关描述

等级
博文 18
排名 23w+

Spark - 报错 “A master URL must be set in your configuration” when submitting an app

将sc创建在main函数内解决

2019-03-14 16:31:26

k-d tree算法

k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。应用背景  SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻,现在提出了很多高维空间索引结构和近似查询的算法,k-d树就是其中一种。...

2019-02-16 16:40:42

Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法

不多说,直接上干货!   常见的推荐算法  1、基于关系规则的推荐  2、基于内容的推荐  3、人口统计式的推荐  4、协调过滤式的推荐(广泛采用)     协调过滤的概念  在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。  协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤(Collabora...

2019-01-25 17:19:37

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为apache-hive-0.13.1数据准备 CREATEEXTERNALTABLElxw1234( cookieidstring, createt...

2019-01-23 10:43:35

jedis上eval的用法

importstaticorg.junit.Assert.*;importjava.util.ArrayList;importjava.util.List;importorg.junit.Test;importredis.clients.jedis.Jedis;/**@description:LuaScript(脚本) 从Redis2.6.0版...

2019-01-14 20:00:30

【机器学习】正则化的线性回归 —— 岭回归与Lasso回归

注:正则化是用来防止过拟合的方法。在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数。但是一直也无法对其基本原理有一个透彻、直观的理解。直到最近再次接触到这个概念,经过一番苦思冥想后终于有了我自己的理解。 0.正则化(Regularization )前面使用多项式回归,如果多项式最高次项比较大,模型就容易出现过拟合。正则化是一种常见的防止过拟合的...

2018-08-07 19:50:09

hive对列按顺序转换为行

--创造数据createtablepersona.test_hz 已有数据1 1 a1 2 b1 3 c1 4 d1 5 e2 5 e2 4 d2 3 c2 2 b2 1 a3 1 a3 2 b3 3 c3 4 d3 5 e4 5 e4 4 d4 3 c4 2 b4 1 aselectid,collect_list(value)from (select*frompersona.tes...

2018-06-27 19:52:33

hive踩坑记录:count(distinct col1,col2) 遇见某列中有null值,结果不准

count(distinctcol1,col2)遇见某列中中有null值,结果不准SELECTcount(DISTINCTcol1,col2)from(SELECT2ascol1,1ascol2unionallSELECTnullascol1,2ascol2unionallSELECTnullascol1,3ascol2un...

2017-12-28 10:47:53

Hive对有null值得一列做avg,count等操作时会过滤掉有NULL值的这一行

WITHtmpAS(SELECTnullascol1unionallSELECT2ascol1unionallSELECT4ascol1)SELECTavg(1)fromtmp结果是3;WITHtmpAS(SELECTnullascol1unionallSELECT2ascol1union

2017-11-21 22:26:56

spark调优第二篇:spark内存溢出还可能是你的driver memory的内存内存不够

java.lang.OutOfMemoryError:GCoverheadlimitexceeded在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组,那么其中一个操作涉及到将rdd转化为array。在这一步中其实是将所有的数据都拉到一台机器上了,也就是你的driver,应为我用的是spark-shell默认的任务执行模式是yarn-client。

2017-10-30 22:11:49

Spark调优第一篇

最初级的早启动spark-shell时这些设置的./bin/spark-submit\--masteryarn-cluster\--num-executors100\--executor-memory6G\--executor-cores4\--driver-memory1G\--confspark.default.parallelism=100

2017-10-14 22:01:56

Spark中的DataFrame的getAs方法如果取到的值是null的处理

Spark中的DataFrame的getAs方法如果取到的值是null的处理结果我遇到的两种情况吧valDF=hc.sql("...............")valrdd=DF.rdd.map{row=>vallabel=row.getAs[Int]("age")}1,如果getAs[Integer]("age")那么null值被拿出来依然为nul

2017-10-14 20:17:08

Spark的日志配置

在测试spark计算时,将作业提交到yarn(模式–masteryarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的在Spark的conf目录下,把log4j.properties.template修改为log4j.properties

2016-09-04 11:09:58

稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB

稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB时间 2015-02-0423:05:00  博客园-原创精华区原文  http://www.cnblogs.com/xbinworld/p/4273506.html主题 矩阵 Dia稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在9

2016-08-23 11:21:34

spark1.6.0集群安装

1.概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2.安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ23

2016-07-18 21:32:26

hive初次使用报错

hive(元数据存储在mysql)启动Exceptioninthread"main"java.lang.RuntimeException:Hivemetastoredatabaseisnotinitialized.Pleaseuseschematool(e.g../schematool-initSchema-dbType...)tocreatet

2016-07-12 17:02:39

Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0

本教程使用 CentOS6.432位 作为系统环境,请自行安装系统(可参考使用VirtualBox安装CentOS)。如果用的是Ubuntu系统,请查看相应的 Ubuntu安装Hadoop教程。本教程基于原生Hadoop2,在 Hadoop2.6.0(stable) 版本下验证通过,可适合任何Hadoop2.x.y版本,例如Hadoop2.7.1,Hadoop

2016-07-05 14:47:29

遍历Map的4种方法

publicstaticvoidmain(String[]args){  Mapmap=newHashMap();  map.put("1","value1");  map.put("2","value2");  map.put("3","value3");    //第一种:普遍使用,二次取值  System.out.println("

2016-04-19 16:47:00
奖章
    暂无奖章