自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive 压缩

2019-11-21 09:37:50 139

原创 TDH-学习材料

官网帮助地址:https://www.warpcloud.cn/#/documents-support/docs/products?category=TDH

2019-07-17 11:10:09 928

转载 个性化推荐系统实战入门必修课-协同过滤算法

个性化推荐的背景、落地场景、架构剖析:一、推荐系统在工业界主流落地场景:1、信息流:如今日头条、腾讯新闻等;2、电商:如淘宝京东的猜你喜欢,为你推荐板块;3、O2O(点对点)的LBS(基于位置服务):如百度地图找附近餐馆;二、推荐系统的架构实现: 三、工业界常用的召回架构1、离线模型:根据用户的行为计算出推荐结果:给用户计算出固定的推荐的item结果 ...

2019-07-04 22:30:35 924 1

原创 Bash设置启动

#! /bin/shexecpid=`ps -ef|grep -i "submit" | grep -v "grep" | grep "push.properties" |awk '{print $2}'`#execpid=`ps -ef | grep -i "push.properties" | grep -v "grep" | grep "push.properties" |awk...

2019-07-03 11:08:29 386

转载 hdfs missing blocks. The following files may be corrupted

https://www.cnblogs.com/itboys/p/9596441.htmlThere are 2 missing blocks. The following files may be corrupted:步骤1,检查文件缺失情况可以看到,blk_1074785806 /var/log/yarn_hislog/yarn/apps/root/logs/app...

2019-06-13 17:31:52 1738

转载 Apache Avro 入门

原网址:https://cloud.tencent.com/developer/article/13365721. 简介Apache Avro(以下简称 Avro)是一种与编程语言无关的序列化格式。Doug Cutting 创建了这个项目,目的是提供一种共享数据文件的方式。Avro 数据通过与语言无关的 schema 来定义。schema 通过 JSON 来描述,数据被序列化成二进制文...

2019-04-18 21:44:48 329

原创 shell脚本

Linux date命令的用法date +%Y%m%d-%H:%M:%Stime=$(date "+%Y%m%d-%H%M%S")ortime=$(date "+%Y-%m-%d %H:%M:%S")echo "${time}"上面两行简单的代码就是shell获取当前时间并按照自己想要的格式输出。需要注意几点date后面有一个空格,否则无法识别命令,shell对空格...

2019-04-17 17:47:46 205

原创 maven--加载其他目录下的jar

<dependency> <groupId>org.wltea</groupId> <artifactId>analyzer</artifactId> <version>1.0</version> <scope...

2019-04-16 17:09:38 454

转载 转载:推荐系统冷启动

https://mp.weixin.qq.com/s?__biz=MzI1NjM1ODEyMg==&mid=2247483914&idx=1&sn=0549cee422010a25003fceab5e77750d&chksm=ea26a18fdd512899c27d779c71be87bd7945aee8fa4acbc9facfc1012ca0bf069030c84...

2019-04-16 11:46:04 427

原创 JAVA-JVM

https://docs.oracle.com/javase/specs/

2019-04-15 23:57:56 102

原创 Hadoop数据压缩

1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,...

2019-04-15 09:53:27 360

转载 转载:Hadoop性能调优

https://blog.csdn.net/dehu_zhou/article/details/52808752https://blog.csdn.net/dxl342/article/details/52840455https://blog.csdn.net/u014156013/article/details/81347670Hadoop性能调优1. 简介Hadoop性能调优...

2019-04-15 09:38:31 579

原创 Hbase-角色

– Master• 为Region server分配region• 负责Region server的负载均衡• 发现失效的Region server并重新分配其上的region• 管理用户对table的增删改操作– RegionServer• Region server维护region,处理对这些region的IO请求• Region server负责切分在运行过程中变得过大的reg...

2019-04-10 16:43:28 372

转载 SparkSQL大数据实战:揭开Join的神秘面纱

https://www.cnblogs.com/163yun/archive/2018/06/01/9121530.html本文来自网易云社区。Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。Join背景介绍Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可...

2019-04-07 17:47:06 200

原创 HBase-学习总结

HBase指存储字节数组数据===>byte[]HBase寻址机制一个HBase表会被切分成很多Region,然后分别存储到不同的RegoinServer上,一个列族保存成一个Strore. 一个表有一个或多个列族,Region由一个或多个Strore组成,Strore= 1个memStrore+n个StroreFile[HFile] n>=0对...

2019-04-06 18:49:13 168

转载 推荐系统之LFM--潜在因子模型

推荐系统之LFM原网址:http://www.cnblogs.com/hxsyl/p/4882768.html  这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(Latent Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的@邰原朗所介绍的算法误...

2019-04-06 10:24:13 4547

原创 PDF处理

https://smallpdf.com/cn/pricing

2019-04-05 15:32:34 198

原创 Linux 关闭交换内存

第1种1,查看swap分区是挂在哪里:swapon -s2.比如是挂到/dev/dm-1 ,停掉命令: swapoff/dev/dm-1第2种Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 60。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该设置。您可以继续进...

2019-04-04 11:35:13 3957

原创 HBase集群安装

1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉hbase使用外部的...

2019-04-03 23:36:48 94

原创 Maven学习与实践

Maven仓库镜像修改---阿里或网易网易: http://mirrors.163.com/.help/maven.html一、通过修改setting.xml修改maven打开maven配置文件./apache-maven-3.5.2/conf/settings.xml找到<mirrors></mirrors>标签节点添加一个的mirror子...

2019-03-28 23:50:54 114

转载 Hashmap的结构,1.7和1.8有哪些区别-转载整理

https://blog.csdn.net/MDreamlove/article/details/80333136https://blog.csdn.net/liuchaoxuan/article/details/80767228?utm_source=blogxgwz7https://blog.csdn.net/qq_36520235/article/details/82417949...

2019-03-28 19:05:33 837

转载 JAVA 线程状态及转化

原网址:https://www.cnblogs.com/happy-coder/p/6587092.html线程状态图说明:线程共包括以下5种状态。1.新建状态(New) : 线程对象被创建后,就进入了新建状态。例如,Thread thread = new Thread()。2.就绪状态(Runnable): 也被称为“可执行状态”。线程对象被创建后,其它线程...

2019-03-27 21:31:43 88

转载 Flink DataStream API 编程指南

作者:写Bug的张小天链接:https://www.jianshu.com/p/ea80d15e9b5e來源:简书原文链接:https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/datastream_api.html最新稳定版链接:https://ci.apache.org/projects/flink/fl...

2019-01-22 15:16:21 749

原创 NumPy 学习

NumPy是Python的一个高性能科学计算和数据分析基础库,提供了功能强大的多维数组对象ndarray。jupyter notebook快速执行代码的快捷键:鼠标点击选中要指定的代码框,Shift + Enter组合键直接执行代码框中的全部代码。              Alt + Enter组合键执行完代码框中的代码在代码框的下面再添加一个空代码框。1、创建数组#引入numpy,并...

2019-01-21 15:44:18 1360

转载 JAVA----JVM垃圾回收GC

转载:http://www.cnblogs.com/redcreen/tag/jvm/https://cloud.tencent.com/developer/article/1336613java内存组成介绍:堆(Heap)和非堆(Non-heap)内存 按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配。堆是在 Jav...

2019-01-16 10:06:21 176

转载 Linux(CentOS6.5)修改默认yum源为国内的阿里云、网易yum源

Linux(CentOS6.5)修改默认yum源为国内的阿里云、网易yum源原网址:https://www.cnblogs.com/comexchan/p/5815624.html官方的yum源在国内访问效果不佳。需要改为国内比较好的阿里云或者网易的yum源修改方式:echo 备份当前的yum源mv /etc/yum.repos.d /etc/yum.repos.d.bac...

2019-01-09 22:11:45 1647

原创 java 原生类时间处理

java获取当前时间前一周、前一月、前一年的时间import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import java.util.Locale; public static void sampleJ...

2018-12-20 16:40:07 231

原创 Java-时间处理----Joda-time

参考:https://github.com/JodaOrg/joda-timehttps://www.joda.org/joda-time/userguide.html#Joda-Time为Java date和time类提供了一个高质量的替代品。该设计支持多个日历系统,同时仍然提供了一个简单的API。“默认”日历是XML使用的ISO8601标准。Maven configurat...

2018-12-20 16:28:28 3534

转载 flink on yarn部署

## flink on yarn部署flink on yarn需要的组件与版本如下1. Zookeeper 3.4.9 用于做Flink的JobManager的HA服务2. hadoop 2.7.2 搭建HDFS和Yarn3. flink 1.3.2 或者 1.4.1版本(scala 2.11)Zookeeper, HDFS 和 Yarn 的组件的安装可以参照网上的教程。在zoo...

2018-12-18 16:13:39 1169

原创 Spark Streaming整合flume实战

参考:http://spark.apache.org/docs/1.6.3/streaming-flume-integration.htmlhttps://blog.csdn.net/weixin_41615494/article/details/79521120flume作为日志实时采集的框架,可以与SparkStreaming实时处理框进行对接,flume实时产生数据,spar...

2018-12-12 11:23:38 121

转载 hadoop-HA分析

  

2018-10-31 22:31:08 151

转载 hadoop编译和spark编译

编译hadoop1.下载maven(apache-maven-3.3.3-bin.tar.gz)(3.0.5以上版本)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3.3.3-bin.tar....

2018-10-31 18:31:33 427

原创 hadoop2.X 伪分布环境配置

地址:http://archive.cloudera.com/cdh5/cdh/5/http://archive.cloudera.com/cdh5/hadoop原生地址:http://archive.apache.org/dist/复制数据rsync -r spark-1.6.1 [email protected]:/mnt/sd02scp -r spark-1.6.1 ro...

2018-10-31 17:54:31 236

转载 spark-sql结合hive

重要########################################alter database hive character set latin1;ALTER TABLE hive.* DEFAULT CHARACTER SET latin1;########################################1.安装hiveCREATE USER 'h...

2018-10-31 11:24:18 123

转载 转载:Spark 使用ansj进行中文分词

转载:https://www.cnblogs.com/JustIsQiGe/p/8006734.html在Spark中使用ansj分词先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程ansj源码github:https://github.com/NLPchina/ansj_segansj下载链接:https://oss.sonatype.org/...

2018-10-30 18:56:35 680

原创 Spark-Spark SQL and DataFrame

课程目标 掌握Spark SQL的原理 掌握DataFrame数据结构和使用方式 熟练使用Spark SQL完成计算任务  Spark SQL Spark SQL概述 什么是Spark SQL    2 sparkSQL优点我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRed...

2018-10-30 11:20:20 204

原创 Python数据挖掘-NLP

NLTKPython上著名的⾃然语⾔处理库自带语料库,词性分类库自带分类,分词,等等功能强⼤的社区支持还有N多的简单版wrappernltk的安装十分便捷,只需要pip就可以。相对Python2版本来说,NLTK更支持Python3版本。 pip install -U nltk# 测试是否安装成功&gt;&gt;&gt; python&gt;&gt;&gt; im...

2018-10-26 15:03:22 268

转载 Spark---WC---Spark从外部读取数据之textFile

Ref:https://blog.csdn.net/legotime/article/details/51871724#测试数据hello sparkhello hadoopcsdn hadoopcsdn csdnhello world结果(spark,1)(hadoop,2)(csdn,3)(hello,3)(world,1) import or...

2018-10-25 18:07:54 2972

转载 4. scala-------隐式转换和隐式参数

概念 隐式转换和隐式参数是Scala中两个非常强大的功能,利用隐式转换和隐式参数,你可以提供优雅的类库,对类库的使用者隐匿掉那些枯燥乏味的细节。作用隐式的对类的方法进行增强,丰富现有类库的功能隐式转换函数是指那种以implicit关键字声明的带有单个参数的函数import java.io.Fileimport scala.io.Source//...

2018-10-21 22:49:35 115

转载 Scala高级特性---函数式编程

目标一:深入理解高阶函数 目标二:深入理解隐式转换高阶函数 概念 Scala混合了面向对象和函数式的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。作为值的函数可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法传入具体动作时这个特性就会变得非常有用。定义...

2018-10-21 22:43:53 289

邹博老师机器学习

邹博老师的视频最适合入门,深入浅出、通俗易懂,对于有基础和没基础的同学,都能让你轻易入门,但是得一边看一遍敲,不能说我只看看就能找到工作,对不起,不可能。

2019-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除