自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 数据恢复

本文摘抄自码农沉思录大黄一、背景突发事件,应用上传的数据被程序自动删掉了,可悲的是还没有数据备份,数据是放在系统的 /data/webapps/xxxx/upload 目录下面,可把我们急坏了,之前又没有做过数据恢复的测试,然后我找到了一款数据恢复的软件,成功把删除的大部分数据找回来了,我的数据恢复过程如下。二、安装恢复软件1、epel 仓库安装如果我们的源里面添加...

2020-01-16 09:56:17 877

原创 面试相关整理

1.自我介绍,包括做过项目。 2.有看过哪些 JDK 源码,了解哪些常用库。 3.集合框架 HashMap 的扩容机制,ConcurrnetHashMap 的原理 4.jvm 内存模型与 gc 内存回收机制 5.classloader 结构,是否可以自己定义一个 java.lang.String 类,为什么? 双亲代理机制。 6.了解哪些设计模式,6...

2020-01-12 19:53:50 418

原创 大数据安全控制和场景分析

1、如何实现 hadoop 的安全机制。 1.1 共享 hadoop 集群: a: 管理人员把开发人员分成了若干个队列,每个队列有一定的资源,每个用户及用户组只能使用某个队列中指定资源。 b: HDFS 上有各种数据,公用的,私有的,加密的。不用的用户可以访问不同的数据。 1.2 HDFS 安全机制 client 获取 namenod...

2020-01-12 19:43:03 1017

原创 十个海量数据处理总结

一、Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将 hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不 支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改...

2020-01-12 11:27:50 363

原创 java复习

1、string、stringbuffer,strigBuilder区别 string只读字符串,引用的字符串内容不可以改变 stringBuffer、StringBuilder表示字符串对象,可以进行修改 StringBuilder是单线程环境使用没有synchronized修饰,StringBuffer多线程使用2、抽象类和接口的对比3、JDK的源码需要阅读的:...

2020-01-07 18:56:43 201

原创 mysql赋予权限

grant all privileges on *.* to 'root'@'centos1' identified by 'root' with grant option;

2019-12-17 17:04:26 213

原创 maven解决依赖冲突

<dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>2.10.0</version><exclusions>...

2019-12-17 16:13:17 297

原创 书仓介绍

1.ODS层ODS层中的数据全部来自于业务数据库,ODS层的表格也业务数据库中的表格一一对应由于业务数据库(OLTP)基本按照ER实体模型建模,因此ODS层中的建模方式也是ER实体模型。2.DW层DWD层要做的就是将数据清理、整合、规范化、脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不规范的数据都会被处理。DWD层应该是覆盖所有系统的、完整的、干净的、具有一致性的数据层。...

2019-12-16 17:43:56 361

原创 maven打jar包方式

1、https://blog.csdn.net/puhaiyang/article/details/783805502、https://blog.csdn.net/t1dmzks/article/details/811984803、https://blog.csdn.net/wqc19920906/article/details/792574024、https://www.cnblog...

2019-01-07 22:06:45 222

原创 Setting

&lt;?xml version="1.0" encoding="UTF-8"?&gt;&lt;project xmlns="http://maven.apache.org/POM/4.0.0"         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"         xsi:schemaLocation="http://m

2018-11-27 20:10:46 255

转载 hive to hbase

-- hive -e 'show create table grades' &gt; tableCREATE TABLE `mydb.grades`(  `id` int COMMENT 'ID',   `name` string COMMENT '姓名',   `age` int COMMENT '年龄')ROW FORMAT DELIMITED   FIELDS TERMINATE...

2018-11-27 08:48:29 342 3

转载 分区函数Partition By、带行号row_number()、排序rank()的用法详解

partition by关键字是分析性函数的一部分,它和聚合函数不同的地方在于它能返回一个分组中的多条记录,而聚合函数一般只有一条反映统计值的记录,partition by用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,分区函数一般与排名函数一起使用。准备测试数据:create table Student --学生成绩表( id int, --主键 Grade...

2018-11-19 10:40:33 1587

原创 hbase、hadoop、sparkStreaming、sparkCore,sparkShuffle的调优

Hbase的优化服务端优化: hbase.regionserver.handler.count:rpc请求的线程数量,默认值是10,生产环境建议使用100,特别大的时候scan/put几M的数据,会占用过多的内存,有可能导致频繁的GC,甚至oom。 hbase.regionserver.hlog.splitlog.writer.threads:默认值是3,建议设为10,日志切割...

2018-11-15 10:38:15 469

原创 Description Resource Path Location Type The project cannot be built until build path errors are reso

简单,问题是.classth文件所在的信息前后不一致导致冲突,最简单处理方法就是把maven项目重新buildup一下,问题就解决了,还可以直接修改文件内的信息,修改信息参考网上的做法,主要是配置。...

2018-10-15 10:05:55 36058 4

原创 Missing artifact jdk.tools:jdk.tools:jar:1.8的解决方法

使用Scala IDE build of Eclipse SDK 创建了一个Hadoop的MVEN开发工程之后,引入了相关的依赖包    &lt;!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common --&gt;    &lt;dependency&gt;        &lt;groupId&gt;o...

2018-10-15 09:49:22 1979 2

原创 sqljdbc4.jar missing

maven下的sqlserver配置jar包  看了两天的Scala,开始搭建maven项目,结果在sqlserver的依赖包上受阻,sqlserver需要sqljdbc4.jar包,经过一系列百度教程才得以解决,现在总结一下,方便自己以后查阅,欢迎大家指正:  &lt;dependency&gt;    &lt;groupId&gt;com.microsoft.sqlserver&l...

2018-10-12 16:37:46 2560

原创 用户画像笔记

  

2018-10-10 15:47:51 782 2

转载 impala的介绍以及和hive的区别

   最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容)        Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduc...

2018-09-29 16:35:37 7052

转载 kafka数据缓存到redis的全路径操作流程

第一步:配置redis客户端spark中配置redis客户端的代码参考: import org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.JedisPool object RedisClient extends Serializable {  val redis...

2018-09-20 16:33:45 2156

转载 阿里代码风格

 Table of Contents前言目录一、编程规约(一) 命名风格(二) 常量定义(三) 代码格式(四) OOP规约(五) 集合处理(六) 并发处理(七) 控制语句(八) 注释规约二、异常日志(一) 异常处理(二) 日志规约(九) 其它三、单元测试四、安全规约五、MySQL数据库(一) 建表规约(二) 索引规...

2018-09-17 17:49:47 1654

转载 Kettle

Kettle1. 安装kettle2. Kettle功能说明Kettle操作1. 安装kettle1.1 JDK安装将JDK文件解压,放到/home/zkpk目录下cd /home/zkpkunzip jdk1.6.0_45.zip使用vi配置环境变量vi /home/zkpk/.bash_profile复制粘贴以下内容到上面vi打开的文件中expor...

2018-09-17 08:54:49 441

转载 Hadoop性能调优

Hadoop性能调优1. 简介Hadoop性能调优不仅涉及Hadoop本身的性能调优,还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优。具体包括以下四部分,系统对这几部分适当地进行调优均可能给Hadoop带来性能提升。Hadoop(JobTracker, TaskTracker,…) Java Virtual Machine Operating System(CentOS...

2018-09-17 08:54:34 337

转载 大数据应用及其解决方案

1大数据概述 1.1. 概述 大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备、移动终端接入到网络,由此而产生的数据及增长速度将...

2018-09-17 08:52:25 37286 3

转载 用户画像—Airflow作业调度(ETL)

最近在弄画像标签每天ETL的调度事情,这篇文章分享一下一个开源的ETL工具Airflow。 一、基础概念Airflow是Airbnb内部发起并开源的一个ETL管理平台,使用Python编写实现的任务管理、调度、监控工作流平台。这是其官方文档地址:Apache Airflow (incubating) Documentation ,关于airflow产品的使用,里面有详细的介绍。...

2018-09-17 08:44:45 5914

原创 AWK

awk的概述:awk是一种编程语言,软件级别等同于bash,主要用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这样的,它逐行扫描文件,默认从第一行到最后一行,寻找匹配的特定模...

2018-09-13 16:58:02 274

原创 cloudDBA架构

2018-09-13 15:17:13 382

转载 用户画像之数据质量管理

数据质量管理这项工作的重要性不言而喻,所谓“garbage in,garbage out”,基础数据的质量性如果无法得到良好保障,后续的推荐、数据分析工作将会变得徒劳。 背景在建好用户画像模型后,该数据模型成为了一个个落在数据仓库的表,数据仓库的开发人员通过通过调度任务,每天定时从各业务数据表和日志数据表抽取用户行为数据加工到用户画像相关表中。各种类型的标签每天加工的数据成百上千万条,...

2018-09-12 10:23:31 1535

转载 用户画像之标签聚类

用户画像是个体系性比较强的内容模块,分一两次博客也写不完,我争取分多次博客把各个模块都搭建起来。上次把用户画像方面的内容开了一个头,讲了关于标签权重的计算方法,这次就聊聊标签聚类的方法。其实聚类不限于方法和形式,只要能将同类物品 / 内容进行准确聚类的,都是好的方法。好啦,开篇结束啦,下面让我们进入正题吧:一、应用背景:继上一篇中提到的用户标签表,存储了用户在平台上每次操作(来自日志数据)...

2018-09-12 10:22:08 5349 5

转载 用户画像—打用户行为标签

数据仓库用户画像的应用流程从原始的数据输入到模型应用可分为5块(图1),包括将操作型环境数据经ETL后集中存储在数据仓库,之后经过对数据的建模、挖掘、分析建立用户画像模型,最终将建好用户画像的数据接口调用到BI报表、经营分析、精准营销、个性化推荐等各系统模块。 图1用户画像开发,主要是对数据仓库中的业务表、日志表、埋点表中的相关数据进行各维度建模。所以要对数据仓库和元数据非常熟悉。...

2018-09-12 10:19:17 28970 4

转载 用户画像—计算用户偏好标签及数据指标与表结构设计

一、用户画像—计算用户偏好标签下面介绍如何计算用户的偏好标签。在上一篇写用户画像的文章 “用户画像—打用户行为标签”中,主要讲了如何对用户的每一次操作行为、业务行为进行记录打上相应的标签。在这篇博客中,主要讲如何对这些明细标签进行计算以及偏好的产品、内容的类目。关于用户标签权重的计算,在这篇文章里面讲过了:用户画像之标签权重算法这里再详细介绍一下:用户标签权重 = 行为类型...

2018-09-12 10:02:42 39277 11

转载 Phoenix二级索引创建

概述全局索引是Phoenix的重要特性,合理的使用二级索引能降低查询延时,让集群资源得以充分利用。 本文将讲述如何高效的设计和使用索引。全局索引说明全局索引的根本是通过单独的HBase表来存储数据表的索引数据。我们通过如下示例看索引数据和主表数据的关系。-- 创建数据表CREATE TABLE DATA_TABLE(  A VARCHAR PRIMARY KEY,  B VA...

2018-09-12 09:37:40 896

转载 hbase数据迁移工具

起因在跨集群复制HBase快照时,经常会出现由于/hbase/.tmp/data/xxx FileNotFoundException导致任务失败。现还原出错场景,并分析错误原因,给出一些常用的解决方法:Caused by: org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException): File /datafs...

2018-09-12 09:34:16 1211

转载 hbase跨集群复制snapshort错误解决

起因在跨集群复制HBase快照时,经常会出现由于/hbase/.tmp/data/xxx FileNotFoundException导致任务失败。现还原出错场景,并分析错误原因,给出一些常用的解决方法:Caused by: org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException): File /datafs...

2018-09-12 09:32:08 1519

原创 sqoop数据库数据全导入操作

  参考:https://blog.csdn.net/wzy0623/article/details/51804557            https://my.oschina.net/hblt147/blog/1860318

2018-09-11 16:59:47 952

转载 hbase问题排查思路

HBCK - HBCK检查什么?(1)HBase Region一致性 集群中所有region都被assign,而且deploy到唯一一台RegionServer上 该region的状态在内存中、hbase:meta表中以及zookeeper这三个地方需要保持一致 (2)HBase 表完整性 对于集群中任意一张表,每个rowkey都仅能存在于一个region区间  ...

2018-09-11 16:56:04 1846

转载 数据迁移 hbase snapshort

hbase基于快照的数据迁移前期准备1.        对于开启安全认证(kerberos)的集群,首先需要关掉安全认证。2.        在源集群所有节点/etc/hosts文件中配置目标集群所有节点的host。源集群操作开启HBase快照1.   登录Ambari检查hbase-site.xml中的hbase.snapshot.enabled是否设置为true,确认打...

2018-09-11 16:46:23 506

原创 大数据组件总结

https://blog.csdn.net/JENREY/article/details/80643970

2018-09-04 15:09:58 586

原创 电商离线分析项目

https://blog.csdn.net/JENREY/article/details/80462497

2018-09-04 14:27:20 1236

原创 sparkcore算子整理

https://blog.csdn.net/jenrey/article/details/80069579#comments

2018-09-04 14:25:40 193

原创 StringUtils.isNumeric(String str)的报错问题,如有需要可以修改源码

在项目中遇到一处bug,调试的结果竟然是StringUtils.isNumeric(String str) 在捣鬼(采用的是org.apache.commons.lang.StringUtils),下面的代码是判断一个参数非空,且为整数:if(StringUtils.isNumeric(str) &amp;&amp; StringUtils.isNotBlank(str)){ ...

2018-09-04 11:22:30 803

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除