5 旧书包的青春

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 33w+

Hive数仓实战--用户行为分析-ADS层日活

在进行本次统计之前,假设你已经完成了服务数据层DWS的数据准备 :dws_uv_detail_daily 每日活跃明细dws_uv_detail_wk 每周活跃明细dws_uv_detail_mn 每月活跃明细如果没有,请参考上一集Hive数仓实战–用户行为分析-每日周月活跃设备统计建相关表create table if exists ads_uv_count;create external table ads_uv_count( `dt` string COMMENT '统计

2020-06-06 16:36:45

Hive数仓实战--用户行为分析-每日周月活跃设备统计

业务背景:通过用户的登录行为,分析用户的日周月活跃指标在进行本次实践之前,假设你已经产生了用户的登录日志, 并保存于Hive数仓中的dwd_start_log分层说明:ODS 原始数据层(original data) DWD明细数据层 (结构与原始数据层基本保持一直),存放经过清洗过滤之后的数据 DWS服务数据层 ,轻度汇总,细粒度的统计 ADS数据应用层 ,通常为宽表每日活跃用户明细创建hive表drop table if exists dws_uv_daily_da...

2020-06-06 15:51:49

参数调优提升系统高并发

参数调优提升系统高并发NginxTomcatRedis客户端数据连接池MySQLLinuxNginx修改nginx工作线程数量,默认1024,实际可支持上w线程数量。worker_processes 10000Tomcat修改tomcat server.xml 中线程池,修改最大处理连接数 maxThreads(默认150)为800,参数如下:<Executor name="tomcatThreadPool" 线程名称 namePrefix="catalina-ex

2020-05-17 16:26:08

JVM调优常用命令

java -jar xxx.jarjinfo -syspropes 进程号 查看java系统的扩展参数jinfo -flags 进程号 查看jvm参数jstat -class 进程号 类加载情况jstat -gc 进程号 垃圾回收统计jstat -gccapacity 进程号 堆内存统计jstat -gcnew 进程号 新生代统计jstat -gcnewcapacity 进程号 新生...

2020-04-16 06:37:51

mysql忘记密码怎么办(5.7 8)

登录 Access denied…忘记密码怎么办?mysql 5.7 ,(进入到MySQL bin目录下):设置 :mysqld -nt --skip-grant-tables免密登录: mysql -uroot -p修改密码 :update mysql.user set password=password(‘新密码’) where user=‘root’ and host=‘local...

2020-04-03 17:20:10

Git 回退到某一次提交

假设在分支dev上, 需要将代码回退到某次提交(如 bc8348g)切换到分支:git ckeckout dev查看提交记录 git log -n 100 找到需要回退的提交记录 假如是 bc8348ggit reset --hard bc8348g,这是控制台提示: HEAD now is at bc8348ggit push -f original dev ,注意 dev是你所在的...

2020-04-02 14:23:54

记一次Feign报400排错过程

1.在报错的代码中发现一行at feign.codec.ErrorDecoder$Default.decode(ErrorDecoder.java:93)2.点进去,debug这一行FeignException exception = errorStatus(methodKey, response);3.查看response,发现POST请求的参数带在header了上4.查看代码,原来是...

2020-03-23 21:07:07

IDEA快速kill占用端口号的进程

在IDEA终端 terminal 或CMD 命令窗口中 中输入下面命令:netstat -ano|findstr “9977” 其中9977是端口号taskkill /f /t /im 1111 其中1111是上面命令查出来的进程ID...

2020-03-10 20:33:53

Hive安装与配置

1.官网下载软件包,镜像地址: https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/2.执行解压安装命令 tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /hive-z 使用gzip过滤压缩文件-x 解压文件-v 详细列出处理的文件-f 使用压缩文件-C 改变至目录3.待续…...

2020-03-08 22:42:05

IDEA远程Debug

IDEA远程Debug项目中,针对日志不全,无法定位问题的情形,可以使用远程debug模式进行代码调试服务器配置打开tomcat bin 目录下的catalina.sh脚本在JAVA_OPT后加上 -Xdebug - Xrunjdwp:transport=dt_socket,address=8788,server=y,suspend=n重启tomcatIDEA配置在IDEA...

2020-01-08 15:25:45

Hadoop性能测试

向HDFS集群写10个128M文件hadoop jar /opt/module/hadoop-2-7-2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB测试读hadoop jar /opt/module/...

2019-12-29 19:52:56

Kafka原理概述

kafka消息队列的两种模式: 1.一对一模式,消费者主动拉取数据 2.订阅模式,生产者推送数据 kafka架构 producer->kafka cluster->consumer producer->Topic Apartition 0 producer->Topic A partition 1 集群的leader follower-消息备份...

2019-12-24 23:05:01

Hadoop知识筆記

1.集群规模每天日活100万,每人一天平均100条数据,每条日志1kb左右,半年内不扩容,保存3副本,预留20%-30%buffer,数仓分层2.框架版本选型apache大公司,运维麻烦,组件间兼容性需要自己调研CDH 用的多,中小公司用得多HDP开源3.服务器选型 1)物理机 2)云主机4.什么是shuffMap Reduce5.分区排序左侧写数据,右侧写索...

2019-12-24 22:50:16

Linux常用命令

Linux常用命令内存磁盘\IO网络运行\进程Shell 常用工具新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导...

2019-12-24 22:49:10

Kafka压力测试

kafka producer测试 官方自带脚本CPU内存网络IO一般都是网络IO达到 cd /kafaka/bin/kafka-producer-perf-test.sh --topic test --record-size 100 --num-records 100000 --throughput 1000说明: record-size一条多大,单位字节through...

2019-12-04 23:56:58

Kafka安装

安装 ​​​​下载kafka jar包 复制到/opt/software 删除flume jar包(减少空间占用) rm -rf apacche-flume-1.7.0-bin.tar.gz 解压 tar -zxvf kafka_2.11-0.11.0.2.tgz-C /opt/module 修改名称 cd module/ mv kafka_2.11-...

2019-12-04 23:28:41

zookeeer安装

安装 上传zookeeper包到 /opt/software目录下 解压安装 cd /opt/software tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module 配置 新建zkData目录 cd /opt/module/zookeeper-3-4-10 mkdir zkData 新建myid用于标识服务器ID tou...

2019-12-01 18:45:49

HDFS的多目录存储

命令查看磁盘存储df -h 在 hdf-site.xml文件中配置多目录 <property> <name>dfs.datanode.data.dir</name> <value>file:///${h...

2019-12-01 15:22:11

Hadoop安装--环境准备

集群规划步骤 克隆虚拟机 修改主机名Name=eth0 命令:vim /etc/udev/rule.d/70-persistant-net.rules 克隆虚拟机之后会生产新的MAC地址,复制Mac物理地址,我们需要更新配置 vim/etc/sysconfig/network-scripts/ifcf...

2019-12-01 14:26:25
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。