自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

flye的专栏

分享是最大的复用

  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 分享构建属于自己的数字图书馆历程

起初为了方便获取书籍资源和方便的云同步,笔者选择了在用户体验和出版物数量上首屈一指的微信读书 APP,本人也贡献了至少5年的年费。但随着学习的深入,微信读书内的书籍逐渐无法满足我的阅读需要(尤其是外文图书的缺失),更致命的是,微信读书会在部分书籍的版权到期后选择下架书籍,就算已下载到设备里的书,也会随之消失,包括所有的批注和笔记。本文将为读者分享笔者最近半年来为实现阅读自由而构建的解决方案,希望能帮助书友们构建自己的数字图书馆。

2023-09-30 20:25:26 1420

原创 家庭网络结构图

花了一个月时间,购置小主机,nas,笔记本,家庭网络架构图出炉,欢迎评测。

2023-03-29 18:06:30 225 1

原创 采集日志到hdfs的替代方案

大数据的采集日志到hdfs,然后通过mr写入hive ods表,一般都是企业数据采集的必经之路。大数据技术架构图_冰帆

2023-03-28 09:36:26 474

原创 继续深挖挖矿病毒solr中毒途径

今天突然通过grafana 集群的网卡流量异常,查看hadoop集群有dr.who用户执行yarn 任务。

2023-02-23 11:37:28 423

原创 清除挖矿病毒solr记录

solr病毒cpu占用100%,导致node节点挂掉,正常情况下,一般node节点不会挂掉,进入节点,发现果然node挂掉。

2023-02-20 10:17:55 1209

原创 superset安装使用说明-续

superset安装使用说明_冰帆

2023-01-14 00:32:18 1409

原创 hivesql失败告警发送到企业微信

离线数仓一般情况下都是通过写hive sql方式,利用调度系统再hive sql脚本,进行数仓分层,而调度系统是针对任务粒度的,而且一般都不支持发送到企业微信,针对这一痛点,本文利用hivehook 监听hive sql,将hive sql 的错误信息发送到kafka,另外python 程序实时kafka的数据,并发送到企业微信。流程图如下:Hook是一种在处理过程中拦截事件,消息或函数调用的机制。Hive hooks是绑定到了Hive内部的工作机制,提供了使用hive扩展和集成外部功能的能力。

2022-12-21 18:08:19 257

原创 使用clickhouse kafka表引擎消费kafka写入clickhouse

本文使用seatunnel 消费kafka数据写入clickhouse文章的kafka topic,用另一种方式写入clickhouse,也是练习下clickhouse kafka引擎。本文也默认已安装了kafka与clickhouse,这方面的安装文档很多,这里不做详述;前提准备 kafka :2.7.0;通过filebeat 写入kafka一、kafka数据格式使用kafka 命令查看数据格式:{},},},},"ecs": {},"host": {},"log": {

2022-12-15 17:50:47 2231

原创 Hbase RegionServer 挂掉自动重启

一、实现原理二、实现步骤1、python脚本2、代码解读 3、加入调度3.1、crontab定义3.2、重启crontab:总结前言hbase生产环境与hadoop集群共用资源,当hadoop资源cpu,带宽,内存占用较多,可能会导致regionserver挂掉,regionserver如果挂掉超过集群regionserver总个数的一半以上,那么集群就会出问题,所以迫切的需要regionserver挂掉自动恢复机制。 通过hbase的60010页面,查看hbase节点状态情况,

2022-12-07 12:31:37 1347

原创 grafana+prometheus监控tomcat项目

公司的web项目,有几个经常出现内存溢出宕机,正好搭建了prometheus和grafana,借助prometheus 插件实时监控tomcat内存情况,超过阈值告警发送到企业微信,实现自动化了解项目情况。

2022-11-24 11:25:18 1219 2

原创 获取全国统计用区划代码和城乡划分代码并写入数据库

2)如果中途失败,从mysql中读取上次写入最后一条记录处,继续开始。2、抓取过程中会经常连接失败导致。1)从第一级开始,依次抓取直到第五级,依次往复迭代,直接完成。3、失败后无法从失败处继续。看到2021年已经更新,正好拿原来的代码看看是否还能跑。3)防止多次连接导致,服务器判断为爬虫,ip禁用。那为了能顺利完成任务,需要对原有代码进行改造优化。若有需要完整代码或者mysql 导入脚本,请私我。代码测试:1、网站由原来的gbk转换为utf-8。4、python 核心代码。2、mysql 表结构。

2022-11-23 22:14:59 1282 8

原创 hadoop集群搭建教程

6台主机规划hadoop集群,安装hadoop,yarn,hbase,hue等,详细步骤,敬请审阅。

2022-11-23 17:57:56 2343

原创 监控RocketMQ消费数据延迟告警发送企业微信

当前安装的rocketMQ 版本:3.4.6架构:2主2从阿里云主机安装RocketMQ 集群支持外网访问本文结合实际业务场景介绍了监控rocketmq消费者组消息堆积,将RocketMQ消费者组消费数据写入mysql,并向企业微信发送告警,作为抛砖引玉,大家可以结合自己场景,修改脚本做其他业务的监控。若有疑问,可以留言咨询。

2022-10-24 18:03:57 1228

原创 采集日志通过logstash写入hdfs

本文是大数据架构技术架构图的一个重要分支,大数据的采集服务一般通过web接口的上报方式,web接口,1、写到kafka,2、通过log4j日志文件,两种方案各有优劣,1、直接写kafka,项目依赖比较重,需要加kafka组件,2、写log4j日志的方式,不需要引入kafka组件,实际项目中通过log4j配置每小时滚动生成日志比较多,我是目前采用方案2,实际如下图。

2022-10-24 17:08:35 759 2

原创 superset安装使用说明

Apache Superset是一款由Python语言为主开发的开源时髦数据探索分析以及可视化的报表平台;她支持丰富的数据源,且拥有多姿多彩的可视化图表选择。官网 :https://superset.apache.org/国内支持的镜像站 :豆瓣:https://pypi.douban.com/simple/ 等开发语言:Python为主。

2022-10-24 14:59:31 1695

原创 阿里云主机安装RocketMQ 集群支持外网访问

背景:因公司迁移机房,需要在云主机上部署一套和本地一样的rocketMQ,原本计划直接购买云rocketMQ,云rocketMQ仅支持5.0.0,本地rocketMQ 是3.4.6,公司多个服务都使用本地的3.4.6版本的RocketMQ,所以需要再云上搭建一套简易版RocketMQ集群,并支持外网访问。准备:两台开通外网的云主机,带宽100M,16G内存,500G硬盘,两台成本1000+设置主机名,安装jdk,配置免密等等,前期的准备工作。因为是只有两台,所以规划是2m-noslave。

2022-10-20 11:42:51 891

原创 grafana+prometheus监控hbase

链接:https://pan.baidu.com/s/1B2PWimrpCQ9MqOedPvXdaA?3、在grafana import hbase dashboard id:12722。在启动prometheus需要添加--web.enable-lifecycle。将文件放到Hbase 安装目录的conf 和lib下。具体有需要了解hbase其他配置的可以留言。2、prometheus添加hbase配置。1、准备工作hbase 1.2.0。即完成hbase的监控界面。

2022-10-20 11:06:07 874

原创 grafana监控nginx日志

用到组件:nginx ,filebeat,logstash,elasticsearch,grafana。需要注意的是最新的dashboard需要选择7.10+的elasticsearch,保存数据源后。2、filebeat 将nginx日志发往logstash,编辑filebeat.yml。本人喜欢研究新技术,并有丰富的大数据经验,希望和各位小伙伴探讨技术。看图还是比较炫酷的,那怎么才能够展示这样的大屏,咱们一步一步拆解。4、在kibana中查看elasticsearch数据。1、nginx代理设置。

2022-10-20 10:21:01 3252 3

原创 hadoop 新增数据节点,hbase 新增regionserver 步骤

hadoop新增节点datanode,hbase 新增regionserver步骤

2022-07-01 00:25:04 902

原创 大数据技术架构图

大数据技术架构图

2022-06-29 22:54:25 673

原创 按日期时间段补数命令

按日期时间段补数命令

2022-06-29 22:31:33 169

原创 xsync:集群批量同步文件命令

xsync:集群批量同步文件命令

2022-06-29 22:12:48 138

原创 shell 批量在远端主机上执行命令

shell 批量在远端主机上执行命令

2022-06-29 22:05:17 513

原创 hbase修复表不能读写的问题

hbase表修复

2022-06-29 21:54:56 518

原创 hbase regionserver节点下线

hbase 下架regionserver步骤

2022-06-29 20:56:05 924

原创 datax 离线同步SqlServer 到Mysql

DataX 实战 sqlserver to mysql

2022-06-27 23:34:37 1768

原创 seatunnel 消费kafka数据写入clickhouse

seatunnel 消费kafka 数据写入clickhouse

2022-06-27 22:57:53 2307

原创 awk 统计nginx 日志 pv uv

awk 统计nginx 日志pv uv

2022-06-27 22:18:37 1096

转载 java Gof 23种设计模式 -资料整理

以下是学习过程中查询的资料,别人总结的资料,比较容易理解(站在各位巨人的肩膀上,望博主勿究)创建型抽象工厂模式http://www.cnblogs.com/java-my-life/archive/2012/03/28/2418836.html工厂方法http://www.cnblogs.com/java-my-life/archive/2012/03/25/2416227.html...

2019-06-05 11:24:34 88

2018年全国统计用区划代码和城乡划分代码.sql

2018年全国统计用区划代码和城乡划分代码(国家统计局),有需要可以下载, 第一次发帖,多多支持,也可私信联系我, 另外python代码已放github: https://github.com/dawn2004cn/baidu_mp3_to_srt; 欢迎git:chinese_city.py。

2020-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除