abothli-CSDN博客

原创 2020-12-25

一，MAC安装Homebrew####1, 安装homebrew 建议大家去Homebrew官网去安装，网上博客给出的连接，不安全，也不稳定，可能会导致Homebrew装偏（我就遇到了这个问题）Homebrew 官网检查ruby是否安装：ruby --versionruby 2.0.0p648 (2015-12-16 revision 53162) [universal.x86_64-darwin15]执行安装homebrew指令：/usr/bin/ruby -e "$(cu

2020-12-25 15:07:46 376

原创解决linux上git clone速度慢的问题

在国内，你们肯定发现使用git clone的速度实在太慢，git clone的速度可能会让你难以承受，现再次整理解决方法与大家分享，有图有真相。原因：git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。只要找到这个域名对应的ip地址，然后在hosts文件中加上ip–>域名的映射，刷新DNS缓存便可。1、查找域名对应的ip地址，并修改h...

2020-04-08 15:40:56 3076 4

原创 python进行数据分析处理的常用方法

用python进行数据分析处理时，常用到的两个库就是numpy和pandas，以下是些常用的数据处理方法。合并：使用一个或多个键，将多行数据连接在一起。执行合并操作的函数为merge()。import numpy as npimport pandas as pd frame=pd.DataFrame({'a':[1,2,3,4],'b':[2,3,4,5],'c':[6,7,...

2019-01-16 16:32:24 2426

原创 python进行数据可视化分析实例

数据可视化是将数据变成图表等形式，容易进一步分析数据之间的各种潜在信息和模式。 python数据可视化的常用工具是matplotlib库（另外的工具：IPython QtConsole、IPython Notebook）。一：matplotlib库架构 matplotlib库分为三层架构，从最上层到最底层分别是：Scripting、Artist、Backend。 Scrip...

2019-01-16 15:49:26 5879

原创 python爬虫实例

1、使用urllib.request模块实现爬虫import urllib.request url="http://www.2345.com"#请求该url，并返回页面数据data=urllib.request.urlopen(url)#将data数据读取出来html=data.read()print(html) #将网页放入一个文件file=open("F:/1.h...

2019-01-15 19:20:18 4279 1

原创 Kafka+Log4j实现日志集中管理

第一部分搭建Kafka环境安装Kafka下载：http://kafka.apache.org/downloads.htmltar zxf kafka-<VERSION>.tgzcd kafka-<VERSION>启动Zookeeper启动Zookeeper前需要配置一下config/zookeeper.properties：接下来启动Zoo...

2018-12-28 15:40:22 2095

原创 redis主从复制+sentinel集群

1.Redis主从介绍主从服务就是用户在主服务器写入数据后，从服务器在写一份数据，一般用在如下场景：1、辅助实现备份2、高可用（主从复制只是redis高可用的前提）3、异地容灾4、分摊负载redis主从特点介绍：1、redis使用异步复制，从服务器会以每秒一次的频率向主服务器报告复制流的处理进度2、一个主服务器可以有多个从服务器，从服务器也可以有自己的从服务器3、复制功能不会...

2018-12-28 15:34:00 595

原创 centos7搭建elk日志分析系统

ELK环境:Vagrant 1.8.1CentOS 7.2 192.168.0.228Elasticsearch 2.3.2logstash 2.2.4Kibana 4.4.2filebeat 1.2.2topbeat 1.2.2 ELK安装 CentOS7系统配置在开始安装elk之前，我们需要对CentOS7做一系列配置。CentOS7安装后默认没有安...

2018-12-28 15:23:11 2248

原创 mysql给用户授权

MySQL 赋予用户权限命令的简单格式可概括为：grant 权限 on 数据库对象 to 用户（授权后记得刷新权限：flush privileges;）一、grant 普通数据用户，查询、插入、更新、删除数据库中所有表数据的权利。grant select on testdb.* to common_user@'%'grant insert on testdb.* to common_...

2018-12-27 14:43:16 1620

原创 binlog的详细介绍

写在前面的话1、推荐用mixed，默认使用statement，基于上下文 set session/global binlog_format=mixed;2、二进制日记录了数据库执行更改的操作，如Insert，Update，Delete等。不包括Select等不影响数据库记录的操作3、MySQL记录的日志有三种模式：STATEMENT、ROW、MIXED4、二进制主要的功能有：复制...

2018-12-27 14:35:42 3667

原创实时抽取mysql的binlog日志到kafka的详细配置方法

完美使用canal实时抽取binlog日志到kafka的详细配置# 第一步数据库my.ini参数设置binlog_format=ROW# 第二步数据库赋权CREATE USER canal IDENTIFIED BY 'canal';GRANT SELECT, SHOW VIEW, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO ...

2018-12-21 15:11:37 4227

原创 canal配置文件参数解释

一、properties配置文件properties配置分为两部分：canal.properties (系统根配置文件) instance.properties (instance级别的配置文件，每个instance一份)canal.properties介绍： canal配置主要分为两部分定义：1. instance列表定义 (列出当前server上有多少个instance...

2018-12-18 17:30:56 5189

原创 Kafka 集群（用CM部署的）无法使用“--bootstrap-server”进行消费

使用--bootstrap-server参数无法消费Kafka种的数据1>.启动生产者kafka-console-producer --broker-list hadoop6:9092 --topic bbb2>.启动消费者拿不到数据kafka-console-consumer --bootstrap-server 192.144.170.156:9092 --topi...

2018-12-18 15:30:55 2316 2

原创实时抽取mysql数据工具之maxwell

利用Maxwell组件实时监听mysql的binlog日志，并且把解析的json格式数据发送到kafka窗口供实时消费文档主题：如何使用Maxwell实时监听Mysql的binlog日志，并且把解析的json格式数据发送到kafka窗口具体步骤一：在linux环境下安装部署好mysql1 开启binlogsudo vi /etc/my.cnf2 mysql的binlog格式...

2018-12-12 15:20:08 1456

原创 hbase报错以及解决方案

HBase启动出现问题报错一1.1错误org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterProcWALs/state-00000000000000000011.log could only be replicated to 0 nodes instead of minReplicati...

2018-12-12 03:22:58 4154

原创 CDH增加新的节点，扩容DataNode报错

可能出的错1 Hive还是Hue启动不起来, 提示ImportError: libxslt.so.1 ... 其实真正的错是缺少libxml2. 但是用yum install libxml2并不能解决的, 要用yum install libxml2-python2 Hue起不来还有一个可能是没有装libxslt, 请用yum install libxslt.x86_643 HDFS或...

2018-12-10 14:35:06 1123

原创 CDH增加新节点

新增一台机器步骤：设置所有集群的hosts一样，加入新增的机器 vim /etc/sysconfig/network 修改hostnmae为aaa hostname aaa cp cloudera-manager-el5-cm4.6.2_x86_64.tar.gz 到新增的机器上安装jdk环境，最好jdk版本统一，参考此处 ...

2018-12-07 15:59:41 3150

原创 CDH中hue配置hbase

直接访问地址https://blog.csdn.net/jmx_bigdata/article/details/83146864

2018-12-07 15:58:22 2360

原创 CDH集群yarn内存调优

原文地址：http://blog.selfup.cn/1631.html?utm_source=tuicool&utm_medium=referral 吐槽最近“闲”来无事，通过CM把vcores使用情况调出来看了一眼，发现不论集群中有多少个任务在跑，已分配的VCores始终不会超过120。而集群的可用Vcores是360（15台机器×24虚拟核）。这就相当于CPU资源...

2018-12-06 11:10:13 5558 1

原创离线备份hbase数据

1. Export/Import（导入导出）hdfs常用命令：http://www.cnblogs.com/gaopeng527/p/4314215.html1) 导出通过Export导出数据到目标集群的hdfs，再在目标集群执行import导入数据，Export支持指定开始时间和结束时间，因此可以做增量备份，Export工具参数如下：可见，在导出时可以指定versio...

2018-12-06 11:05:58 779

原创 canal实时抽取mysql数据发送到kafka

基本说明canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有:kafka: https://github.com/apache/kafka RocketMQ : https://github.com/apache/rocketmq 环境版本操作系统：CentOS release 6.6 (Fina...

2018-12-06 10:50:48 11916 5

原创 mysql优化

说明：根据调查发现以上服务器线程缓存thread_cache_size没有进行设置，或者设置过小,这个值表示可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存中,如果线程重新被请求，那么请求将从缓存中读取,如果缓存中是空的或者是新的请求，那么这个线程将被重新创建,如果有很多新的线程，增加这个值可以改善系统性能.通过比较 Connections 和 T...

2018-12-04 19:00:23 191 1

原创 Mysql 查看连接数,状态最大并发数

-- show variables like '%max_connections%'; 查看最大连接数set global max_connections=1000 重新设置 mysql> show status like 'Threads%';+-------------------+-------+| Variable_name | Value |+---...

2018-12-04 18:59:25 816

原创 canal报错com.alibaba.druid.sql.parser.ParserException: syntax error, error in :'XX') …

1 问题使用canal 1.0.25，启动canal服务端时或更新数据库数据时，canal服务端报错。报错如下：com.alibaba.druid.sql.parser.ParserException: syntax error, error in :'XX') …2 分析引起这个问题的原因是创建表的SQL语句中有“)”。根本原因是canal依赖的druid版本的问题。3 解决措...

2018-11-29 14:51:39 11954

原创 canal的搭建以及操作

一、环境介绍canal是阿里开源的中间件，主要用于同步mysql数据库变更。具体参见：https://github.com/alibaba/canal/releases搭建环境：vmware centos7 部署mysql和canalwindows开发canal client，自动捕获mysql数据库变更二、Centos安装Mysql1、尝试用yum安装mysqlwg...

2018-11-29 14:50:29 2940

原创实时抽取mysql的数据工具----canal（一）

1、准备：github:https://github.com/alibaba/canal里面有包括canal的文档，server端 client端的例子源码包等等。2、canal概述：canal是应阿里巴巴存在杭州和美国的双机房部署，存在跨机房同步的业务需求而提出的。早期，阿里巴巴B2B公司因为存在杭州和美国双机房部署，存在跨机房同步的业务需求。不过早期的数据库同步业务，主...

2018-11-29 14:47:49 2485

原创 hadoop所有版本的下载地址

Apache的hadoop下载地址地址：https://archive.apache.org/dist/hadoop/common/CDH的hadoop下载地址地址：http://archive.cloudera.com/cdh5/cdh/5/ 下载案例首先找到下载的地址，然后再后面加上.tar.gz就可以下载了CDH的下载工具都在http://archive.cloud...

2018-11-22 19:00:00 9527

原创解决hbase RegionServer频繁宕机的一些办法

HBase在使用中会遇到非常多的问题，最为常见的就是HBase regionserver挂掉（此文中简称regionserver为RS），而RS挂掉的原因各不相同。在本文中对遇到过的HBase RS挂掉的情况做一个简单的整理。HBase集群预留内存不足现象：HBase RS在起来1-2min后马上挂掉日志为如下日志段的重复：Mon Aug 6 10:23:54 CST 2018...

2018-11-21 15:30:49 4218

原创贝叶斯算法

从贝叶斯定理说开去简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯（Thomas Bayes）提出得重要概率论理论。以下摘一段 wikipedia 上的简介：所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有 N 个白球，M 个黑...

2018-11-15 13:07:55 261

原创 hbase调优总结

一、服务端调优 1、参数配置 1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMemory，因此该值不是越大越好。 2）、hbase.h...

2018-11-09 17:07:32 180

原创 cdh中在线安装及使用Phoenix

1.1：下载CDH 需要parcel包下载地址： http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/ CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcel CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3...

2018-11-09 10:56:10 1247

原创 flume报错flume java.lang.OutOfMemoryError: GC overhead limit exceeded

flumeJava内存溢出造成解决方案：vim /flume_app/apache-flume-1.6.0-bin/bin/flume-ng发现JAVA_OPTS="-Xmx20m" 把参数调大点就可以解决JAVA_OPTS="-Xmx2048m"

2018-11-08 13:36:48 879

原创 swap自动释放内存

#free -mh如上图，一般情况下不会用到swap的，一般物理内存使用在90%以上(默认是这个数，可以自行在/etc/sysctl.conf里设置vm.swappiness参数)，但有的时候，内存会被缓存占用，导致系统开始使用swap空间，此时就需要清理下swap了这里先说下vm.swappiness参数，设置成vm.swappiness＝10：就是说当内存使用90%以上才会使用swap空间...

2018-11-02 17:18:20 2480

原创 yarn资源调度参数配置（内存，cpu）

Hadoop YARN同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceMan...

2018-10-25 11:05:11 1376

原创 kafka manger最方便的安装教程,与cdh中的kafka绝配

一、kafka-manager 功能简介1.管理多个kafka集群2.便捷的检查kafka集群状态(topics,brokers,备份分布情况,分区分布情况)3.选择你要运行的副本4.基于当前分区状况进行5.可以选择topic配置并创建topic(0.8.1.1和0.8.2的配置不同)6.删除topic(只支持0.8.2以上的版本并且要在broker配置中设置delete.topi...

2018-10-23 19:45:44 261

原创 mysql快速备份脚本

mysqldump常用于MySQL数据库逻辑备份。 1、各种用法说明 A. 最简单的用法：mysqldump -uroot -pPassword [database name] > [dump file] 上述命令将指定数据库备份到某dump文件（转储文件）中，比如：mysqldump -uroot -p123 test > te...

2018-10-18 11:50:38 2740

原创 mysql误删数据后快速回滚

binlog2sql快速回滚首先，确认你的MySQL server开启了binlog，设置了以下参数:[mysqld]server-id = 1log_bin = /var/log/mysql/mysql-bin.logmax_binlog_size = 1000Mbinlog-format = row如果没有开启binlog，也没有预先生成回滚SQL，那真的无法快速回滚了。...

2018-10-18 11:49:17 11463 1

原创 centos7安装mariadb

1、安装MariaDB安装命令yum -y install mariadb mariadb-server安装完成MariaDB，首先启动MariaDBsystemctl start mariadb设置开机启动systemctl enable mariadb接下来进行MariaDB的相关简单配置mysql_secure_installation首先是设置密...

2018-10-18 11:46:56 143

原创 cdh集群中添加新主机

1、新加机器环境配置首先得在新的主机环境中安装JDK，关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python。2、上传cloudera-manager文件到/opt目录，修改agent配置文件：vi /opt/cm-5.7.0/etc/cloudera-scm-agent/config.iniserver...

2018-10-17 17:30:40 7759 3

原创如何备份mysql数据

MySQL备份数据的方式在MySQl中我们备份数据一般有几种方式热备份温备份冷备份热备份指的是当数据库进行备份时, 数据库的读写操作均不是受影响温备份指的是当数据库进行备份时, 数据库的读操作可以执行, 但是不能执行写操作冷备份指的是当数据库进行备份时, 数据库不能进行读写操作, 即数据库要下线 MySQL中进行不同方式的备份还要考虑存储...

2018-10-16 17:19:49 225

已经配好的canal包，解压即可完美使用

配置过得canal包，直接解压，稍微修改一下即可用

空空如也