zfszhangyuan-CSDN博客

原创 Storm编程之wordcount（kafka--》Jstorm--》redis）

本文是笔者这周闲来无事做的一个小小的尝试。设计的软件比较多，大家可以一一在本机安装一下，我的电脑是mac pro，基本安装起来和Linux基本一致，比较简单基本都是下载解压包拷贝到安装目录重命名然后启动服务需要安装的基本有 JDK1.7，IDEA，kafka，Jstorm，redis都是单机下面直接给出项目的pom.xml配置信息：<project xmlns="http:

2016-12-06 16:08:57 3187 2

原创 scala实战之SparkSQL应用实例（单表count和groupby多来源表join等）

前面几篇博客说了如何读取mysql数据库中的表到DataFrame中以及如何将结果写入到mysql中今天这个实例主要实现应用sparksql完成用户日志数据的提取并转换成DataFrame（我们将其定义为表 user）另外我们要从mysql数据库中load一个用户配置表（这里定义为userinfo）我们将这两个表根据imei号进行join获得用户完整的信息数据具体的环境见http://bl

2016-09-29 15:45:22 10910 3

原创 scala实战之spark源码修改（能够将DataFrame按字段增量写入mysql数据表）

在上一篇博文中，我们可以简单的应用官网的给出的一些接口提取mysql数据表中的数据到spark中，也可以将spark的运行结果存入mysql中。但是我们会发现spark将其DF存入mysql的时候，无论你选择什么模式：jdbcDF.write.mode(SaveMode.Overwrite).jdbc(url,"zfs_test",prop)jdbcDF.write.mode(SaveMode.Append).jdbc(url,"zbh_test",prop)结果都是会重建这个表。这样一来这个表之

2016-09-23 11:26:31 7634 2

原创 mysql动态执行sql

这边重点代码是：set f_sql=CONCAT('rename table cw_computer_resulttest to cw_computer_result',f_last,';');set @ms=f_sql; PREPARE stmt1 FROM @ms;EXECUTE stmt1;DEALLOCATE PREPARE stmt1 ;其中@ms是系统变量，不用declar

2017-01-24 15:53:15 858

原创 hive表级权限配置以及运行调试

环境：我们已经安装了Hadoop集群，hive，hue 以及命令行工具Beelinehue：主要是对hive数据仓库的一个可视化操作客户端，我们可以用hue对hive库添加管理员用户账号。Beeline：HiveServer2提供了一个新的命令行工具Beeline，它是基于SQLLine CLI的JDBC客户端。关于SQLLine的的知识，可以参考这个网站：http://sqll

2017-01-11 10:11:12 8018

原创 kafka单机重启topic丢失问题排查

这个问题，在线上集群环境一般不容易出现，因为相关的日志文件参数都已经配置好了，而且经受住时间的的验证了。作为新手，我在本地配置了一个单机kafka，用得是kafka自带的zookeeper服务。kafka安装很简单如下：1).下载kafka:wget http://apache.fayea.com/kafka/0.10.1.0/kafka_2.10-0.10.1.0.tgz

2016-11-29 11:11:10 10612 1

原创 mac上Jstorm单机安装实操

由于我的电脑是mac pro，想在本地安装一个阿里Jstorm玩玩，发现在Linux上的安装教程很多，但是mac上的能完整安装成功的没有。虽然mac的内核也是linux但是还是有一定的差别，导致我们要安装很多的工具型程序下面让我们开始吧首先去官网参考一下官网给的安装路数：https://github.com/alibaba/jstorm/wiki/如何安装1.python没有的安

2016-11-24 10:31:50 2809

原创 solr+mysql数据同步配置

这两天在网上连续踩了N个坑，使我坚定一定要把这个简单但容易出错的配置一步一步的记录下来。上一篇博文中我已经完成了数据如何从mysql中导入到solr。基本要添加修改的文件是自定义core下面conf中：schema.xml db-data-config.xml solrconfig.xml今天在这基础上做同步其实一样主要修改两个文件：schema.xml db-data-config

2016-11-03 14:12:02 9571 2

原创 solr的在mac上的安装配置以及同步mysql数据

首先下载solr：本文用的是5.5.3版本http://apache.fayea.com/lucene/solr/5.5.3/solr-5.5.3.tgz下载完解压solr-5.5.3.tgz拷贝到你的安装目录我是放到/Users/mac/Library/下重命名为solr mv solr-5.5.3.tgz /Users/mac/Library/solr进入bin目录 c

2016-11-01 16:06:06 5434

原创 mysql知识备忘（建表、存储过程、初次安装启动）

建表模板：Mysql临时表当你创建临时表的时候，你可以使用temporary关键字。如：create temporary table tmp_table(name varchar(10) not null,passwd char(6) not null)‘mysql 存储过程,函数，触发器备份：mysqldump -uroot -pHb118114 -P33

2016-09-26 11:18:02 2716

原创 scala实战之spark读取mysql数据表并存放到mysql库中编程实例

今天简单讲解一下应用spark1.5.2相关读取mysql数据到DataFrame的接口以及将DF数据存放到mysql中接口实现实例。通过这段代码可以实现从mysql关系型数据库中直接读取数据转化成DataFrame参与到sparksql的分析当中这个意义是非常重大的，因为我们日常应用sparksql进行数据分析时经常会用到一些配置表，而这些配置定义表都是存在关系型数据库中，所以以后不用担心了。另外这里还实现了DataFrame结果回写到mysql数据库中，虽然官方的spark源码的写入有些奇葩，设定的

2016-09-20 11:05:19 17881 1

原创 mac pro 安装mysql并且配置my.cnf(添加默认字符集utf8，数据存放路径，修改已经建好的表的默认字符集等)

mac pro 安装mysql并且配置my.cnf(添加默认字符集utf8，数据存放路径等)并且对相关问题的解决方案。

2016-09-19 19:10:54 22150 2

原创 spark入门知识讲解和基础数据操作编程（统一用scala编程实例）

在我的上一篇博文中：http://blog.csdn.net/zfszhangyuan/article/details/52538108 讲如何应用scala编程完成用户的在线时长和登录次数在spark上的求解方式。讲到这里有同学可能对编程完后如何将程序放到线上spark集群上运行以及如何理解spark框架在大数据架构体系中的位置及其基本原理有所疑问。

2016-09-16 15:23:03 3967

原创 scala实战之spark用户在线时长和登录次数统计实例

接触spark后就开始学习scala语言了，因为有一点python和java的基础学习起来还行，今天在这里把我工作中应用scala编程统计分析用户行为日志的实例和大家分析一下，我这里主要讲一下用户的在线时长统计和登录次数统计算法实现过程。

2016-09-14 15:05:20 13305 2

原创 hadoop之mapreduce编程实例（系统日志初步清洗过滤处理）

刚刚开始接触hadoop的时候，总觉得必须要先安装hadoop集群才能开始学习MR编程，其实并不用这样，当然如果你有条件有机器那最好是自己安装配置一个hadoop集群，这样你会更容易理解其工作原理。我们今天就是要给大家演示如何不用安装hadoop直接调试编程MapReduce函数。

2016-09-13 15:41:22 10802 3

原创 sparkstreaming之实时数据流计算实例

最近在用sparkstreaming的技术来实现公司实时号码热度排序，学习了一下sparkstreaming的相关技术，今天主要要讲一个简单sparkstreaming实时数据流技术的一个实例，帮助大家更好的理解和学习sparkstreaming编程原理。

2016-09-13 09:24:56 19782

原创 hadoop的发展和介绍

今天整好有这个时间，我就整理整理一下hadoop相关的资料，想初步简略的谈一下hadoop的发展史和应用情况。说到hadoop不得不说一下大数据。什么是大数据？网上搜了一圈基本都是说数据量大，有价值的数据就叫大数据，这么说也不错，但是很抽象，很笼统，我总结了一下大数据最起码具备四个方面的特征：第一：体量大（volume）数据规模庞大，传统的数据库无法存储和计算，而且直接原因是非结构化的数据的超大规模增长。第二：多样性（variety）大数据的异构性和多样性，庞大体量的数据他们的存在是不同形式的（

2016-09-12 14:04:33 3783

原创 java多线程编程的两种方式

上一篇文章讲了多线程的同步但是发现好多同学对多线程的如何编程有点疑惑，今天根据网上的一些资料和方法来简单根据我之前的示例代码来演示一些，多线程编程实现的两种方法：1、定义类继承thread类并且重写其run方法，最好调用其run()方法运行。2、定义类实现Runnable接口，覆盖Runnable接口中的run()方法，通过thread类建立线程对象，然后调用start()方法运行run

2016-09-12 10:45:43 3094

原创 mysqldump备份成压缩包

可以直接应用mysqldump直接将mysql数据库中的表或者整个数据库备份成压缩格式的包

2016-09-12 10:05:45 8891

原创 java多线程同步编程

学习java有一段时间了，一直对java的多线程同步理解的不够深刻，今天将我学习的过程记录下来帮助大家一起来学习深刻理解java的多线程同步策略现实生活中多线程同步场景很多，比如说我的银行卡里面的money数是100，我自己正在银行存10元，而这时候我老婆正在超市用支付宝消费10，那么我的余额应该是不变对吧，但是如果没有做线程同步那么数字会发生变化，这是很危险的。我们先来见识一下多线程运行

2016-09-08 18:25:21 3329

原创 mysql备份之主从和主主

今天来讲一下mysql服务器的主从备份环境的搭建和配置（主主其实是主从演变而来，即两台机器互为主从关系：你配了从服务器同步主服务器的日志文件，同时也配置了主服务器同步从服务器的日志文件，这样就形成了主主，即你无论在那台机器操作相应的数据变化都会映射到另外一台机器上）

2016-09-08 08:56:15 4489

原创 mysql备份之mysqldump

我们知道mysql的容灾策略常见的有以下几种：1、设置mysql的主从备份，主服务器用于对外提供数据服务，从服务只用与同步主服务器的数据，当主服务器挂了，磁盘坏道或者故障，从服务器可以接替主服务器继续进行工作。（当然我们可以设置主主：即两台都可以做主服务器都可以写，同时备份各自的数据）2、利用mysql自带的工具mysqldump备份，你可以备份单个表，有选择的备份多个表，也可以备份全库，他的速度要比直接用navicat转载成sql文件要快很多，一般我的做法是每日备份核心表，每周备份全库3、开启mys

2016-09-07 15:17:54 4140

原创 java常用正则表达式模板

下面是我积累的最常用也说明的最清楚的java正则表达式的编写并给出了相关的表达式每一段这样写的注释，初学java正则的同学，一定能找到感觉和方向。在后面我附上了自己调试的正则匹配代码，大家可以参考学习一下

2016-09-06 16:50:19 5820

原创 flume-ng编程之自定义拦截器

学习flume以来，实现了日志的多来源自动抽取和多target的自动发送等，但是一直以来的数据清洗过程一直是放在hadoop中用MR程序定时进行清洗的，有没有一种方式编程能够直接在flume中来进行相关的数据清洗数据匹配，过滤掉那些不规范的脏数据，于是决定打这个flume拦截器的主义，觉得只要把代码稍微改改，从拦截body开始自定义intercepter编程完成每个body字符串的解析字段的正则提

2016-09-06 13:16:36 12324 1

zfszhangyuan的博客