2 留歌36

尚未进行身份认证

认真活着

等级
TA的排名 2w+

工作中常用的SQL

一个Case引入:可以尝试写一写原始数据表是长这么一个样子:得到结果:几种SQL:select SUBSTR(title,2,LENGTH(title)-6) str,count(1) ct from t GROUP BY SUBSTR(title,2,LENGTH(title)-6)select substring_index(left(title, instr(titl...

2019-11-15 16:01:02

Kylin

public class KylinDemoApp { public static void main(String[] args) throws ClassNotFoundException, SQLException { // kylin Driver String KYLIN_DRIVER = "org.apache.kylin.jdbc.Driver...

2019-11-14 16:26:54

希望一个数据同步,包治百病

写在前面数据同步 是一个脏活,而且是个高风险的活大多数情况下,应用架构设计不好,引入什么新存储,引入什么DDD,治标不治本,都是扯淡。但万一灵验呢?这就是数据同步的需求基础。且看下面需求场景。应用场景业务数据发展到一定水平,需要将大部分冷热数据从熟悉的DB迁移到其他存储进行复杂查询和分析分库分表后,某些报表类查询无法工作,需要汇总到单库表进行操作分库分表有多个维度,需要拷...

2019-11-12 17:05:07

轻量级性能测试工具 wrk

在完成一个接口开发后,在交给测试工程师之前,经常也会想知道,自己写的这个接口的性能如何呢?吞吐量能达到多少?QPS(query-per-second 每秒处理完的请求数) 能达到多少呢?常用的性能测试工具,如 Apache ab, Apache JMeter (互联网公司用的较多),LoadRunner 等github: https://github.com/wg/wrkwhat is wr...

2019-11-08 11:36:38

初探数据平台

1.Yarn 上面有哪几种资源调度策略?并且如何配置?Hadoop规模来看计算资源管理1)Yarn 动态资源2)Spark on Yarn 静态资源调度 动态资源调度Spark 作业一般跑在集群资源好的机器上,一般好的集群会打标签进行区分:例如spark001 hadoop001机器名3)Spark Job 每次触发一个Action 会产启动一个Job运行。 如果跑几次失败,...

2019-10-29 21:46:51

死磕Zeppelin~01 【编译安装】

1 Zeppelin 介绍基于 Web网页 进行 交互式的数据分析 的笔记本,有数据可视化功能。支持多种语言,比如SQL,Scala等等zeppelin —> 相当于一个paltform:可插拔式的安装各个环境、组件进行数据分析2 zeppelin主要模块:2.1.zeppelin-server:项目入口,通过Jetty 【web 服务器】内嵌的服务 提供的WebSocket和R...

2019-10-29 17:17:23

做好以下四点,拒做 “ 空心 ” 程序员

01、注重原理性知识现在的互联网环境下,注重原理性知识学习的程序员越来越少,特别是在这种培训机构大爆炸的环境下,在网上你会经常看到类似三个月从入门到精通高并发、分布式的广告,我相信培训机构有这套技术的能力,但是我不相信一个初学者有这么好的接收能力。甚至某个培训机构的讲师里,有一个1997年出生的架构师,20岁出头就当上了架构师,真的是后生可畏呀。在我的思维里,架构师不是学出来的,架构师是通过项目...

2019-10-20 23:15:41

基于Spark的电影推荐系统(推荐系统~7)

第四部分-推荐系统-实时推荐 本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影。说明几点1.数据来源是 testData 测试集的数据。这里面的用户,可能存在于训练集中,也可能是新用户。因此,这里要做处理。2. SparkStreaming + kakfa开始Coding步骤一:在streaming 包下,新建PopularMovies2pac...

2019-10-20 22:30:45

基于Spark的电影推荐系统(推荐系统~6)

第四部分-推荐系统-实时推荐之实时数据加工 把测试集(30%总数据)的数据 ,怼到 Kafka 消息队列里前置准备Kafka系列一之架构介绍和安装Kafka系列三之单节点多Broker部署启动Kafka[root@hadoop001 ~]# nohup kafka-server-start.sh $KAFKA_HOME/config/server-1.properties &am...

2019-10-20 21:58:37

基于Spark的电影推荐系统(推荐系统~5)

第四部分-推荐系统-离线推荐 本模块基于第4节得到的模型,开始为用户做离线推荐,推荐用户最有可能喜爱的5部电影。说明几点1.主要分为两个模块。其一是为 单个随机用户 做推荐,其二是为 所有用户做推荐,并将推荐结果进行保存2. 其中所有推荐的结果保存在 MySQL中,HBase,Hive中 <三种版本>。3. 其中取得的userid一定要存在于模型中, 这样就建议直接从tr...

2019-10-20 21:12:48

基于Spark的电影推荐系统(推荐系统~4)

第四部分-推荐系统-模型训练 本模块基于第3节 数据加工得到的训练集和测试集数据 做模型训练,最后得到一系列的模型,进而做 预测。训练多个模型,取其中最好,即取RMSE(均方根误差)值最小的模型说明几点1.ALS 算法不需要自己实现,Spark MLlib 已经实现好了,可以自己 跟源码学习花时间钻研,动手写,写代码 翻译论文 写博客 多下功夫2. 最新http://spark.a...

2019-10-20 20:30:59

基于Spark的电影推荐系统(推荐系统~3)

第四部分-推荐系统-3 本模块基于第2节加载到 数据仓库 里的数据做进一步的加工,加工后的数据主要用于 模型训练 。前置准备:本节我采用Spark on Yarn 来跑作业拓展:Hadoop YARN中内存的设置(1)yarn.scheduler.minimum-allocation-mb单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,...

2019-10-20 19:49:48

基于Spark的电影推荐系统(推荐系统~2)

第四部分-推荐系统-2 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去r前置准备:spark +hivevim $SPARK_HOME/conf/hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>...

2019-10-20 19:00:54

基于Spark的电影推荐系统(推荐系统~1)

第四部分-推荐系统-1行业背景:快速:ApacheSpark以内存计算为核心通用:一站式解决各个问题,ADHOCSQL查询,流计算,数据挖掘,图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速“猜你喜欢”为代表的推荐系统,从吃穿住行等项目背景介绍:本项目是一个基于ApacheSpark的电影推荐系统,技术路线:离线推荐+实时推荐...

2019-10-20 18:32:04

4小时使用SpringCloud框架实现慕课网主页后端开发 【视频笔记+心得 】

写在前面本文主要是在慕课上学习课程的笔记和一些自己的心得。虽然是4h的课程,但是自己花费了10多个小时。基本把视频刷了2遍。老师讲得确实还可以,如果你时间充裕,建议你先去看视频,再来看本文,可能效果更好。有任何问题欢迎留言交流~~开始吧...

2019-09-29 12:03:20

Kafka系列三之单节点多Broker部署

写在前面很早之前写过单节点单Broker部署,今天有空来简单快速记录一下多Broker的部署方式。其实基本也是差不多的操作。单节点单Broker部署及部署:仅有一台机器仅有一个kafka进程单节点多Broker部署及部署:仅有一台机器有多个kafka进程 √本文那么,当然还有多节点多Broker啦…假设建立三个Kafka ,即启动三个进程cp server...

2019-09-29 11:37:19

Debezium SQL Server Source Connector+Kafka+Spark+MySQL 实时数据处理

写在前面前段时间在实时获取SQLServer数据库变化时候,整个过程可谓是坎坷。然后就想在这里记录一下。在处理实时数据时,需要即时地获得数据库表中数据的变化,然后将数据变化发送到Kafka中。这篇文章将介绍如何使用Kafka Connector完成这一工作。...

2019-09-28 18:29:32

Caused by: org.apache.kudu.client.NoLeaderFoundException

写在前面在我使用spark对接kudu的过程中,出现如下错误:Caused by: org.apache.kudu.client.NoLeaderFoundException: Master config (192.168.1.117:7051) has no leader.Exceptions received: org.apache.kudu.client.RecoverableExce...

2019-09-25 16:59:19

MySQL binlog浅析

MySQL binlog1.概要MySQL 的二进制日志binlog 可以说是MySQL最重要的日志它记录了所有的DDL 和DML 语句(除了select)以事件的形式记录 还包含语句所执行所消耗的时间其中MySQL 的二进制日志是事务安全的DDL ,主要有CREATE ALTER DROP 等DML , 主要是用在定义或 改变表 的结构,数据类型 表之间的链接和约束等初始化工作上...

2019-09-25 16:29:49

Kudu单机安装 【很简单】

0.下载rpm包地址:http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.15.0/RPMS/x86_64package:kudu-1.7.0+cdh5.15.0+0-1.cdh5.15.0.p0.52.el7.x86_64.rpm kudu-client-devel-1.7.0+cdh5.15.0+0-1.cdh5.15.0.p...

2019-09-25 14:25:00

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。