自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我想静静

坚持是一种美德

  • 博客(78)
  • 资源 (2)
  • 收藏
  • 关注

原创 大模型chatgpt4分析功能初探

本是使用chatgpt4高级数据分析功能,对数据进行深度挖掘

2023-09-22 17:49:00 633

原创 如何设计基于小程序点击事件的爆款数据分析产品?

背景如何设计一个事件分析套件,可以进行基于事件的多维度分析,同时满足分析时圈人,并能够查看该人群的用户画像?然后分析了这套设计方案,底层需要什么样产品能力。设计思路感想能力提炼事件定义和管理能力指标定义和管理能力用户属性定义和管理能力维度定义和管理能力标签管理能力用户分群能力近似、精确计算能力支持多条件交叉并补筛选能力指标多维分析能力人群画像分析预置模版能力图形能力柱状图趋势堆积图趋势图交叉表饼图当前解决方案的效果问题可以选择的图表太少;没有强大图

2020-12-30 15:00:09 191

原创 数据分析流程分解~MAU空间探查分析 多角色协同图

致广大而尽精微,极高明而道中庸本文目的现在人人都在喊数字化,在企业数字化过程,需要分析一下本企业的线上线下的用户MAU的空间,很多同学认为实现这个是很简单的事情,但是真的是一个很简单的事情吗?这里面会涉及到哪些人和事?完成这项任务需要什么样的能力?本文先使用一张多角色的工作流程图,看一下完成一个企业的MAU空间分析,需要设计到哪里角色?当前的工作模式存在什么问题?现实很骨感,理想很丰满,只有对现实中的数据分析每个一个节点有令人发指的了解,才能知道怎么样去优化流程,怎么样去解决问题。这个图里面蕴含着大智

2020-12-28 10:58:34 323

原创 产品成长之路~ 产品的视角 读书笔记

《产品的视角》 读书笔记关于本书插入「表格」书名《产品的视角》作者后显慧读书的目的理解产品经理的思维模型和关键能力;制定计划逐步去学习这些能力;内容简介读书笔记至少为了自己安心读书,提高专注度。不求多,但求闻道、修身;RAC模型:认识产品-Recognize、还原产品-Analysis、创造产品-Creative.第五章 一年级产品经理:执行力驱动、产品感培养对入门的产品经理来说,执行力是最关键的,不要急于贡献自己的创造力和才华;解决问题、而不是制造

2020-12-09 09:30:09 353

原创 我理解的人生公式,复利效应和稻盛和夫公式结合

- 数学公司是一个思考工具,表达工具,而不是计算工具,我如何看待数学,如何去表达这个世界?如果看到这个世界的本质,其实数学是一种很好的表达方式; - 我一直认为数据是描述这个世界的工具,其实是思考工具,我们要使用这个方式去描述这个世界;正态分布是我们要去描述这个世界原始的分布,比如升高,28原则后面的本质是智慧,y=智慧,x=人,满足正态分布,智慧上侧代表是财富。所以我的理解是: - ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020...

2020-12-07 10:43:15 651

原创 2020读书笔记 之《好好学习》

《好好学习》 读书笔记关于本书插入「表格」书名《好好学习》作者陈甲书名《学习之道》作者芭芭拉*奥克利书名《穷查理宝典》作者查理*芒格读书的目的我最近看了很多提升认知方法的书籍,希望构建自己的读书方法论,从而可以构建自己认知方法论,在提升自己生命形成一套方法论;我想看看别人是怎么样去学习的,为什么我总是看不完一本书,或者我就是人家说的,“道理懂得很多,生活过的却很惨淡”;内容简介读书笔记至少为了自己安心读书,提高专注度。不求多,但求闻道、修身

2020-12-07 09:38:46 690

原创 什么是数据分析?数据分析概念如何推演?

什么是数据分析?如果从概念去推演什么是数据分析,数据分析的本质是什么?1.推演目的迷迷糊糊,每天都在做这件事,而没有去思考这件事件背后的定义和本质,走了很远的路,忘记了当初为什么出发,自己已经习惯性往前冲,忘记了为何而冲,为何而生,呜呼哀哉;生活如此,工作亦如此;不掌握分析本质,怎么样努力业务也是徒劳,原来人家指定的路,开始是一条阳光大道,但是慢慢经过演变,已经变成了崎岖野径;自己不知晓;2.推演结论数据有可能没有真实反应事物包含的信息,要批判性选择和相信数据;数据分析的前置条件是需要有

2020-12-03 09:38:19 1401

原创 增强分析之美

AI在分析领域的成功关键是什么?增强分析- 是这样一种方法,它结合了机器智能和人类感性经验去加速洞察,去挖掘新的或者没有预期到的发现,驱动任何角色和技术水平的用户都能够拥有数据探查能力。 强调了人工智能和人类的互动、视角结合才能才能获取价值。 具体的文档如下:右上角的这个跟形象: 参考:《How to Get Real Value from AI in Analytics》---qlik...

2020-05-22 11:41:46 236

原创 Flink SQL分析流量数据源码实战(EventTime)

package productimport java.sql.Timestampimport java.util.Propertiesimport Bean.RealTimeTrackerBeanimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.str...

2018-11-30 16:42:09 1911

原创 Python采集Yarn Queue信息

      本文通过python代码调用Yarn restfull API ,将各队列的vcore和memory定时采集存储到TIDB,然后使用Apache Zeppelin JDBC读取数据,简单绘制vcore和memory使用率的趋势图。可以观察集群vcore和memory的分配情况,防止其中一项成为集群或者队列的性能瓶颈。一、python代码: import jsonimpo...

2018-11-20 19:47:15 1993

原创 使用Spark mlib Kmean算法分析网络数据(Hacker attack)

 package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, S...

2018-08-21 09:47:23 882

原创 使用Spark Mlib K-Means算法分析网络攻击数据

package apache.spark.mlib.rdd.kmeanclusteringimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{StandardScaler, VectorAssembler}import org.apache.spark.sql.{Row, Spar...

2018-08-20 21:58:42 723

原创 给老板减刑系列之hadoop 安全缺陷分析之一:kerberos 的缺陷

最近看了Steve Loughran先生写的本书《Hadoop and Kerberos: The Madness Beyond the Gate》,幽默的写作风格幽默风趣,但是国内对大数据平台的安全考虑的文章的确较少,本系列文章主要是分析Hadoop安全现状和源码,个人能力有限,麻烦各位大神及时斧正。

2017-06-18 19:52:07 2958 3

原创 HDFS encryption 实战之背景和架构介绍

KMS背景在全世界,为零满足隐私和其他安全需求,很多政府部门、金融部门和管理单位强制要求数据加密。本文主要介绍了HDFS、KMS的概念和架构。

2017-04-12 14:18:59 2531

原创 CDH5.7.1 Hadoop2.6 HDFS Encryption KMS 实战之功能测试

hdfs、kms、hadoop、CDH

2017-04-11 16:41:53 2765

原创 HBase region is not online 问题修复

一年多没有搞HBase了,回想前年和营神一起的日子,~~~。今天同事遇到下面一个问题:hbase(main):002:0> get 'mynamespace:user_basic_info','BAC3510A922CF026500874EA3975E123'COLUMN CELL ERROR: org.apache.hadoop.hbase.NotServingRegionException:

2017-04-06 11:18:03 16640 3

原创 spark2.1.0 on yarn with CDH5.8.0 安装实战

Spark 版本发布很快,CDH集成最新Spark版本需要一定时间,并且CDH 集成的Spark版本不支持Spark-sql。本文档的目的在目前cdh平台集成最新spark,方便测试和使用最新功能。

2017-03-30 17:36:53 5592

原创 Docker 安装 TensorFlow GPU 实战

安装背景AI如雨后春笋般的出现,DEVOPS的理论不断深入。所有高大上的开源产品都支持两个环境:docker 和Linux。本文主要讲解怎么在一台安装了GPU的centos7 环境安装tensorflow docker镜像。国内就几个大厂的同学可以享受这种高级环境待遇,如果您有该环境建议尝试起来吧,毕竟AI可以让我们多一项skill。安装nvidia-dockernvidia 对docker进行了一

2017-03-27 11:55:01 24744 2

原创 CDH Gateway docker实战

将CDH gateway 安装到docker里面。

2017-01-24 11:45:13 4000 1

原创 Spark 1.6.3 thriftServer 支持 ldap 配置

hive-site.xml配置[idc_xudalei1@CDNDC-213128087 conf]$ cat hive-site.xml <?xml version="1.0" encoding="UTF-8"?><!--Autogenerated by Cloudera Manager--><configuration> <property> <name>hive.metas

2016-11-11 10:48:41 2097

原创 centos7+kvm + bond + bridge 搭建方法

centos7+kvm + bond + bridge 搭建方法

2016-08-27 23:39:44 5824

原创 Spark 1.5.2 on yarn升级问题总结

Spark 1.4.0 standlone升级到Spark 1.5.2 on yarn问题总结

2016-04-15 15:33:39 5615

原创 Spark aggregator ExternalIterator 流程图

Spark aggregator ExternalIterator 流程图

2015-11-26 19:31:29 775

原创 Spark standlone driver on cluster 用户权限问题

Spark standlone 模式下面driver 提交到cluster,application 用户变成了spark 部署环境用户,这样会带来两个问题:a) 无法知道那个用户提交的任务;b) spark权限问题无法管理,比如读取Hive、HBase、HDFS数据的权限问题;本文提出一种简单的修改方法,让Spark standlone driver on cluster 模型下面读取数据权限问题可以解决。

2015-11-18 11:32:46 2906

原创 Spark 添加复用JDBC Schema功能

用户需要阅读大量相同的数据库表,比如相同schema的表有1000张(比如对mysql进行分表分库)需要全读,每次建立dataframe的时候需要通过jdbcrelation去读每一张表的schema,消耗了大量时间。本文对提出一种修改办法,如果用户知道表的sechema相同,可以使用sechema复用。

2015-11-18 11:19:29 2237

原创 Spark1.5.2 on Hadoop2.4.0 安装配置

一、           前言 本文简单介绍yarn安装,主要介绍spark1.5.2on yarn模式安装,仅供参考。 二、           yarn配置1.     yarne.xmlyarne.xml需要添加的配置如下:             yarn.nodemanager.aux-services         mapreduce_

2015-11-18 10:38:21 1328

原创 HDFS HA切换后missing block问题分析

HDFS HA切换后missing block问题分析

2015-05-31 21:03:31 6078 1

原创 Cassandra 表设计的通用原则

目前spark、storm都支持cassandra存储,cassandra重返nosql舞台,本文分享一些Cassandra 表设计的通用原则,希望对大家有用。

2014-12-25 09:58:04 4651 3

原创 Cassandra 数据模型设计总结

结合前段时间团队使用Cassandra使用过程,简单总结了模式设计,请大家斧正。

2014-12-18 18:37:52 6170

原创 cassandra cqlsh代码分析

cassandra2.0 推出了cqlsh2.0,提供了类似cql的功能。cqlsh 将查询消息发送给了thrift接口,然后后进行查询。文章分析了cqlsh Python脚本代码。后续文章会继续分析cassandra读写流程代码。

2014-08-26 11:07:17 2337

原创 spark单机版搭建记录

关闭防火墙service iptables stop && chkconfig iptables off

2014-06-25 13:12:33 2164

原创 hadoop Yarn distributedshell使用方法

[root@HDP02 hadoop-yarn]# hadoop    org.apache.hadoop.yarn.applications.distributedshell.Client -jar  hadoop-yarn-applications-distributedshell-2.4.0.2.1.1.0-385.jar  -shell_script  ./distributedshell

2014-05-05 18:53:19 2990

原创 人生的几种思维

1)原因Spark standlone 模式下面driver 提交到cluster,application 用户变成了spark 部署环境用户,这样会带来两个问题:a)无法知道那个用户提交的任务;b)spark权限问题无法管理,比如读取Hive、HBase、HDFS数据的权限问题;2)代码流程3)修改方法 原理上面需要从c

2021-12-13 09:01:13 134

原创 数据仓库和AI结合有哪些典范了?

数据仓库和AI结合有哪些典范了?

2021-01-21 09:04:07 450

原创 情景分析是什么?我们该如何去理解这个概念?

图片主要参考了这个视频,感谢这位小姐姐的贡献。https://www.bilibili.com/video/av370705348/研究目的了解什么是情景分析? 判断这个分析是否有借鉴的地方?亮剑里面有这么一段,我认为的情景分析:丁伟的毕业论文题目是《论我国国土的防御重点》,熟悉历史的朋友清楚,当时我国和苏联是兄弟国家,苏联正在大力扶持我国的工业。但是国与国没有永恒的朋友,只有永恒的利益,丁伟创造性的把苏联想象成可以对我国构成威胁的c国,并提出防御的必要性和防御方法,他的论...

2020-12-07 21:36:12 2883

原创 无监督学习之异常值检测算法~Isolation Forest

在数据分析领域,指标的突然上涨或者下降 是一个异常行为 ,这两种情况都值得我们去关注。如果我们标注了这些事异常点,可以使用监督学习去检测异常点。但是没在在没有业务反馈的时候,我们河南去定义这些异常点,也就是说训练样本需要需标注。这样我们可以选择无监督学习的方法,比如Isolation Forest,One class SVM and LSTM。本文主要记录了Isolation Forest的使用方法。相关文章:https://towardsdatascience.com/anomaly-detect

2020-12-07 14:46:00 757

原创 Java ExecutorService 实现队列消费

package MultiThread;import java.util.ArrayList;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ListExample { private static ArrayList&lt;Stri...

2019-03-12 14:05:42 1109

原创 编程题:两个线程,一个线程输出奇数,一个线程输出偶数,保证输出顺序是:2、1、4、3、……、50、49、52、51、54、53、……、100、99

解法1:使用Synchronizedpackage printNum;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class SynchronizedExample { private static int count = 2; pri...

2019-03-11 14:50:07 1892

原创 HDFS HA java API 实战

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import java.io.*;import java.net.URI;import java.text.SimpleDateFormat;import java....

2019-03-07 09:46:22 235

原创 Apache Spark 读写Apache ignite 代码实战

package com.zhw.bigdata.ignite;import org.apache.ignite.spark.IgniteDataFrameSettings;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;im...

2018-11-21 14:09:31 1043

美团大数据,下载试试实时搜索

美团大数据,下载试试实时搜索

2023-05-04

eb-qlik-ebook-beyond-the-ai-hype-en.pdf

增强分析定义,思考,AI如果在分析领域取得成功,AI在分析领域的成功关键是什么?增强分析- 是这样一种方法,它结合了机器智能和人类感性经验去加速洞察,去挖掘新的或者没有预期到的发现,驱动任何角色和技术水平的用户都能够拥有数据探查能力。

2020-05-22

Packet Capture

Most powerful technique When need to see what client and server are actually saying to each other When need to analyse type of traffic on network Requires understanding of network protocols to use effectively

2013-10-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除