自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据云技术社区

专注于大数据及容器云核心技术解密,可提供全栈的大数据+云原生平台咨询方案,请持续关注本套博客。如有任何学术交流,请关注《数据云技术社区》公众号。

  • 博客(50)
  • 收藏
  • 关注

原创 基于Scikit-learn回归基础问题及TPR及ROC指标相关技术实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何技术交流,可随时联系。1 线性回归问题实践(车的能耗预测)数据集欣赏 import pandas as pd import matplotlib.pyp...

2018-12-22 11:18:22 442

原创 Pandas多维特征数据预处理及sklearn数据不均衡处理相关技术实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 机器学习调优步骤(第一行不平衡问题处理)2 Pandas多维特征数据预处理数据初始化展示 import pandas as pd...

2018-12-20 20:17:55 2288

原创 Hadoop自由实现伸缩节点详细说明-Hadoop商业环境实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 节点扩容配置/etc/hosts添加新节点的IP和主机名配置etc/hadoop/slaves添加新节点的主机名配置hdfs-site...

2018-12-19 19:24:21 347

原创 Hadoop基于共享日志实现自主容错切换机制配置详细说明

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 namenode元数据被破坏,修复解决:恢复一下namenode hadoop namenode -recover一路选择c,一般就OK了...

2018-12-19 19:07:01 247

原创 Hadoop联邦机制实现多命名空间详细配置说明-Hadoop商业环境实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 federation的配置(分而治之,不同命名空间管理不同的dataNode)1:配置统一视图viewfs:///2: 配置具体的挂载...

2018-12-19 19:01:35 604 2

原创 Hadoop联邦机制加HA容错机制详细配置说明-Hadoop商业环境实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。期待加入IOT时代最具战斗力的团队。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 core-site.xml 配置:1:配置统一视图viewfs:///2: 配置不同命名空间下,每一个H...

2018-12-19 18:57:09 234

原创 Python技术栈与Spark交叉数据分析双向整合进阶实战--大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Spark SQL 分组聚合统计groupBy与agg搭配使用,agg(*exprs),这个方法是GroupedData上用于计算聚合数...

2018-12-18 18:53:58 190

原创 Python技术栈与Spark交叉数据分析双向整合技术实战--大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Python Spark SQL 基本数据处理Python Spark DataFrame 基础 df = spark.read.p...

2018-12-18 18:53:18 374

原创 数据处理利器python与scala面向对象对比分析2-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 python与scala面向对象对比分析1.1 scala面向对象定义类,包含field以及方法 class HelloWorld...

2018-12-18 18:51:10 199

原创 Python技术栈与Spark大数据平台整合实战--大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Python技术栈与Spark大数据数据平台整合下载Anaconda3 Linux版本 Anaconda3-5.3.1-Linux-...

2018-12-18 18:50:14 296

原创 数据处理利器python与scala基本数据结构对比分析1-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 python与scala基本数据结构1.1 scala 数据结构List 案例 val l = List(1, 1, 2, 2, 3...

2018-12-18 18:49:26 333

原创 Python基础算法库及可视化库使用实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Numpy详细使用读取txt文件 import numpy world_alcohol = numpy.genfromtxt(...

2018-12-18 18:48:47 203

原创 Python基础算法库及可视化库使用实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Numpy详细使用读取txt文件 import numpy world_alcohol = numpy.genfromtxt(...

2018-12-18 18:48:47 432

原创 Python基础算法库及可视化库使用实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Numpy详细使用读取txt文件 import numpy world_alcohol = numpy.genfromtxt(...

2018-12-18 18:48:47 543

原创 深度学习基础知识入门及案例代码实战-深度学习牛刀小试

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 神经网络基础知识整理RNN网络模型概率函数Softmax分类器是不知道满足的分类器Softmax分类器计算步...

2018-12-18 18:47:20 1121

原创 Python基础算法库及可视化库使用实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Numpy详细使用读取txt文件 import numpy world_alcohol = numpy.genfromtxt("...

2018-12-12 22:46:19 244

原创 基于球员和裁判数据进行探索性数据分析实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 数据简介数据包含球员和裁判的信息,2012-2013年的比赛数据,总共设计球员2053名,裁判3147名,特征列表如下:Var...

2018-12-11 19:24:10 489

原创 基于雇员流失率数据进行多分类模型训练及阈值调整实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 数据的预处理分析from __future__ import divisionimport pandas as pdimport num...

2018-12-11 19:22:55 488

原创 时间序列数据的预处理及基于ARIMA模型进行趋势预测-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 数据的预处理时间序列数据生成 import pandas as pd import numpy as np da...

2018-12-11 19:21:09 1863

原创 基于逻辑回归及随机森林的多分类问题数据分析-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。期待加入IOT时代最具战斗力的团队。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 数据预处理数据集介绍 import pandas #ipython notebook tit...

2018-12-10 20:07:50 8343

原创 基于MNIST数据集实现2层CNN神经网络案例实战-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 神经网络基本结构定义28*28=784个像素点,第一层神经元256,第二层神经元1282 基本神经网络构建变量初始化 im...

2018-12-10 20:05:06 332

原创 TensorFlow基础及MNIST数据集逻辑回归应用实践-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 TensorFlow基本使用操作TensorFlow基本模型 import tensorflow as tf a = 3 #...

2018-12-09 23:01:24 240

原创 数据相关性可视化及交叉验证预测分析-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 数据预处理DF加上表头 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-set...

2018-12-08 22:37:30 778

原创 信用卡欺诈行为逻辑回归数据分析-大数据ML样本集案例实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 信用卡欺诈行为案例集预处理import pandas as pdimport matplotlib.pyplot as pltimpor...

2018-12-08 18:12:44 1429

原创 Python环境安装及数据基本预处理-大数据ML样本集案例实战

1 环境安装shift + Enter :换行ctrl + Enter :执行

2018-12-08 13:08:11 278

原创 HDFS NameNode 高并发数据读写架构及QJM选举深入研究-Hadoop商业环境实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。期待加入IOT时代最具战斗力的团队。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。1 Hadoop 2.x 系统架构演进2.x版本中,HDFS架构解决了单点故障问题,即引入双NameNode架构。...

2018-12-02 01:50:30 890

原创 HBase Memstore专属JVM策略MSLAB机制深入剖析-OLAP商业环境实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。期待加入IOT时代最具战斗力的团队。QQ邮箱地址:[email protected],如有任何学术交流,可随时联系。网上的Hbase调优资料参差不齐,实在是不忍卒读,有些都是拼凑且版本过时的东西,我这里决定综合所有优质资源进行整合,写一...

2018-12-01 18:49:02 313

原创 kafka日志索引存储及Compact压实机制深入剖析-kafka 商业环境实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 kafka日志特点kafka日志不是松散的结构化请求日志,错误日志或其他日志。类似于关系型数据库中的...

2018-11-25 23:29:14 1209

原创 Flink Window类型及使用原理案例实战-Flink牛刀小试

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何问题,可随时联系。1 Window(窗口)类型聚合事件(比如计数、求和)在流上的工作方式与批处理不同。比如,对流中的所有元素进行计数...

2018-11-25 11:53:15 3585 2

原创 Flink Window分析及Watermark解决乱序数据机制深入剖析-Flink牛刀小试

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何问题,可随时联系。本文决心讲清楚这个纠结的水印Watermark问题,Come on !1 The Time针对stream数据中的时...

2018-11-25 01:50:14 3288 4

原创 Flink 状态管理与checkPoint数据容错机制深入剖析-Flink牛刀小试

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何问题,可随时联系。1 何为状态在批处理过程中,数据是划分为块分片去完成的,然后每一个Task去处理一个分片。当分片执行完成后,把输出...

2018-11-24 21:37:17 5380 4

原创 kafka ISR设计及水印与leader epoch副本同步机制深入剖析-kafka 商业环境实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 帽子理论(Gilbert 和 Lynch )一致性 any read operation that b...

2018-11-23 01:29:56 788

原创 Hadoop商业环境实战-HDFS NameNode 宕机元数据一致保障及SNN机制深入研究

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 从文件目录树谈起文件目录树存在于NameNode的内存里,维护了整个HDFS这个分布式文件系统元数据信息。...

2018-11-22 20:49:59 449

原创 kafka集群消息格式之V0版本到V2版本的平滑过渡详解-kafka 商业环境实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 Kafka 消息格式变迁(沧海桑田)从0.8.x版本开始到现在的1.1.x版本,Kafka的消息格式也经历了3...

2018-11-21 23:38:56 787 1

原创 Spark ML流式在线学习模型初步构建分析-Spark商业ML实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 Spark ML流式在线学习初步讲解目前SparkStreaming 支持Streaming Linear Regres...

2018-11-19 01:22:29 522

原创 Spark Streaming调优参数及最佳实践深入剖析-Spark商业调优实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 开门见山1.1 优化1:进行HA机制处理-针对updateStateByKey与window等有状态的操作HA高...

2018-11-19 00:26:32 794

原创 Spark ML 基于Iris数据集进行数据建模及回归聚类综合分析-Spark商业ML实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 Iris数据集(开灶做饭)Iris数据集是常用的分类实验数据集,由Fisher于1936收集整理。Iris也称鸢尾花...

2018-11-18 22:24:14 1210 1

原创 Spark ML自定义选择最优模型算法深入剖析-Spark商业ML实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 自定义选择最优模型什么叫做自定义模型?其实就是不借助Spark官方支持的交叉验证和训练验证拆分,而是根据实际场景进行自定...

2018-11-18 18:18:21 825

原创 Spark ML Pipeline模型选择及超参数评估调优深入剖析 -Spark商业ML实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。1 燃烧吧!模型选择模型选择可以针对单个Estimtor进行,比如:逻辑回归,决策树等。模型选择同样可以基于整套流水线进...

2018-11-18 11:40:15 1256 2

原创 Spark ML统计指标以及最优参数评估指标深入剖析-Spark商业ML实战

本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系1 统计学指标(考核指标)1.1 平均值平均值的理论:所有数据之和除以数据点的个数,以此表示数据集的平均大小。其数学定义为...

2018-11-17 23:42:47 1589

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除