自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 机器学习之关联规则(支持度和置信度、Apriori算法)

关联规则及其基础:表1:购物篮例子的分析关联分析:用于发现隐藏在大型数据集中的有意义的联系。所发现的联系可以用关联规则或频繁项集的形式表示。例如,从表1中可以提取出:{尿布} ⟹ {啤酒}(该规则表明尿布和啤酒的销售之间存在着很强的联系)。在对购物篮进行关联分析的时候,需要处理以下两个问题: 1、从大型事务数据集中发现模式可能在计算上要付出很高的代价;...

2019-09-23 20:34:18 36344 6

原创 (史上最全傻瓜式教程)CM+CDH安装搭建全过程

一、安装前准备1.1、官网教程文档地址:https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/install_cm_cdh.html1.2、安装环境 主机名 操作系统 角色 IP地址 cdh100 Centos 7.6 主节点 192.168.3.10

2021-07-02 11:32:47 5124 4

原创 CM+CDH安装搭建全过程(总结版)

目录第一次搭建CM、CDH第二次搭建CM、CDH搭建环境:搭建过程:报错过程:总结复盘:第三次搭建CM、CDH搭建环境:搭建过程:报错过程:总结复盘:第四次搭建CM、CDH搭建环境:搭建过程:报错过程:总结复盘:第一次搭建CM、CD...

2021-07-02 10:44:44 2891

原创 Hadoop安全保护机制(Kerberos&LADP)详解

第一章 信息安全理论基础CIA模型:机密性、完整性和可用性CIA模型能够帮助建议一些信息安全原则,但该模型并不是一个需要严格遵守的规划Hadoop平台可能涉及多个CIA模型组件,也有可能一个也涉及不到1.1、机密性机密性:信息只应该被期望的接收者看到身份标识:使A和B参与机密信息传递的属于自己的唯一标志身份验证:证明自己的身份加密:将数学算法应用于信息片段,使加密后输出内容对于非预期接收者不可读解密:只有期望的接收者能对加密消息进行解密,从而得到原始信息 ...

2020-10-26 22:34:36 4097

原创 大数据简史(从结绳记事到如何成为数据科学家)

目录第一章 从结绳记事说起第二章 古代数据分析学科的发展赌博催生了概率论人口社会调查催生了数理统计数据分析与统计的应用——格朗特与死亡公报数据分析与统计的应用——斯诺与霍乱第三章 近代美国计算技术的发展与应用数据库的起源——打孔卡美军海军面对日本飞机自杀性攻击第四章 商业智能与营销管理理论的兴起罗伯特-麦克纳马拉关系型数据库之父——埃德加-科德商业智能的出现商业营销理论的发展第五章 大数据出现的标志性事件第六章 大数据时代大数据的时代.

2020-10-25 23:08:40 1678

原创 大数据、云计算和物联网的关系

目录云计算大数据物联网大数据、云计算和物联网的关系云计算云计算实现了通过网络提供的可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源起源:1996年康柏电脑公司使用CloudComputer发展:2006年亚马逊的AWS服务云计算特点共享资源池:计算、网络、存储等资源的池化和共享 快速...

2019-11-07 14:03:18 2014

原创 Spark中Standalone、Yarn和Mesos三种资源管理和任务调度框架的对比

Spark on Standalone:Standalone是SparkCore自带的集群资源管理框架,类似于MR V1.0采用的模式(JobTracker),内部实现了容错性和资源管理。内部架构:Client、Master、Worker Spark on Standalone的运行流程是将程...

2019-09-27 12:05:44 2168

原创 机器学习之聚类详解

聚类:试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需要由使用者来把握和命名。聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可以作为分类等其他学习任务的前驱过程。1.基于距离的聚类算法K-均值算法:k-m...

2019-09-25 10:56:49 992

原创 大数据之Hadoop生态圈学习笔记

目录第一章大数据发展趋势第二章 HDFS技术原理第三章 MapReduce分布式离线批处理第四章 YARN资源管理器第五章 ZooKeeper集群分布式协调服务第六章 HBase分布式NoSQL数据库第七章Hive数据仓库第八章Kafka第九章Flume第十章Loader第十一章Streaming第十二章Spark第十三章Flink...

2019-09-23 20:42:00 586

原创 通俗易懂—机器学习之支持向量机(SVM)

SVM的目标:找出能够最大化训练集数据间隔的最优分类超平面。例如,我们可以描绘一条直线然后所有代表男人的点都在直线的上边,代表女人的点都在直线的下边。这条黑色直线被称为分类超平面(如图0所示)。图0:分类超平面 ...

2019-09-23 20:17:41 1635

原创 机器学习之朴素贝叶斯计算全过程

朴素贝叶斯计算下面我们用上图数据集训练一个朴素贝叶斯分类器,对测试例X进行分类:X={age=youth,income=medium,student=yes,credit=fair}首先估计类先验概率P(Ci):P(buys_computer=yes)=9/14=0.643P(buys_computer=no)=5/14=0.357然...

2019-09-23 20:04:29 3300

原创 机器学习之决策树算法中:信息熵、信息增益、信息增益率和基尼指数的计算

决策树算法中:信息熵、信息增益、信息增益率和基尼指数的计算节选自周志华《机器学习》P75-P79页文末附上本人手工计算过程,方便理解...

2019-09-23 19:59:56 1651

原创 一文掌握SQL语言基础入门

目录1、SQL语言入门1.1 SQL命令一般分为DQL、DML、DDL1.2 DDL语句1.3 DML语句和DQL语句1.4 其他SQL语句1、SQL语言入门1.1 SQL命令一般分为DQL、DML、DDLSQL:声明式编程语言DQL:数据查询语句;SELECT查询命令,用于数据查询。DML:数据操纵语句;INSERT、UPDATE、DELETE三种语...

2019-09-23 19:54:36 228

原创 PostgreSQL入门基础

1、psql入门目录1、psql入门2、逻辑结构管理2.1 数据库基本操作2.2 模式2.2.1 模式的定义2.2.2 公共模式2.2.3 模式的权限3、表3.1 创建表3.2 临时表3.3 约束3.4 修改表结构3.5 表继承3.6 分区表4、 触发器5、表空间6、视图7、索引8、用户及权限管理8.1 用户和角色...

2019-09-23 19:49:31 641

原创 学习Linux中遇到的bug(持续更新)

1、VM虚拟机中的Centos7系统无法上网!问题原因:没有与物理机共享网络(虚拟机与物理机共享一个IP地址)解决办法:将虚拟机网络适配器改为(自定义:VMnet8【NAT】);再将物理机上的网络共享给VMnet8;最后将虚拟机系统上的网络有线连接打开即可。2、Firefox浏览器无法播放视频!问题原因:缺少Adobe flash players解决办法:1.先将Cent...

2019-09-23 19:17:22 489

原创 Linux私房菜

Linux设计概念:所有的程序或系统装置都是文件(一切皆文件) 不管构建编辑器还是附属文件,所写的程序只有一个目的,且要有效的完成目标。LINUX目录树: 详细的参照【FHC标准】/:根目录,位于Linux文件系统目录结构的顶层,一般根目录下只存放目录,不要存放文件,/etc、/bin、/dev、/lib、/sbin应该和根目录放置在一个分区中。/bin,/...

2019-09-23 19:15:02 413

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除