自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 vmware container容器

容器:应用程序的开发由于容器的出现发生了巨大的变化在数据中心,传统应用程序通过现代应用程序功能和模型得到了增强。但是传统的应用程序开发与现代的应用程序开发是不同的。传统应用程序的开发: 大而全(身份验证 安全 加密 负载均衡 高可用 网络通信等)瀑布式开发:瀑布式开发周期需要6到12个月才能交付一个产品,周期相对较长,所以需求有变化的风险,此外,最初的需求可能会被误解,但是这种误解可能只有在项目结束时才会被意识到移交给运营团队:当产品准备好投入生产时,就移交给运营团队,运营团队从那时开始部署和管

2020-05-29 22:35:11 1127

原创 vmware-container

容器:应用程序的开发因为容器的出现发生了巨大的变化,传统的应用程序的开发时大而全,身份验证 安全加密 负载均衡等等app都要做容器出现之后作为现代应用程序的开发基于容器开发:云原生应用程序 CAN(cloud native application)微服务:功能1 服务1 功能2 服务2 不同的team负责不同模块的开发,一个应用环境分成六个模块开发 运行环境不同 把运行环境都...

2020-04-27 17:31:38 331

原创 streaming 时钟统计单词 java开发

要求:统计单词,每10秒钟输出一个统计结果:思考:几个spout?几个bolt?BoltA去识别时钟 如果是B 每10s就输出 这不需要如果A去识别时钟,A中的task的前后顺序不一定一样代码实现:package streaming;import org.apache.commons.collections.map.HashedMap;import org.apache...

2020-04-27 17:20:21 214

原创 streaming API Java 二次开发-2

ack机制满足的要求:1.spout一定要指定messageid 如果没有,无法识别,每个环节都带有tupleid 哪一些id进行异或 通过messageid2.bolt在发送消息的时候一定要是锚定的方式 将收到的tupleid 和发出去的tupleid 进行异或3.acker进程必须有spout开启ack和不开ack:不启用:Collector.emit(new Value...

2020-04-27 17:08:14 201

原创 streaming API java开发-1

streaming组件流程Worker的启停:如果死掉了就死掉了 自动重试 不是自己 而是nimbus通过zookeeper接受worker的心跳得知1.客户端提交任务jar包给nimbus2.nimbus上交给zookeeper3.supervisor 得知有任务之后从zookeeper下载 到nimbus上下载jar包4.启动worker 向zookeeper注册5....

2020-04-27 17:03:20 287

原创 HBase API java二次开发

几个重要HBase API类和数据模型之间的对应关系java类HBase数据模型HBaseAdmin HBaseConfiguration数据库HTable表(Table)HTableDescriptor列表(CF)Put Get Scanner列表修饰符1.HBaseAdmin作用:提供了一个接口来管理HBase数据库表信息,它提供的方法包...

2020-04-27 16:39:08 199

原创 模型评估与优化-2

损失函数的概念损失函数(Loss function):是用来估量模型的预测值与真实值的不一致程度,是一个非负实值函数。损失函数越小,模型的鲁棒性就越好。0-1损失函数:该损失函数的意义就是,当预测错误时,损失函数值为1,预测正确时,损失函数值不考虑预测值和真实值的误差程度,也就是只要预测错误,预测错误差一点和差很多都一样。Note: 由于相等这个条件太过严格,因此我们可以放宽条件,即满足...

2020-04-18 11:40:00 828

原创 模型评估和优化-1

数据集划分数据集(dataset):在机器学习任务中使用的一组数据。数据集中每一个数据称为一个样本。反映样本在某方面的表现或性质的事项或属性称为特征。训练集(training data):训练过程中使用的数据集。数据集中每个训练样本称为训练样本。从数据中学得模型的过程称为学习 (训练)。测试集(testing data):学得模型后,使用其进行预测的过程称为测试,使用的数据集称为测试集,每...

2020-04-18 11:13:20 619

原创 mapreduce API--- join 案例

join案例两张表:Province:----><1,a#beijing>1 beijing2 hangzhou3 shaoxing4 wenzhou5 tianjing6 taizhou7 henan8 wuhanData1 2010 1964<1, b#2010 1962> <1,b#2010,2399>1 2010 2399...

2020-04-15 20:14:34 99

原创 mapreduce java API 二次开发[wordcount]

shell端执行mapreduce1.准备数据,这个数据必须存储在hdfs上,并不是linux目录上的数据2.mapreduce程序Wordcount---->词频统计/export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/mr-examples(有很多的jar包)3.将mapreduce程序提交到yarn上面去运...

2020-04-15 13:12:41 197

原创 vmware资源管理-2

task manager要监视来宾操作系统中的性能,请使用您熟悉的工具,如Windows任务管理器。Windows任务管理器帮助您度量来宾操作系统中的CPU和内存使用。您在来宾操作系统中使用工具进行的度量反映了来宾操作系统的资源使用情况,而不一定反映了虚拟机本身(VMware)的资源使用情况VMware Tools中的Perfmon DLL提供了虚拟机处理器和内存对象来访问虚拟机中的主机统...

2020-04-13 22:16:32 1309

原创 vmware 资源管理-1

内存虚拟化基本概念把内存层级分三个层级客户操作系统虚拟内存由操作系统呈现给应用程序(不是真实的物理内存)客户操作系统物理内存由vmkernel提供给虚拟机,这个内存空间具有与客户操作系统提供给应用程序的虚拟内存地址空间相同的属性。真实的物理内存,虚拟机实际开销的物理内存(VMM欺骗虚拟机 以最小的内存运行最多的虚拟机 内存回收)由vmkernel管理的主机内存提供了一个连续的,可寻址的...

2020-04-13 21:59:27 1093

原创 【数据预处理】离散化,等频划分

数据样例1.统计出每列数据中的最大值,最小值,中位数,平均数以及四分位数2.定义一个函数,对col5列信息离散化,小于等于100的为A类,小于等于1000的为B类,大于1000的为C类3.定义一个函数,对col5列进行等频划分import xlrdimport pandas as pdimport numpy as np#样例数据所在位置file_name='F:\\hcie1....

2020-04-11 18:23:12 3370

原创 HDFS java API 二次开发

文章目录HDFS读写流程API java实现HDFS读写流程1.客户端通过调用 DistributedFileSystem 的create方法,创建一个新的文件。2.DistributedFileSystem 通过 RPC(远程过程调用)调用 NameNode,去创建一个没有blocks关联的新文件。创建前,NameNode 会做各种校验,比如文件是否存在, 客户端有无权限去创建等。...

2020-04-11 13:46:44 247

原创 vsphere update manager

About vSphere Update ManagerVsphere update manager (绑定在venter server上)支持esxi主机,虚拟机硬件,vmware tools和虚拟设备的集中,自动化补丁和版本的管理:(虚拟化环境里面重要的组件的统一升级管理 )Vsphere update manager 通过以下方式降低安全风险:减少漏洞的数量(汽车轮胎 慢慢瘪了没气了...

2020-04-08 22:04:06 2015

原创 特征选择--wrapper,Embedded

wrapper定义Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。包装法需要结合后续选择的机器学习算法,一起选择出能使最终算法达到较高性能的特征子集。根据目标函数,每次选择部分特征,或者排除部分特征。常用包装法:递归特征消除法:简称RFE,使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一...

2020-04-06 11:07:54 3300

原创 vmware storage -2

文章目录VMFS datastores过度使用数据存储管理增加VMFS数据存储的大小删除或卸载VMFS 数据存储多路径算法NFS存储NFS v3 and NFS v4.1配置ESXI主机身份验证和NFS kerberos凭证卸载NFS数据存储NFS多路径VSANVMFS datastores访问块级存储时使用VMFS或vsphere虚拟卷数据存储:VMFS针对存储和访问大型文件进行了优化...

2020-04-05 14:02:11 793

原创 vsphere DRS

文章目录DRS介绍Vsphere DRS集群先决条件DRS集群自动化级别设置vSphere DRS集群设置:预测DRS其他集群设置:交换文件位置vSphere DRS集群设置:虚拟机关联vSphere DRS集群设置:DRS组VM-Host关联规则VM host -关联规则:优先VM-Host关联规则:RequiredvSphere DRS集群设置:vm级自动化向集群添加主机查看DRS集群信息维护...

2020-04-05 11:36:08 3236

原创 关联算法,特征算法python实现

利用python对数据关联分析,实现Apriori算法def apriori(D, minSup): '''频繁项集用keys表示, key表示项集中的某一项, cutKeys表示经过剪枝步的某k项集。 C表示某k项集的每一项在事务数据库D中的支持计数 ''' #先求出1项集合及其支持计数,注意此处C1是字典,key为项集,value是计数 ...

2020-03-31 18:44:12 323

原创 vsphere高可用

减少计划停止时间,放置计划外的停止时间,维护业务的连续性**计划类停止时间:**设备的硬件的维护,旧的服务器淘汰,服务器的硬件升级,有些组件可以支持热插拔,但有些是不支持的,比如说主板损坏,得停机,进行维护更换,vsphere的高可用可以减少停机非计划的停机:对于esxi主机或者使用vcenter server 通过共享存储 使用多个网口绑定 冗余网络链路(一条上行链路出现故障,可以通...

2020-03-31 11:43:10 1101

原创 无监督学习--关联算法

定义Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过频繁项集生成和关联规则生成两个阶段来挖掘频繁项集。它的主要任务就是设法发现事物之间的内在联系。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。算法已经被广泛的应用到商业...

2020-03-29 22:59:58 600

原创 vmware快照创建

文章目录快照定义创建快照快照的类型虚拟机快照文件删除快照快照整合快照定义快照是对VMDK在某个时间点的“拷贝”,这个拷贝并不是对VMDK文件的复制,而是保持磁盘文件和系统内存在该时间点的状态快照可以保存虚拟机的状态,以至于你可以快速反复的恢复虚拟机的状态当你希望重复的恢复到相同的状态,但又不想创建多个虚拟机,那么快照就很有用。比如说,你在升级或者打补丁的时候出现了问题,那么快照就可...

2020-03-29 12:34:26 2282

原创 vmware 虚拟机迁移

迁移虚拟机:迁移意味着将虚拟机从一个主机,数据存储或vcenterserver迁移到另一个主机,数据存储,或vcenterserver迁移的类型:冷迁移:将电源关闭的虚拟机迁移到新的主机或数据存储中挂起:将挂起的虚拟机迁移到新的主机或数据存储Vsphere vmotion:将开机状态的虚拟机迁移到新主机Vsphere storage vMotion:将开机状态的虚拟机文件迁移到新的数据...

2020-03-27 23:59:44 12551

原创 vmware storage-1

Datastore:数据存储是一种逻辑存储单元,它可以使用一个物理设备上的磁盘空间,也可以跨越多个物理设备。类似于文件系统,但隐藏了物理存储设备的细节,给存储虚拟机文件提供了统一的模型,虚拟机文件保存数据存储特定的目录当中、还可以用来存储模板和ISO映像。vSphere支持以下类型的数据存储:VMFS:虚拟机文件系统,分布式存储的文件系统NFS :NAS(网络附加存储的一种存储格式)vSA...

2020-03-26 17:43:28 1387

原创 无监督学习-2(层次聚类,DBSCAN)

K-Means++不同于K-Means算法第一次是随机选择K个聚类中心,K-Means++是假设已经选取了????个初始聚类中心(0<????<????),则在选取第????+1个聚类中心时:距离当前????个聚类中心越远的点会有更高的概率被选为第????+1个聚类中心。只有在选取第一个聚类中心(????=1)时是通过随机的方法。该改进方法符合一般的直觉:聚类中心互相之间距离得越远越好。这个改进直观简单,也非常有效。K-M...

2020-03-25 14:10:47 1074

原创 vmware 管理

文章目录什么是模板如何创建模板从模板部署虚拟机更新模板克隆虚拟机即时克隆删除虚拟机内容库向内容库添加模板从内容库中的模板部署虚拟机内容库的好处内容库的类型修改虚拟机热插拔RDM动态添加虚拟磁盘容量膨胀精简置备磁盘什么是模板是虚拟机的主副本,用于创建和部署新虚拟机模板是一个映象,那他包含什么呢通常包括:一个操作系统一组应用程序一套相当于硬件的虚拟硬件(虚拟CPU 虚拟磁盘 虚拟内存)...

2020-03-25 00:02:12 986

原创 DAS,NAS,SAN理解及区别

DAS存储(直连式存储 Direct-Attached Storage)DAS存储更多的依赖服务器主机操作系统进行数据的IO读写和存储维护管理直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。直连式存储与服务器主机之间的连接通道通常采用SCSI连接,随着服务器CPU的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道将会成为IO瓶颈;服...

2020-03-23 23:21:10 1075

原创 聚类实验 (k-means/DBSCAN)

K-Means#k-means#导入k-means相关的库的方法import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansimport numpy as npfrom scipy.spatial.distance import pdistfrom sklearn impor...

2020-03-23 11:44:08 793

原创 vcenterserver权限管理

我们先来看一下vcenter server 权限介绍访问控制系统使vCenterserver管理员能够定义用户权限来访问库存中的对象。那我们要分清楚几个概念:权限: 每个权限为一个组或用户指定该组或用户对对象具有哪些特权vCenter server system的权限模型依赖于为vSphere中的对象分配权限。每个权限都为一个用户或组提供一组特权,即所选对象的一个角色。每个角色决...

2020-03-21 19:39:36 3119

原创 集成算法(装袋,随机森林,boosting)

集成学习定义将多个单个学习器集成在一起,使它们共同完成学习任务,已达到提高预测准确率的目的,也称“多分类器系统”例:做练习题的时候题目的准确率不高,通过多个学生的答案进行核对,提高题目的准确率分两大类:装袋bagging,随机森林提升boosting,adaboost,GBDT,XGBoot集成学习一般过程令D表示原始训练数据集,k表示基分类器 (基学...

2020-03-20 19:06:46 2003

原创 无监督学习----K-means算法

文章目录无监督学习聚类分析性能度量距离计算应用行业K-means算法算法思想举例K-Means聚类的优缺点无监督学习:是指在未加标签的数据中,根据数据之间本身的属性特征和关联性对数据进行区分,相似相近或关联性强的数据放在一起,而不相似不相近、关联性不强的数据不放在一起。应用场景:降维,聚类算法,关联算法有监督学习和无监督学习的区别:有监督学习:分类问题,要求实现必须明确知道各个类别...

2020-03-19 22:05:52 483

原创 有监督学习实验

线性回归# 一元线性回归的实现import matplotlib.pyplot as plt #导入matplotlib库,主要用于可视化from matplotlib.font_manager import FontPropertiesimport numpy as np# 给出用于训练的数据集x_train = [4,8,5,10,12]y_train = [30,50,35,7...

2020-03-18 23:03:28 294

原创 vmware 虚拟网络

首先对比一下现有以太网和虚拟网络:现有以太网:组件包括:网线 网卡 物理交换机 终端等场景:主机上有多块物理网卡通过网络介质连接到物理交换机,然后连接到路由器,通过路由交换连接到以太网虚拟网络:组件包括:虚拟交换机 物理网卡(可选,如果只要求在虚拟机内部通信,可不选)上行端口 端口组 物理交换机(同物理网卡,可选)场景:一台esxi或多台esxi上的虚拟机之间可以通信,同时...

2020-03-18 11:48:38 821

原创 特征选择

数据集由数据对象(Data Objects)组成,一个数据的集合,通常以表格形式出现。数据行对应数据对象,一个数据对象代表一个实体(Entity),数据对象又称为样本、实例、数据点、对象。数据列对应属性(或者称为特征、字段、指标等)。分类属性:定类:属性值仅仅是区分彼此的标志,没有序次关系(头发颜色)定序:属性表示个体在某个有序状态中处的位置(成绩优良)数值属性:定距:区...

2020-03-16 23:58:23 356

原创 【数据挖掘】监督学习---决策树

文章目录决策树定义决策树构建过程决策树算法ID3python实现决策树定义决策树及对某个数据集选择某个特征进行分裂,由此对数据进行分类决策树构建过程特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准决策树生成:根据所选特征评估标准,从上之下递归地生成子节点,直到数据集不可分则停止决策树生长剪枝:如果决策树层次过于深,就会造成过拟合,需要剪枝来缩小树的结构和规模(包括预剪...

2020-03-13 22:30:28 253

原创 vcenter server 内容详解-2

VCSA负载均衡您可以为每个站点使用第三方负载均衡器来为该站点配置带有自动故障转移的平台服务控制器高可用性;为了提供更高级别的可用性,可以将两个或多个平台服务控制器实例配置为使用相同的vCenter单点登录域(分成多个站点),并将其置于负载均衡器之后。每个vCenter服务器实例都被配置为与负载均衡器通信,负载均衡器在主动-被动配置中使用平台服务控制器实例。如果活动的平台服务控制器实例失败,负...

2020-03-13 10:25:30 2422

原创 vCenter server内容详解

vCenter Server允许您集中管理多个ESXi主机及其虚拟机。未能正确安装、配置和管理vCenter服务器可能会降低管理效率,或者可能导致ESXi主机和虚拟机停机。集中式管理vCentervCenter server是作为网络中连接的ESXi主机的中央管理员的服务。有了vCenter Server,我们才能共享和管理多个主机的资源。vCenter server运行在Windows或基...

2020-03-11 22:55:47 16117

原创 [Vmware]VCSA部署及遇到的问题

之前写了如何在workstation部署esxi,可参考vmware workstation 安装vsphere这篇讲一下如何安装VCSA,以及遇到的问题安装环境:windows server 2008或更高版本,VCSA镜像文件1.我直接在本机安装,点击镜像文件之后,会出现驱动盘2.点击ui-installer文件---->win32---->installer.exe...

2020-03-10 11:37:15 11190

原创 [数据挖掘]数据预处理-缺失值处理

自定义标题数据抽取:捕获方法数据转换数据加载ETLELT数据清洗处理方法数据预处理架构:ETL:是一个数据管道 ,负责将分布的,异构的数据根据一定的业务规则进行数据清洗转换,继承(transform),最后将处理后的数据加载到数据目的地—数据仓库;数据抽取:Oralcle SQL Server Flat data teradata,检查数据类型,确保数据完整,去除重复数据,去除脏数据,确...

2020-03-09 14:21:39 1342

转载 有监督算法和无监督算法的理解

无监督和有监督的理解方法有很多,主要可以从以下几方面来理解:1、无监督与监督学习的区别在于一个无教学值,一个有教学值。但是,个人认为他们的区别在于无监督学习一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差,进行误差反向传播修改权值来完成网络...

2020-03-07 14:23:02 4350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除