自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 机器学习项目流程

一、EDA(Exploratory Data Analysis)EDA:也就是探索性的分析数据* 目的:理解每个特征的意义;知道哪些特征是有用的,这些特征哪些是直接可以用的,哪些需要经过变换才能用,为之后的特征工程做准备;1)每个特征的意义、特征的类型:df.describe()df[‘Category’].unique()2)看是否存在 missing value(特征数据是否缺失)df.loc[df.Dates.isnull(),‘Dates’]3)看每个特征下的数据分布,用

2020-09-26 14:37:56 140

原创 机器学习简介

机器学习常见算法划分(1)分类:KNN,决策树,贝叶斯,LR,SVM,神经网络,adaboost等(2)回归:线性回归等(3)聚类:k-means,层次聚类等(4)降维:PCA,SVD等(5)推荐:关联规则,协同过滤算法等模型评估与选择Ø在用算法解决实际任务需求时,可以有很多种算法做选择,获得不同的模型,或者由同一个学习算法的不同参数选择,得到不同的模型,选择哪一个算法,选择哪一个参数呢?这就是机器学习算法中的模型选择问题。Ø可以通过测试来评估学习器(模型)的泛化误差,进而选择好的模型。那么

2020-09-26 14:31:31 131

原创 隐马尔科夫模型介绍

1 隐马尔科夫模型介绍在马尔科夫模型中,每个状态代表了一个可观察的事件,所以,马尔科夫模型有时有称作可视马尔科夫模型(visible Markov model,VMM),这在某种程度上限制了模型的适应性。在隐马尔科夫模型(HMM)中,我们不知道模型所经过的状态序列,只知道状态的概率函数,也就是说,观察到的事件是状态的随机函数,因此,该模型时一个双重的随机过程。其中,模型的状态转换过程是不可观察的,即隐蔽的,可观察事件的随机过程是隐蔽的状态转换过程的随机函数。我们可以通过如下例子来说明HMM的含义。假定

2020-09-26 14:28:51 218

原创 storm

目录1. 场景假设2. 调优步骤和方法3. Storm 的部分特性4. Storm 并行度5. Storm 消息机制6. Storm UI 解析7. 性能优化场景假设在介绍 Storm 的性能调优方法之前,假设一个场景:项目组部署了3台机器,计划运行且仅运行 Storm(1.0.1) + Kafka(0.9.0.1) + Redis(3.2.1) 的小规模实验集群,集群的配置情况如下表:主机名硬件配置角色描述hd012CPUs, 4G RAM, 2TB 机械硬盘nimbus, supervi

2020-09-26 14:10:52 213

原创 HBase性能调优

近期在处理HBase的业务方面常常遇到各种瓶颈,一天大概一亿条数据,在HBase性能调优方面进行相关配置和调优后取得了一定的成效1.垃圾回收优化Java本身提供了垃圾回收机制,依靠JRE对程序行为的各种假设进行垃圾回收,但是HBase支持海量数据持续入库,非常占用内存,因此繁重的负载会迫使内存分配策略无法安全地依赖于JRE的判断:需要调整JRE的参数来调整垃圾回收策略。(1)HBASE_OPTS或者HBASE_REGIONSERVER_OPT变量来设置垃圾回收的选项,后面一般是用于配置RegionSe

2020-09-26 13:57:17 195

原创 HBase常用优化

1.表的设计1.1 预分区默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。public static boolean createTable(HBaseAdmin admin, HTableDescriptor table, b

2020-09-26 13:55:26 189 1

原创 HBase介绍

一、HBase引入概述Hadoop生态系统中的一个分布式、可拓展、面向列、可伸缩,具有自动容错功能的数据库。NoSQL数据库场景: 对海量数据进行随机读写、实时查询(对上亿条数据能够在秒级进行访问)表:上亿行百万列 ———TB级别甚至PB级别设备:廉价的商用服务器HBase:真正存储数据还是在HDFS,数据分析处理还是依赖于MapReduce二、HBase的表Table 逻辑模型:rowkey 行键 --> 类似于RDBMS的主键,唯一标识一行记录根据rowkey进行排序列簇

2020-09-26 13:50:26 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除