nj_hgr-CSDN博客

原创机器学习项目流程

一、EDA（Exploratory Data Analysis）EDA：也就是探索性的分析数据* 目的：理解每个特征的意义；知道哪些特征是有用的，这些特征哪些是直接可以用的，哪些需要经过变换才能用，为之后的特征工程做准备；1）每个特征的意义、特征的类型：df.describe()df[‘Category’].unique()2）看是否存在 missing value（特征数据是否缺失）df.loc[df.Dates.isnull(),‘Dates’]3）看每个特征下的数据分布，用

2020-09-26 14:37:56 140

原创机器学习简介

机器学习常见算法划分（1）分类：KNN，决策树，贝叶斯，LR，SVM，神经网络,adaboost等（2）回归：线性回归等（3）聚类：k-means,层次聚类等（4）降维：PCA,SVD等（5）推荐：关联规则,协同过滤算法等模型评估与选择Ø在用算法解决实际任务需求时，可以有很多种算法做选择，获得不同的模型，或者由同一个学习算法的不同参数选择，得到不同的模型，选择哪一个算法，选择哪一个参数呢？这就是机器学习算法中的模型选择问题。Ø可以通过测试来评估学习器（模型）的泛化误差，进而选择好的模型。那么

2020-09-26 14:31:31 131

原创隐马尔科夫模型介绍

1 隐马尔科夫模型介绍在马尔科夫模型中，每个状态代表了一个可观察的事件，所以，马尔科夫模型有时有称作可视马尔科夫模型（visible Markov model，VMM），这在某种程度上限制了模型的适应性。在隐马尔科夫模型（HMM）中，我们不知道模型所经过的状态序列，只知道状态的概率函数，也就是说，观察到的事件是状态的随机函数，因此，该模型时一个双重的随机过程。其中，模型的状态转换过程是不可观察的，即隐蔽的，可观察事件的随机过程是隐蔽的状态转换过程的随机函数。我们可以通过如下例子来说明HMM的含义。假定

2020-09-26 14:28:51 218

原创 storm

目录1. 场景假设2. 调优步骤和方法3. Storm 的部分特性4. Storm 并行度5. Storm 消息机制6. Storm UI 解析7. 性能优化场景假设在介绍 Storm 的性能调优方法之前，假设一个场景：项目组部署了3台机器，计划运行且仅运行 Storm(1.0.1) + Kafka(0.9.0.1) + Redis(3.2.1) 的小规模实验集群，集群的配置情况如下表：主机名硬件配置角色描述hd012CPUs, 4G RAM, 2TB 机械硬盘nimbus, supervi

2020-09-26 14:10:52 213

原创 HBase性能调优

近期在处理HBase的业务方面常常遇到各种瓶颈，一天大概一亿条数据，在HBase性能调优方面进行相关配置和调优后取得了一定的成效1.垃圾回收优化Java本身提供了垃圾回收机制，依靠JRE对程序行为的各种假设进行垃圾回收，但是HBase支持海量数据持续入库，非常占用内存，因此繁重的负载会迫使内存分配策略无法安全地依赖于JRE的判断：需要调整JRE的参数来调整垃圾回收策略。（1）HBASE_OPTS或者HBASE_REGIONSERVER_OPT变量来设置垃圾回收的选项，后面一般是用于配置RegionSe

2020-09-26 13:57:17 195

原创 HBase常用优化

1.表的设计1.1 预分区默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。public static boolean createTable(HBaseAdmin admin, HTableDescriptor table, b

2020-09-26 13:55:26 189 1

原创 HBase介绍

一、HBase引入概述Hadoop生态系统中的一个分布式、可拓展、面向列、可伸缩，具有自动容错功能的数据库。NoSQL数据库场景：对海量数据进行随机读写、实时查询（对上亿条数据能够在秒级进行访问）表：上亿行百万列 ———TB级别甚至PB级别设备：廉价的商用服务器HBase：真正存储数据还是在HDFS，数据分析处理还是依赖于MapReduce二、HBase的表Table 逻辑模型：rowkey 行键 --> 类似于RDBMS的主键，唯一标识一行记录根据rowkey进行排序列簇

2020-09-26 13:50:26 182

weixin_42059327的博客