yehui_qy-CSDN博客

原创高维数据可视化

tsne- import tensorflow as tfimport mathfrom sklearn import datasetsfrom sklearn.manifold import TSNEimport numpy as npimport matplotlib.pyplot as plt#n_components 维数#iris_dataset = datasets.l

2017-10-26 15:19:18 2470

原创 tensorboard的使用

tensorboard启动pip show tensorflowpython tensorboard/**.py –logdir=”tensorboard数据分析

2017-10-18 11:10:16 519

原创 weka使用

简介集数据预处理、学习算法（分类、回归、聚类、关联分析）和评估方法等为一体的综合性数据挖掘工具。weka下载链接：https://sourceforge.net/projects/weka/files/weka-3-8/3.8.1/weka-3-8-1-oracle-jvm.dmg/download?use_mirror=nchc入口界面 Explorer （探索环境）Knowledge

2017-02-23 22:06:34 1352

翻译 weka使用调研

简介集数据预处理、学习算法（分类、回归、聚类、关联分析）和评估方法等为一体的综合性数据挖掘工具。weka下载链接：https://sourceforge.net/projects/weka/files/weka-3-8/3.8.1/weka-3-8-1-oracle-jvm.dmg/download?use_mirror=nchc入口界面 Explorer （探索环境）Knowledge

2017-02-20 15:04:24 759

转载多种数据过滤与降维算法

数据过滤1. 缺失值比率 (Missing Values Ratio) 方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此，可以将数据列缺失值大于某个阈值的列去掉。阈值越高，降维方法更为积极，即降维越少。2. 低方差滤波 (Low Variance Filter) 与上个方法相似，该方法假设数据列变化非常小的列包含的信息量少。因此，所有的数据列方差小的列被移除。需要注意的一点

2017-01-10 15:58:21 9023 1

原创计算广告领域的几大经典问题

大纲

2017-01-09 14:55:13 842

原创机器学习技能树

大纲

2017-01-09 14:51:32 1144

原创特征工程基础

大纲

2017-01-09 14:47:25 413

原创机器学习基础

大纲

2017-01-09 14:45:22 399

原创统计学相关基础

大纲

2017-01-09 14:44:35 563

转载机器学习-常见的数据预处理

背景常见的数据预处理方法

2016-12-21 20:36:36 19620 1

转载机器学习-数据归一化

定义数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。两种常用的归一化方法 min-max标准化Z-score标准化方法优点归一化后加快了梯度下降求最优解的速度

2016-12-21 17:09:52 11612

原创 libsvm使用

libsvm

2016-12-06 18:57:02 693

原创基本统计与统计分析

相关矩阵-相关系数与协方差的区别是：协方差的绝对值大小不能评判相关性强弱，而相关系数弥补了这个缺点。相关矩阵也叫相关系数矩阵，是由矩阵各列间的相关系数构成的。也就是说，相关矩阵第i行第j列的元素是原矩阵第i行和第j列的相关系数。这里的相关系数是指皮尔逊相关系数。著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关

2016-12-01 16:37:14 799

原创 crond定时任务

定时任务sudo touch /etc/cron.d/yehuisudo vim /etc/cron.d/yehui 47 14 * * * root bash /home/a/husky/apps/ecpm_algo_n_cmopeval/bin/mlp common_main_flow> /home/yehui.yh/common_main_flow.log 2>&1sudo ln -s

2016-11-28 15:46:17 380

原创机器学习-多分类问题

决策树和svm用于多分类的表现上的差异：

2016-11-18 15:53:37 11316

翻译数据分布-泊松分布

泊松分布的现实意义是什么？为何现实生活多数服从于泊松分布？一、基础概念在一个时间段内事件平均发生的次数服从泊松分布，这个次数在泊松分布中用lambda表示（与指数分布里面的意义一样，是一个时间段内事件平均发生的次数）。泊松分布(Poisson)是指某段连续的时间内某件事情发生的次数，而且“某件事情”发生所用的时间是可以忽略的。假如你把“连续的时间”分割成无数小份，那么每个小份之间都是相互独立

2016-11-18 15:14:27 9326

原创 sql

显示表中除了partition意外的所有列 select t.`(ds)?+.+` from table t;wm_concat(‘;’,cust_id) 聚合yin count(DISTINCT ) ，统计非空coalesce（a,0）相当于if(a=null,0,a)SELECT /+MAPJOIN(a) / 将a表放在内存中，用于到a表是小表导致数据倾斜的时候

2016-07-26 17:11:07 1701

原创 maven test debug 方法

在配置化自动化测试方法的执行依赖于maven test指定的配置文件的场景下，需要由maven test来触发的集成测试，无法直接采用idea debug test方法的方式；这种情况下可以采用maven debug的方式来debug代码，可以分为远程debug和本地debug两种模式，本文以远程debug为例子（这个方法和远程debug项目环境的开发代码类似）。

2016-07-21 07:39:43 9092 1

原创一些链接

测试

2016-07-19 10:25:43 503 1

翻译 Google protobuf

com.google.protobuf protobuf

2016-07-18 14:25:36 351

原创 Spring boot bean加载错误排查

加载哪个Bean的时候报错@Bean public HibernateExceptionTranslator hibernateExceptionTranslator(){ return new HibernateExceptionTranslator(); }<bean class="org.springframework.orm.hibernate4.Hibernate

2016-07-15 16:20:54 579

原创 spring boot

1. 事务相关part-1-making-your-own-hystrix-aspectpart-2-spring-jdk-proxies-vs-cglib-vs-aspectjpart-3-setting-up-aspectj-load-time-weaving2. unit testcontroller层级的web单元测试编写方法3. spring boot 插件的使用

2016-07-15 11:07:47 257

翻译欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-07-15 11:07:21 236

原创 logback.xml的配置

logback.xml的配置在代码编写过程中，为了便于排查问题，我们通常需要打印不同级别的日志信息，一般分为info、debug、error三个类型；按日期定义日志文件名称，并且设置最大日志大小和定时删除都是常用的功能；本文介绍以上功能如何实现。 logback.xml放置位置，一般放在resources文件夹下； logback默认加载配置文件的优先级是：

2016-07-15 10:51:47 1015

原创客户端去除SSL

当我们在程序中需要访问的上游服务是一个https服务时，会出现验证不通过的提示，此时需要在客户端去除SSL certificate

2016-07-14 22:14:43 762

yehui_qy的博客