7 anshuai_aw1

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 9k+

解决Hive中collet_list列表排序混乱:sort_array

这篇文章写的比较扯淡。。。。由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可。sort_array就是对array进行排序,且只能升序。我在这里举一个完整的例子和代码:如果,我们有如下的数据集(借助了参考文献1的数据),我们希望对memberid进行分组,依照legcount的顺序,...

2019-07-25 15:13:51

理解多元高斯分布

p(x;μ,Σ)=1(2π)n/2∣Σ∣1/2exp⁡(−12(x−μ)TΣ−1(x−μ))p(x;\mu , \Sigma)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))p(x;μ,Σ)=(2π)n/2∣Σ∣1/21​exp(−21​(x−μ)TΣ−1(x−μ))此时我们说随机变量 [公式] 服从一元标准高斯分布, 其均值 [公式] , 方差 [公式] , 其概率密度函数为Z=X−

2020-05-08 21:37:05

关于协方差矩阵的理解

转载自《关于协方差矩阵的理解》

2020-05-07 20:39:26

Hive操作的笔记:如何查Hive表某个分区的最后更新时间等

记录一些自己在工作的一些小功能的代码实现,不断补充记录。一、如何查Hive表某个分区的最后更新时间。通过查HDFS可以得知:1: 查询某个表的HDFS地址desc formatted app.app_vdp_cate_health_cate1_coinuser_associndex;2: 进入到地址中dfs -ls hdfs://ns7/user/mart_vdp/...

2020-04-02 14:31:08

推荐系统(二):PNN源论文整理和思考

文章目录一、背景二、PNN思想和模型三、优化四、代码实践。参考文献一、背景PNN源论文为《Product-based Neural Networks for User Response Prediction》,是上海交大团队发表在ICDM 2016上。本文在阅读源论文和网上其它资料的基础上,重点整理了论文的细节和思想。我们已经知道,在信息检索领域(IR,Information Retriev...

2020-03-31 18:57:45

(二)FFM(Field-aware Factorization Machine)原理

一、背景FFM算法,全称是Field-aware Factorization Machines,是FM(Factorization Machines)的改进版。FFM由Yu-Chin Juan与其比赛队员提出,他们借鉴了field(域)概念提出了FM的升级版模型。简单来说,通过引入field的概念,FFM把相同性质的特征归于同一个field。本文主要介绍FFM的理论,由于其算法复杂度比较高,在...

2020-03-30 17:45:39

推荐系统(一):Wide & Deep源论文整理和思考

最近有一批业务需要用到推荐算法,因此,准备认真整理一下自己学习的推荐算法的思路,以便于正确地应用和对比。一、推荐算法1.1 背景首先应该需要了解推荐算法的一些基本思路,我之前整理过一篇《(一)推荐算法概述——以协同过滤为主》。简单来说,推荐系统分为两种: CF-Based(协同过滤)、Content-Based(基于内容的推荐)协同过滤(collaborative filtering)就...

2020-03-26 14:00:11

Tensorflow.Dataset中map,shuffle,repeat,batch的总结

Dataset API是TensorFlow 1.3版本中引入的一个新的模块,主要服务于数据读取,构建输入数据的pipeline。Google官方给出的Dataset API中的类图:我们本文只关注Dataset的一类特殊的操作:Transformation,即map,shuffle,repeat,batch等。在正式介绍之前,我们再回忆一下深度学习中的一些基本概念。batch siz...

2020-03-25 15:03:54

Tensorflow.feature_column的总结

一、简介tensorflow提供了一个功能强大的特征处理函数tf.feature_column,feature columns是原始数据与estimator之间的过程,其内容比较丰富,可以将各种各样的原始数据转换为estimator可以用的格式。特征数据主要包括categorical和dense(numeric或者continuous)两类,处理方法是使用tensorflow中的feature...

2020-03-24 19:34:18

Python: Matplotlib中subplots多子图绘图的一些tricks

本文转载自《Matplotlib中多子图绘图时,坐标轴及其label的几种排布方式》。目录1、最普通的2、只在最外层坐标轴显示 Label3、如果 x label和y label 都一样可以只显示一个4、刻度也只在最外侧显示5、或者Label仍然分开显示6、加入 colorbar7、整个 fig 共用一个 colorbar8、colorbar 横置9、...

2020-03-02 10:54:41

Git, GitHub和GitLab的区别和联系

话说有将近一年没更新过博客了。惭愧。今天整理下Git, GitHub和GitLab这三个名词的概念,虽然经常用GitHub,但是其实对于这些概念还是有些混淆。一、GitGit是一种版本控制系统,是一个命令和工具。Git是一个开源的分布式版本控制系统(Version Control System),它没有中央服务器的概念,用户需要修改某个文件时,必须把代码仓库完整地镜像下来而不是只提取...

2020-02-17 11:57:34

PU learning简介(附python代码)

一、引言在现实生活中,有许多只有正样本和大量未标记样本的例子。这是因为负类样本的一些特点使得获取负样本较为困难。比如:负类数据不易获取。负类数据太过多样化。负类数据动态变化。举一个形象点的例子:比如在推荐系统里,只有用户点击的正样本,却没有显性负样本,我们不能因为用户没有点击这个样本就认为它是负样本,因为有可能这个样本的位置很偏,导致用户没有点。因此,有研究人员开始关注PU Lea...

2019-04-23 18:16:50

深入理解L0,L1和L2正则化

正则化技术是机器学习中常用的技术,一般是用来解决过拟合问题的。为什么范数可以作为机器学习的正则化项?为什么L1正则化可以用来进行特征选择的工作?为什么正则化可以解决过拟合问题?本篇博客从机器学习中为什么需要范数讲起,引出L0L_0L0​,L1L_1L1​ 和 L2L_2L2​的定义,然后回答上述的问题。文章目录一、损失函数与目标函数二、范数与正则项2.1 定义2.2 L1和L2 范数的对比2.2...

2019-04-21 18:27:57

分类问题中类别不平衡问题的有效解决方法

LightGBM二分类处理:在LGBM的文档中,可以看到有两个参数来处理类别不平衡,分别是is_unbalance和scale_pos_weight 。在上图中的介绍中,这2个参数只能选其一,不能同时选。这说明了什么呢?这2个参数肯定是起到了相同的作用。这2个参数的关系是什么呢?在issue中找到了答案:if is_unbalance = true, weight of each pos...

2019-04-14 14:13:51

适合工业界的特征选择方法介绍

一直想写一篇关于特征选择(Feature Selection)的博客。有两个原因:第一、特征选择对于传统机器学习任务是十分重要的;第二、自己在硕士期间的研究方向就是特征选择,对于学界前沿的特征选择方法是有那么一丢丢了解的。在有监督,无监督,半监督以及单标签,多标签各种场景下,也做过一些工作:《Local-nearest-neighbors-based feature weighting for...

2019-04-02 12:44:23

Spark性能调优详解

本文完全转载自《美团技术沙龙》和过往记忆博客。在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执...

2019-04-01 15:46:39

蓄水池采样算法(Reservoir Sampling)原理,证明和代码

有一个在大数据下很现实的例子:“给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。”解决这个问题既需要算法设计,又需要一些概率论知识,因此对于大多数人,起码包括我,这不是一个立刻就能想出答案的问题。解决这个问题的算法叫蓄水池采样(Reservoir Sampling)算法。本篇博客介绍该算法的原理、证...

2019-03-22 21:01:30

(一)异常检测算法:Isolation Forest原理及其python代码应用

异常检测 (anomaly detection),又被称为“离群点检测” (outlier detection),是机器学习研究领域中跟现实紧密联系、有广泛应用需求的一类问题。但是,什么是异常,并没有标准答案,通常因具体应用场景而异。大多数文献对异常的定义虽然笼统,但其实暗含了认定“异常”的两个标准或者说假设:异常数据跟样本中大多数数据不太一样。异常数据在整体数据样本中占比比较小。为了刻...

2019-03-13 20:19:16

Python: 一文看懂pandas的透视表pivot_table

本文转载自知乎《Pandas|一文看懂透视表pivot_table》,在原文基础上略有增删改。感谢原作者非常生动的例子。目录一、概述1.1什么是透视表?1.2为什么要使用pivot_table?二、如何使用pivot_table2.1读取数据2.2Index2.3Values2.4Aggfunc2.5Columns2.6pivot_t...

2019-03-11 18:31:21

python:column_or_1d用法

今天在读代码的时候,发现Python sklearn的utils有个这样的函数:sklearn.utils.validation.column_or_1d。第一次遇到这个函数,记录一下用法。在机器学习任务中,这个函数一般是对数据集的Y进行操作。官方说明如下:可以看到对1维array进行raval()。warn是提出警告。这个警告是说,如果我们输入的y是2D的形式(shapes, 1...

2019-03-11 15:38:10

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。