简之-CSDN博客

原创常用的窗口函数

1、什么是窗口函数含义：窗口函数也叫OLAP函数（Online Anallytical Processing,联机分析处理），可以对数据进行实时分析处理。作用：解决排名问题，e.g.每个班级按成绩排名解决TOPN问题，e.g.每个班级前两名的学生语法：select 窗口函数 over (partition by 用于分组的列名， order by 用于排序的列名分类：排名函数：row_number()，rank()，dense_rank()聚合函数：max()，min()，count

2021-07-11 12:43:03 20485 2

原创自然语言处理中的Transformer

1、seq2seqseq2seq 是一个 Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。这个结构最重要的地方在于输入序列和输出序列的长度是可变的，可以用于翻译，聊天机器人，句法分析，文本摘要等。seq2seq的结构如下：当然，目前说到seq2seq，最为人所熟知的就是Transformer，Transformer的结构如下：2

2021-07-05 22:43:09 672 2

原创企业隐患排查文本挖掘比赛（三）：LGB文本分类(调参+阈值搜索)

1、数据集经过前两部分的处理，我们可以得到参与建模的变量，统计类特征的处理包括在mainProcess中，bert构建的特征包括在get_bert_features中，数据预处理如下：import warningswarnings.simplefilter('ignore')import reimport gcimport pickleimport numpy as npimport pandas as pdpd.set_option('max_columns', None)pd.se

2021-07-04 16:35:34 2167 5

原创企业隐患排查文本挖掘比赛（二）：算法篇（从词向量到BERT）

1、文本挖掘的历程对于NLP问题，首先要解决的是文本表示的问题。虽然人能够清楚地了解文本的含义，但是计算机只能处理数值运算，因此首先要考虑如何将文本转化为数值。1.1 向量表示1.1.1 词袋模型最初的方案是通过词袋模型把一个句子转化为向量表示。它不考虑句子中单词的顺序，只考虑词表（vocabulary）中单词在这个句子中的出现次数。如果是表示一个词，那就是one-hot的方式，比如我们想表示apple这个词，就在对应位置设置1，其他位置设置为0，如下：如果是表示一个句子，比如："John

2021-07-02 17:43:14 1211

原创企业隐患排查文本挖掘比赛（一）：数据篇

1、比赛说明基于文本挖掘的企业隐患排查质量分析模型1.1 赛题背景企业自主填报安全生产隐患，对于将风险消除在事故萌芽阶段具有重要意义。企业在填报隐患时，往往存在不认真填报的情况，“虚报、假报”隐患内容，增大了企业监管的难度。采用大数据手段分析隐患内容，找出不切实履行主体责任的企业，向监管部门进行推送，实现精准执法，能够提高监管手段的有效性，增强企业安全责任意识。1.2 赛题任务本赛题提供企业填报隐患数据，参赛选手需通过智能化手段识别其中是否存在“虚报、假报”的情况。1.3 赛题数据训练集：

2021-06-29 22:29:53 774 3

原创『pyspark』三：RDD数据处理

1、使用Pyspark1.1 Linking with Sparkfrom pyspark import SparkContext, SparkConf1.2 Initializing Sparkconf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)2、RDD2.1 读取数据2.1.1 parallelizerdd = sc.parallelize([('Amber', 2

2021-06-27 17:27:09 2287 1

原创『pyspark』〇：spark的安装、配置和使用

PySpark安装、配置和使用

2021-06-26 15:36:47 2919

原创『pyspark』二：RDD基础

Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量1、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD是最小的计算单元：为什么RDD是最小的计算单元？因为实际

2021-06-20 19:41:16 172

原创『pyspark』一：spark基础

1、简介1.1 spark VS hadoopspark和hadoop的根本差异是多个作业之间的数据通信问题：spark多个作业之间数据通信是基于内存，而hadoop是基于磁盘。1.2 核心模块spark core：提供spark最基础与最核心的功能spark SQL：spark用来操作结构化数据的组件，可以使用SQL来查询数据spark Streaming：spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的APIspark MLlib：机器学习算法库spark Gr

2021-06-20 17:54:45 227 1

原创 DSSM双塔模型及pytorch实现

本文介绍用于商业兴趣建模的 DSSM 双塔模型。作为推荐领域中大火的双塔模型，因为效果不错并且对工业界十分友好，所以被各大厂广泛应用于推荐系统中。通过构建 user 和 item 两个独立的子网络，将训练好的两个“塔”中的 user embedding 和 item embedding 各自缓存到内存数据库中（redis）。线上预测的时候只需要在内存中计算相似度运算即可。DSSM 双塔模型是推荐领域不中不得不会的重要模型。以 YouTube 视频推荐系统为例，一般推荐系统包括两个部分：第一步是召回模

2021-06-20 12:44:10 9453 18

原创信用评分卡模型

1、评分卡简介信用评分卡模型是最常见的金融风控手段之一，它是指根据客户的各种属性和行为数据，利用一定的信用评分模型，对客户进行信用评分，据此决定是否给予授信以及授信的额度和利率，从而识别和减少在金融交易中存在的交易风险。评分卡模型在不同的业务阶段体现的方式和功能也不一样。按照借贷用户的借贷时间，评分卡模型可以划分为以下三种：贷前：申请评分卡（Application score card），又称为A卡贷中：行为评分卡（Behavior score card），又称为B卡贷后：催收评分卡（

2021-06-19 23:11:34 4287 1

原创『pytorch』四：自定义模型

1、nn.Modulepytorch里面一切自定义操作基本上都是继承nn.Module类来实现的，因此首先要看一下nn.Module类的定义。1.1 类方法class Module(object): def __init__(self): # 核心功能 def forward(self, *input): # 每次运行时都会执行的步骤，所有自定义的module都要重写这个函数 def add_module(self, name, module):

2021-06-19 18:38:00 3072

原创『pytorch』三：建模流程

1、数据预处理数据预处理主要包括两个函数data.TensorDataset和data.DataLoader，其中：data.TensorDataset：用来对 tensor 进行打包，就好像 python 中的 zip 功能，生成的数据集可索引可迭代。data.DataLoader：用来包装所使用的数据，每次抛出一批数据（batch_size）。# 划分训练集和测试集样本train_features = torch.tensor(all_features[:n_train].values,

2021-06-19 18:08:18 240

原创『pytorch』二：自动求梯度（autograd）

1、概念Tensor是这个包的核心类，如果将其属性.requires_grad设置为True，它将开始追踪(track)在其上的所有操作。完成计算后，可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。注意在调用.backward()时，如果Tensor是标量，则不需要为backward()指定任何参数；否则，需要指定一个求导变量。如果不想要被继续追踪，可以调用.detach()将其从追踪记录中分离出来，这样就可以防止将来的计算被追踪。此外，还可以用wi

2021-06-19 17:38:01 356

原创『pytorch』一：数据处理

数据处理1.创建tensor1.1 直接创建直接根据数据创建:x = torch.tensor(2,3) # 创建 2*3 的 tensorx = torch.tensor([5.5, 3]) # 创建 tensor，值为[5.5, 3]print(x)# tensor([5.5000, 3.0000])# 在制定 GPU 上创建与 data 一样的类型torch.tensor(data, dtype=torch.float64, device=torch.device(

2021-06-16 18:23:49 344 1

原创『统计学』第五部分：方差分析和F检验

『方差分析』第四部分的卡方检验是研究类别变量之间的关系，而这一部分的方差分析则是研究类别型自变量与数值型因变量之间的关系，它在形式上是比较多个总体的均值是否相等。从形式上看，方差分析与之前的t检验或z检验区别不大，都是检验均值是否相等，但在比较多个均值时，t检验需要做多次两两比较的假设检验，而方差分析只需要一次，并且方差分析中是将所有的样本信息结合在一起，增加了分析的可靠性。下面我们仍旧从三...

2019-08-11 16:42:35 29561 4

原创『统计学』第四部分：回归分析和卡方检验

回归分析线性回归中的平方误差

2019-08-11 14:58:11 6666

原创『统计学』第三部分：假设检验

1、假设检验和p值

2019-08-04 12:35:12 4367 2

原创『统计学』第二部分：中心极限定理及其应用

请求

2019-07-31 23:54:23 10600 3

原创『统计学』第一部分：常用概率分布

期望值其实就是总体的均值只是随机变量的总体是无穷的，无法全部求和然后取平均值，于是我们需要用到频率进行加权平均，这同老式的求平均方法其实没有本质区别。二项分布泊松分布...

2019-07-31 00:03:32 2373

原创如何改善深层神经网络

对于深度学习，模型训练过程中可能会遇到一些问题，这些问题可能出自训练阶段，也可能出自测试阶段。训练阶段的问题主要是模型可能根本就train不出来，测试阶段的问题主要是过拟合的问题。对于不同的问题，我们采用不同的方法解决，解决方法如下图所示：我们分别就训练阶段和测试阶段来看一下具体问题，及其解决方法：（1）训练阶段：如果训练阶段发现模型根本就train不出来，常见的问题就是梯度消失或梯度爆炸...

2019-05-21 13:25:46 1681

原创机器学习算法的一般结构

1. 算法框架跟把大象放进冰箱里一样，李宏毅老师将机器学习方法总结为三步，如下：总结来说，就是如下三步：Define a set of function（Model）Goodness of function（Objective Function）Pick the best function（Gradient Descent）所有机器学习算法都满足这个架构，所以提到一种算法，我们就...

2019-05-13 17:48:02 1464

原创 SVM的梯度下降解释及其算法比较

首先说明一点，SVM的算法原理和其它机器学习算法是一致的，其中引入了两个最核心的概念就是hinge loss和kernel trick，这篇本章主要结合这两个部分说明SVM。...

2019-05-13 16:18:27 7668 1

原创推荐系统之YouTube推荐算法中的召回策略

YouTube深度学习推荐系统论文

2019-05-08 17:40:32 1913

转载推荐系统中的常用评测指标

推荐系统中的评价指标有很多，下面来系统的总结一下，这些指标有的适用于二分类问题，有的适用于对推荐列表Topk的评价。1、精确率、召回率、F1值我们首先来看一下混淆矩阵，对于二分类问题，真实的样本标签有两类，我们学习器预测的类别有两类，那么根据二者的类别组合可以划分为四组，如下表所示：上表即为混淆矩阵，其中，行表示预测的label值，列表示真实label值。TP，FP，FN，TN分别表示如下...

2019-05-07 19:11:14 1034

原创从后验概率到逻辑回归，从逻辑回归到神经网络

从后验概率到逻辑回归，从逻辑回归到神经网络1. 后验概率对于给定数据，我们首先假设数据是由某种分布产生的，这样，根据贝叶斯公式我们可以得到后验概率分布，将后验概率最大的类作为xxx的类输出。后验概率计算根据贝叶斯定理进行：(1)P(Y=ck∣X=x)=p(X=x∣Y=ck)P(Y=ck)∑kp(X=x∣Y=ck)P(Y=ck)P(Y=c_k|X=x) = {p(X=x|Y=c_k)P(Y=c...

2019-05-07 13:52:07 2876 1

原创深度学习中的优化方法

深度学习中的优化方法：以下内容会包括下面几种优化方法：Gradient DescentAdagradMomentumRMSProPAdam1. Gradient Descent首先，Gradient Descent是我们最常用的优化方法，梯度下降的参数更新公式为：(1)θi=θi−1−η∇L(θi−1)\theta^i = \theta^{i-1} - \eta \nabla...

2019-05-06 13:54:07 727 1

原创 tf.nn.embedding_lookup函数的工作原理

tf.nn.embedding_lookup函数的工作原理函数定义：tf.nn.embedding_lookup( params, ids, partition_strategy='mod', name=None, validate_indices=True, max_norm=None)官方解释：This function is use...

2019-05-01 15:04:43 665

原创 libsvm/libffm与dataframe格式相互转换

1. libsvm与dataframe格式相互转换## 将libsvm转为dataframefrom sklearn.datasets import load_svmlight_filefrom pandas import DataFrameimport pandas as pdX_train, y_train = load_svmlight_file("libsvm_data.txt...

2019-04-29 18:23:24 4871 2

原创用户画像系统概述

1. 用户画像的概念1.1 什么是用户画像？用户画像是对现实世界中的用户的数学建模。1.2 用户标签画像用户标签画像是用标签标示方法来表示用户。标签是某一种用户特征的符号表示；用户画像是一个整体，各个维度不孤立，标签之间有联系；用户画像可以用标签的集合来表示。1.3 用户标签的数学描述：标签是特征空间中的维度。特征空间：每个标签都是特征空间中的基向量；基向量之间有关联...

2019-04-27 15:09:30 7247 1

转载 Pandas实现Hive中的窗口函数

1、Hive窗口函数我们先来介绍一下Hive中几个常见的窗口函数，row_number(),lag()和lead()。row_number()该函数的格式如下：row_Number() OVER (partition by 分组字段 ORDER BY 排序字段排序方式asc/desc)简单的说，我们使用partition by后面的字段对数据进行分组，在每个组内，使用ORDER BY...

2019-04-26 12:52:57 2637

原创 git常用操作

git常用操作1、cd进入目录：2、把当前目录变成git可以管理的仓库：git init3、添加文件：单个文件：git add readme.md全部文件：git add -A4、提交修改：git commit -m “一定要写备注”5、查看是否还有未提交任务：git status6、查看最近日志：git log7、版本回退操作：回退一个：git reset -hard...

2019-04-25 16:46:56 184

原创论文精读（一）——XGBoost：A Scalable Tree Boosting System

论文精读（一）——XGBoost：A Scalable Tree Boosting System

2019-04-21 14:36:40 1917

原创统计学习方法（7）前向分步算法推导AdaBoost的详细过程

由前向分步算法可以推导Adaboost，用定理叙述这一关系：定理：AdaBoost算法是前向分步加法算法的特例。这时，模型是由基本分类器组成的加法模型，损失函数是指数函数。证明：前向分步算法学习的是加法模型，当基函数为基本分类器时，该加法模型等价于AdaBoost的最终分类器：f(x)=∑m=1MαmGm(x)f(x) = \sum_{m=1}^{M} \alpha_{m}G_{m}(x...

2019-04-19 17:25:23 1016 1

原创用GBDT构建组合特征

用GBDT构建组合特征

2019-04-13 19:42:28 4362 3

原创 GBDT（sklearn/lightgbm）调参小结

GBDT（sklearn/lightgbm）调参小结原理参数选择特征重要度

2019-04-13 19:37:36 19938 11

原创 pycharm通过ssh连接远程服务器

由于想要使用pycharm连接Window子系统Ubuntu进行开发，找了很多教程都不够详细，花了点儿时间，最后配置成功。将pycharm连接Window子系统的配置过程总结如下，连接其它远程服务器的过程相同：一、Ubuntu配置1、首先安装 ssh server：&gt; sudo apt-get install openssh-server2、修改 ssh server 配置：&...

2019-03-18 12:24:54 33763 1

原创 ubuntu配置git工具

使用ubuntu，如果想从github上clone文件，需要做一些简单的配置，不然会出现如下错误：&gt; git clone --recursive [email protected]:lujiaying/MovieTaster-Open.gitPermission denied (publickey).fatal: Could not read from remote repository....

2019-03-17 16:28:55 2363

原创关于python中的全局变量、局部变量及递归中的使用

本文主要总结python中的全局变量、局部变量和函数调用时的可变对象的使用：1、关于全局变量和局部变量（1）如果函数内无global关键字，优先读取局部变量，无局部变量则读取全局变量，不能对全局变量重新赋值。name = 'jack'def change_name(): name = 'john' print(name)change_name()print(name...

2018-11-22 14:39:26 7075 4

原创关于二叉树的相关题目

\qquad二叉树在数据结构中具有十分重要的作用，很多算法题都使用到树的思想。将复杂的算法题转化为简单子问题，并用树的形式表示，可以直观理解划分的过程，有利于分析和写出算法程序。比如：对于递归问题，就可以转化成树的形式，将树的叶节点作为终止条件，将树的生成过程作为迭代公式，根据题目要求使用先序、中序、后序遍历，下面总结有关二叉树的相关题目，二叉树的题目普遍可以用递归和迭代的方式来解：首先写出二叉...

2018-11-20 22:11:11 328

空空如也

空空如也