leboop-L-CSDN博客

原创徒手实践深度学习完整项目（一）——图像识别（基于深度学习框架TensorFlow2.0、Keras，含构建原理、代码和部署细节）

目录CIFAR-10数据集简介项目环境项目实践项目部署CIFAR-10数据集简介官网下载地址：《CRFAR-10数据集》 CIFAR-10数据集由Alex Krizhevsky, Vinod Nair和Geoffrey Hinton收集。如图：一共包含10 个类别的RGB 彩色图片：飞机（ airplane ）、汽车（ aut...

2020-04-17 20:42:40 761

原创 word2vec和doc2vec模型详解及应用

词袋模型（Bag of Word Model）将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的。例如如下2个例句：Jane wants to go to Shenzhen.Bob wants to go to Shanghai.就可以构成一个词袋，袋子里包括{ Jane，wants，to，go，Shenzhen，Bob，Shangh...

2020-04-11 19:13:03 1158

原创 Java死锁分析（jstack、jconsole、JProfiler、Linux和Windows）

死锁代码示例/** * Created by leboop on 2019/1/16. */public class DeadLock implements Runnable { private String a = ""; private String b = ""; public DeadLock(String a, String b) { ...

2019-01-16 22:29:52 1682

转载模拟登录（Python）

"""模拟登录"""import requestsfrom lxml import etreeEMAIL = '********'PASSWORD = '********'class Login(object): def __init__(self): self.session = requests.Session() self.head...

2019-01-14 18:58:00 1963 1

原创验证码识别（Python）

图形验证码识别图形验证码最早出现，也很常见，一般由4个字母或者数字组成。例如，中国知网注册页面采用的就是图形验证码，链接为http://my.cnki.net/elibregister/commonRegister.aspx，页面如下：该注册页面表单最后一项就是图形验证码，必须正确输入图形验证码才可以完成注册。该图形验证码其实是一张图片，上面是经过变形的4个大写字母，并...

2019-01-10 13:06:13 1133

原创机器学习之支持向量机SVM（理论基础）

本文符号约定参见《机器学习之矩阵微积分及其性质》。考虑如下一般形式的约束优化问题（constrained optimization problem）： ...

2018-12-22 01:44:52 2423

原创 Linux系统安装Python3环境（超详细）

本文基于如下Linux系统版本：1、默认情况下，Linux会自带安装Python，可以运行python --version命令查看，如图：我们看到Linux中已经自带了Python2.7.5。再次运行python命令后就可以使用python命令窗口了（Ctrl+D退出python命令窗口）。2、查看Linux默认安装的Python位置看到/usr/bin/python...

2018-12-05 14:31:15 220749 78

原创 Spark 2.3.0 Structured Streaming详解

一、什么是Structured Streaming 结构化流（Structured Streaming）是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎。你可以使用与静态数据批处理计算相同的方式来表达流计算。当不断有流数据到达时，Spark SQL引擎将会增量地、连续地计算它们，然后更新最终的结果。最后，系统通过检查点和预写日志的方式确保端到端只执行一次的容错保证。...

2018-08-13 21:29:19 9824 1

原创第6章-用户标签体系与用户画像

和属于用户视角下的数据分析。用户标签是进行用户画像的基础，用户画像可以辅助业务人员制定用户分群策略。

2024-01-07 14:32:50 1113

指标体系是指系统地反映评价对象整体的多个具体指标的集合。指标体系有指标和维度两个构件组成。指标其实就是与业务相关的连续型变量的某个统计量，例如金额、频次、数量等，是反映企业经营管理在一定时间和条件下的规模、程度、比例、结构等的概念和数值，而维度通常是分类型变量，例如产品维度、渠道维度，是对企业在业务经营过程中涉及的对像的属性进行划分的方式。指标通常有基础数据汇总而来，例如“总销售额”指标，可以通过交易的销售明细汇总得到，然后与地区、产品、渠道等维度相结合，以报表形式呈现，继而可以做仪表盘或进行多维分析。

2024-01-06 12:05:11 1015

原创各章练习题解析

第1题A选项：敏捷分析阶段主要针对业务宏观方面的分析，如财务报表、财务报告或经营分析。行为分析阶段对应的是微观个体层面的洞察。C选项：在协同思维阶段，业务运营人员会逐渐认识到数据驱动的重要性，与数学科学家合作一同完成模型的开发，也就是业务与技术的协同。D选项：自适应阶段其实属于企业自主决策阶段，自主决策阶段，实现数据自适应，业务流程完全自动化。在该阶段流程中，当发现存在生产问题时，会自动识别出现问题的具体原因，并进行及时修正。也会涉及业务流程优化。

2024-01-03 15:13:34 479

原创第1章 EDIT模型概述

在进行预测时，我们是在用户个体层面上进行分析、建立模型的，这样的分析属于微观层面。在开始建立模型时，一般情况下都是数据科学家主导建模，但是数据科学家对业务的理解并不是那么透彻，为了更好的分析业务需求，业务运营人员与数据科学家进行深度合作，企业进入协同思维阶段，也被称为协同分析。随着数据应用场景逐渐丰富，企业开始进行数据产品化管理，数据产品的需求量越来越大，于是进入了分析应用阶段。包括定性的外部因素分析、内部因素分析，以及定量的画像分群分析、趋势维度分析、漏洞洞察分析、行为轨迹分析和留存分析。

2024-01-03 14:45:40 913

原创第9章-用户分群方法-K-means聚类算法

给定个样本构成的样本集，每个样本有个特征。算法步骤如下：1、随机选取（超参数）个质心，其中，每个质心对应一个类别，分别记作；2、对于每个样本，计算该样本到每个质心的距离将分配到距离最近的质心对应的类别中，如下：；如果样本类别不再变化，停止。3、重新计算每个类别的质心得到个类别的质心。4、更新，继续步骤2。如图：图（a）中是所有的样本点的分布，从分布来看，初步将样本分为两类，所以设置；图（b）中红色和蓝色叉是随机选择的两个质心，类别分为标记为。

2023-12-29 11:39:55 889

原创第9章-用户分群方法-层次聚类

层次聚类算法（Hierarchical Clustering）根据层次分解的顺序分为：自下向上和自上向下，即凝聚的（agglomerative）层次聚类算法和分裂的（divisive）层次聚类算法，也可以理解为自下而上法（bottom-up）和自上而下法（top-down）。：凝聚型层次聚类，就是一开始每个个体（object）都是一个类，然后根据联系（linkage）寻找同类，最后形成一个“类”。

2023-12-27 15:51:15 416

原创第9章-用户分群方法-聚类评估指标

聚类是一种无监督分类算法，通常给定的样本没有类别或标签，聚类结果的好坏难以使用有监督模型的评估方法衡量。聚类评估指标思想在于类簇内的差异尽可能小，也就是紧密度高，而类簇间差异尽可能大，也就是分离度高。本文主要介绍轮廓系数（Silhouette Coefficient Index）、均方根标准差（Root-Mean-Square Standard Deviation，RMSSTD）、R-Square、调整的兰德指数（ARI）。

2023-12-27 13:08:52 559

原创第7章-使用统计方法进行变量有效性测试-7.5.5-因果推断模型

CausalML是一个Python包，它使用基于最近研究的机器学习算法提供了一套增益建模（Uplift Modeling）和因果推理（Causal Inference）方法。它提供了一个标准界面，允许用户根据实验或观察数据估计条件平均干预效果（Conditional Average Treatment Effect，CATE）或个体干预效果（Individual Treatment Effect，ITE）。本质上，在没有对模型形式进行强假设的情况下，CausalMl估计了对具有特征的用户进行干预。

2023-12-15 22:20:25 944

原创第7章-使用统计方法进行变量有效性测试-7.5.4-模型评估

准确率（Accuracy）是指分类正确的样本数占总体样本数的比例，即从混淆矩阵来看，行总（TP）TP+FN（TN）FP+TN列总TP+FPFN+TN对角线元素之和即为分类正确的样本数，所有元素之和即为样本总数，也就是精准率（Precision或者Positive Predictive Value）是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。从混淆矩阵来看，行总（TP）TP+FN（TN）FP+TN列总TP+FPFN+TN。

2023-12-10 11:36:40 992

原创第7章-使用统计方法进行变量有效性测试-7.5-逻辑回归

第一轮抛掷10次，4次正面向上，6次反面向上。从结果来看，curPlan，avgplan，nrProm，peakMinAv均不显著，删除后（是否删除需要结合业务的理解判断，这里直接删除），重新拟合。这里，就只知道事件或者状态的结果，也就是正面出现7次，反面出现3次。当模型加入该变量后，要对原有的变量进行检验，一旦某个变量变得不显著，就从模型中删除该变量（向后回归法）。统计学家赤池弘次创立和发展的，因此又称赤池信息量准则，它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

2023-12-03 19:34:43 789

原创第7章-使用统计方法进行变量有效性测试-7.3-列联表分析与卡方检验

卡方检验的思想是比较期望频数和实际频数的吻合度。实际频数指的就是交叉表中，而期望频数指的是当行变量与列变量相互独立时的频数。

2023-11-26 13:06:54 1007

原创第7章-使用统计方法进行变量有效性测试-7.4.2-多元线性回归

从以上结果中，可以看到模型的为0.720，拟合效果还是不错的。默认显著性水平，F检验的p值为8.36e-14，接近0，拒绝原假设：，说明回归系数不为0。从单个系数的显著性t检验来看，初步判断gender、dist_avg_income及edu_class是显著的，P>|t|的值接近0。对于目前表现不显著的变量，需要进一步对模型调优后作出显著与否的判断。

2023-11-23 15:18:41 1247 3

原创第7章-使用统计方法进行变量有效性测试-7.4.1-简单线性回归

变量之间的关系，一般可以分成两类，确定性关系和非确定性的依存关系。（1）确定性关系如果一个变量的值能被一个或若干个其他变量值按某一规律唯一的确定，则这类变量之间就具有完全确定的关系。可以写成如下形式：这里就是“按某一规律唯一的确定”中的那个唯一的规律。确定性关系通常也称为函数关系。事实上，上式就是我们熟悉的多元函数。其中为自变量，为因变量。例如：假设每吨水的价格为10元时，居民应缴纳水费（元），与用水量（吨）之间的关系就是一个确定性关系，确定性关系如下：（2）非确定性关系。

2023-11-21 14:14:38 184

原创第7章-使用统计方法进行变量有效性测试-7.2.1-单因素方差分析

方差分析就是用于检验每组样本均值是否有显著性差异，如果没有显著性差异，则说明信用卡消费不受教育程度的影响，否则，信用卡消费受教育程度的影响。它将信用卡消费分成三组，初等教育程度的信用卡消费分为第一组，中等教育程度的信用卡消费分为第二组，高等教育程度的信用卡消费分为第三组。因素的不同水平(不同总体)下,各观察值之间的差异，这种差异可能是由于抽样的随机性所造成的，也可能是由于行业本身所造成的，后者所形成的误差是由系统性因素造成的，称为系统误差。，比如例子中的教育程度，就是影响信用卡消费的一个因素。

2023-11-12 21:43:46 255

原创第7章-使用统计方法进行变量有效性测试-7.1-假设检验

假设检验，我们从品茶的女士这个故事开始说起。希望这篇文章能给您带来极大的收获。

2023-11-04 23:00:47 337

原创一些常见分布-正态分布、对数正态分布、伽马分布、卡方分布、t分布、F分布等

当，称为标准正态分布，即。对数正态分布（logarithmic normal distribution）是指一个的对数服从正态分布，则该随机变量服从对数正态分布。对数正态分布从短期来看，与正态分布非常接近。但长期来看，对数正态分布向上分布的数值更多一些。假设服从的正态分布为，概率密度函数为，服从的分布为，概率密度函数为。显然有。下面证明的概率密度函数表达式如上面所示。一般我们通过分布函数和概率的定义来证明。，因为，则即，两边对求导，得到：，即：。

2023-10-08 15:08:13 1223

原创第5章-宏观业务分析方法-5.5-多维尺度分析

在商业分析中，经常需要了解不同观测之间（不同产品之间，不同用户之间）的差异程度或相似程度，用以发现产品间的关系、或者用户间的关系等。不同观测之间的差异性或者相似性的度量方式有很多，比如基于余弦公式的相似度，或者基于欧式距离的相似度，等等。注意到差异性和相似性相反，也就是说差异性越大，相似性越小，反之亦然。本文以欧式距离衡量差异性为例说明。多维尺度分析（Multi-Dimensional Scaling,MDS）是一种数据降维和可视化方法。

2023-10-06 16:06:16 205

原创第5章-宏观业务分析方法-5.4-因子分析

矩阵的特征值分解只对方形矩阵有效。让我们看看什么是正方形矩阵。在方形矩阵中，行数和列数是一样的。比如说：这是两行两列的矩阵，一般叫作阶矩阵。同样的，如果矩阵有n行n列，称之为阶矩阵，或者n阶矩阵。下面来继续讨论特征值和特征向量的概念。

2023-10-05 08:39:14 169

原创第5章-宏观业务分析方法-5.3-主成分分析法

主成分分析是以最少的信息丢失为前提，将原有变量通过线性组合的方式综合成少数几个新变量；用新变量代替原有变量参与数据建模，这样可以大大减少分析过程中的计算工作量；主成分对新变量的选取不是对原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息；同时选取的新变量之间互不相关，能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

2023-10-01 20:38:58 934

原创第3章-指标体系与数据可视化-3.2-描述性统计分析与绘图

一个变量的分布有有限个参数，例如正态分布有两个，均值和标准差，只要明确了这些参数，该变量分布就确定了。名义变量是指没有顺序的分类型变量，例如“性别”（男、女）、“民族”（汉族、回族、...）、“居住城市”（大连、北京、...）等。下面以二手房屋价格sndHspr.csv数据为例，计算连续型变量“房屋价格”的统计量平均数、中位数、四分位数，以及绘制该变量的直方图。包含类型信息的变量。例如“性别”（男、女）、“民族”（汉族、回族、...）、“居住城市”（大连、北京、...）、“收入等级”（高、中、低）等。

2023-09-27 15:35:00 586

原创第3章-指标体系与数据可视化-3.1-Python可视化-3.1.2-Seaborn绘图库

样例数据使用的是np.random.uniform(low=-1, high=1, size=(7, 7))，表示a=-1，b=1，size=(7,7)表示7行7列矩阵，总共49个数。整行代码的意思是：生成一个服从均为分布的7行7列的矩阵，每个数据的范围在(-1,1)之间，且生成每个数据的概率是一样的。从图中，很直观的看到b和B，f和D，c和G变量之间的相关性很强。（2）散点图的顶部和右边是两个直方图，它们描述的是两个边际分布，顶部是二维正态分布的x的边际分布，右边是二维正态分布的y的边际分布。

2023-09-26 13:19:56 615 2

原创第3章-指标体系与数据可视化-3.1-Python可视化-3.1.1-Matplotlib绘图库

两者有如下不同：（1）条形图可视化的是分类变量数据分布，条形图中的每个矩形表示一个类别，分开排列；（3）我们知道，右偏（正偏）分布，小尾巴在右边，众数是峰值，众数左边的数据比较多，所以中位数在众数左边。从箱子中位数来看，语文成绩的中位数在下面，放在横轴上，就是在左边，即语文呈现右偏分布。从图可以看到，每个矩形都是相连的，原因是直方图可视化的是连续变量数据。矩形的高度表示数据范围中数据的频数，例如[30,40)，矩形的高度表示大于等于30，且小于40的数据的个数。饼图的作用是可视化分类数据在整体中的占比。

2023-09-25 23:07:39 474

第7章-使用统计方法进行变量有效性测试-7.2.2-多因素方差分析

空空如也