Jalen data analysis-CSDN博客

转载 MySQL教程|数据分析与运营-MySQL篇(安装到使用详解+项目案例练习)

数据分析与运营-MySQL篇。数据分析、运营从业人员必知必会。

2022-06-12 10:16:26 457

原创 MYSQL的null(空值)，还有空字符串的坑

1建立数据。2简单对比null和空字符串。3判断NULL。4判断空字符串。5综合案例。6总结。

2020-11-26 11:27:58 1931

讨论背景数据分析师大家都知道近年来非常火爆的岗位，目前一二线基本上所有企业都会配备数据分析岗位。而运营岗已经是老牌岗位了，下到运营专业，上到运营总监。目前数据分析师要求懂业务，运营岗位要求会数据分析。但两个岗位侧重点不一样，分析侧重发现问题点，发现机会点；运营侧重业务效果，销售额增长情况，拉新情况等落地执行后的结果指标。也就是说结果不好是运营的问题，没有发现问题是数据分析的问题。现实中结果不好，往往领导只会找运营，运营只会找业务人员，反倒是数据分析无人问荆。到底工作中运营岗位好还数据分析岗位好？我们该怎么

2020-11-25 19:34:53 3500

转载为什么大部分企业面试官都会问GMV，GMV是什么？

GMV是什么？GMV怎么计算？GMV和营业收入有何区别？为什么需要GMV指标？GMV真的可信吗？面试官为什么会问gmv? 面试如何回答GMV的问题？

2020-10-30 11:33:25 35051 3

原创用户运营--专题活动效果分析真实案例

在做数据分析的时候，我们通常会做很多用户运营专题的效果复盘分析。此次活动效果如何？达到什么目的？此次活动的方案是否具有推广性或者延续性？这些是公司领导最为关注的。

2020-10-29 22:11:52 776 1

转载 Mysql查询用户留存/留存率问题--用户n日(内)留存、某日新增用户n日(内)留存

计算某日的客户在第n日再次出现的概率--用户n日留存率。计算某日的客户在某个时间段内再次出现的概率--用户n日内留存率。计算某日新增的用户在第n日再次出现的概率--新用户n日留存率。计算某日新增的用户在某个时间段内再次出现的概率--新用户n日内留存率。

2020-10-26 21:51:14 2723 2

转载用户运营 - 用户忠诚度分析真实案例

时间间隔：根据产品特性，用户再次进行(消费/复购/再次访问等)的时间需要多久？用户多久没来过了，说明该用户可能会流失呢？多久没有再次访问/购买的客户已经流失了呢？消费次数：用户消费多少次后忠诚度会大大提高呢？我们需要特别关注消费几次的用户呢？新用户进来后是否需要大量的活动促销？解决以上2个问题，我们就大概知道自己的用户的忠诚度的分布，以及知道我们平时需要重点运营的客户群体了。

2020-10-25 15:12:25 2126

转载 matplotlib绘图的完善及美化

matplotlib的绘图原理及流程详解，参考公众号上一文：matplotlib的绘图原理及流程详解matplotlib绘图的完善及美化--0、导入基本库--import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt #最常用的绘图库mpl.rcParams["font.family"]="SimHei" #使用支持的黑体中文字体mpl.rcParams["axe

2020-10-20 11:49:58 5045

转载 Win10定时执行Python脚本发送QQ邮件

一、python代码# coding: utf-8import pandas as pdimport xlrdimport reimport datetimefrom mlxtend.frequent_patterns import apriorifrom mlxtend.frequent_patterns import association_rules# pip install pymysql# pip install sqlalchemyimport numpy as np..

2020-10-20 11:36:04 640

原创机器学习(无监督学习)关联规则Apriori算法原理与python实现

一、关联规则原理：1、概述：关联规则算法是在一堆数据集中寻找数据之间的某种关联，通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务。这些关系可以有两种形式：频繁项集、关联规则。频繁项集：经常出现在一块的物品的集合。关联规则：暗示两种物品之间可能存在很强的关系。关联分析典型的例子，沃尔玛超市啤酒于尿不湿的关联分析。例如：购物篮数据订单编号购买商品...

2020-04-19 19:38:46 2857 2

原创 mysql查询用户留存语法（用户留存和用户留存率问题）

mysql查询用户留存问题（用户留存和用户留存率问题）。计算某日用户留存率（次日、3日、7日、30日,...）。计算某日新增用户留存率（次日、3日、7日、30日、...）。

2020-03-18 22:55:39 3396 4

原创基于RFM模型对某平台客户运营价值分析的项目案例

一、需求1.根据某*电商平台的某*店铺历史交易数据进行整体的统计分析，按月统计销售数量及交易金额的变化趋势，统计各省份的销售情况，及销售环比情况。2.根据某*电商平台的某*店铺历史交易数据进行历史客户价值分析。考虑用户对店铺的贡献，复购率、对品牌的忠诚等因素，为用户贴标签，客户更加精准地进行划分，从而实现针对性的营销运营，降低营销成本，同时提高营销效果。工具：mysql+python+tableau

2020-03-10 23:54:18 2748 1

原创 Hive控制台、交互命令的使用、shell执行hql脚本、定时任务设定

一、准备案例数据。二、hive控制台执行创建表2.1、创建hive的两个外部表。2.2、创建一个emp_ptn动态分区表。三、Hive的DQL数据查询（使用交互命令）。3.1、注意：hive的select ...不支持以下类型。3.2、hive -e :不进入hive的交互窗口执行sql语句。3.3、hive -f :不进入hive的交互窗口执行保存了sql语句的文件。四、shell执行hql脚本。五、定时执行hql的shell脚本。

2020-03-06 18:42:34 2622 1

原创某电信运营商客户是否会流失的预测分析

1、项目背景如今通讯市场饱和，运营商之间争夺客户十分激烈，电信运营商一般会通过套餐（某种合约）的形式来吸引和绑定用户，为了保持用户粘性，会将合约的价格定得比随用随付的要优惠。比如，一个1年的套餐合约用户，需要按照套餐合约每月缴纳一定的通讯使用费，而运营商会提供约定的服务，如果用户有在套餐范围之外的通讯使用，则可能会产生额外收费。当用户的套餐合约到期时，用户很可能受到其他运营商的优惠活动吸引而转...

2020-02-28 14:17:44 4039

原创无监督学习PCA降维处理和K-means聚类

无监督学习：没有目标值（变量）的算法。常见的无监督学习算法：1、降维：– 主成分分析PCA降维处理。2、聚类：– K-means（k均值聚类）。

2020-02-26 18:37:06 2297

原创 sklearn模型的保存和加载API--案例癌症(逻辑回归)分类预测

sklearn模型的保存和加载APIfrom sklearn.externals import joblib。保存：joblib.dump(estimator,'test.pkl')。加载：estimator=joblib.load('test.pk')将训练模型保存下来，下次有新的需要预测的数据传进来的时候直接加载模型，然后预测就不用每次都从新训练了。案例：癌症(逻辑回归)分类预测–...

2020-02-26 13:55:23 1551

原创机器学习模型评估

机器学习模型评估：准确率、精确率、召回率、F1-score。ROC曲线和AUC值。

2020-02-25 19:45:25 1266

原创 Logistic（逻辑）回归分析

Logistic回归和线性回归最大的区别在于，Y的数据类型。线性回归分析的因变量Y属于定量数据，而Logistic回归分析的因变量Y属于分类数据。逻辑回归应用场景：广告点击率（是否会被点击），垃圾邮件、是否患病、金融诈骗、虚假账号等。

2020-02-25 15:21:21 41919 1

原创 python回归分析总结--线性模型及岭回归

1、回归分析概括。2、损失函数。3、优化算法。4、python的API。5、python机器学习线性模型API。6、机器学习中回归性能评估。7、欠拟合和过拟合。8、线性回归的改进--岭回归。9、案例代码

2020-02-25 13:22:19 5051

原创 python分类分析--随机森林原理及案例

随机森林1、什么是集成学习方法集成学习通过建立几个板型组合的来解决单一预测问题，它的工作原理是生成多个分类器/模型，各独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。决策树过度拟合可以用剪枝或者集成学习方法的随机森林实现。2、什么是随机森林在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由多个决策树输出的类别的众数而定。例如，如果...

2020-02-24 17:35:43 8155 1

原创 python分类分析--决策树算法原理及案例

1、决策树概括- 目标值是分类型变量，特征值（属性值/自变量）可以是分类型，也可以是连续型。2、决策树的划分依据—信息增益、信息增益比决策树的生成：- 贪婪算法：只能局部最优（具有单一属性分类的节点最佳，到此节点认为分类达到准确）- 根据某一属性对数据进行分裂，以达到某一标准的最优值3、3种决策树的原理·ID3准则：信息增益最大的准则·C4.5。信息增益比最大的准则...

2020-02-24 13:24:35 2689 1

原创 python分类分析--朴素贝叶斯算法原理与文本分类分析案例

一、朴素贝叶斯算法原理1、联合概率、条件概率与相互独立·联合概率：包含多个条件，且所有事件同时成立的概率。记作：P（A，B）。例如：P（程序员，体型匀称），P（程序员，超重，喜欢）·条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率。记作：P（A|B）。例如：P（程序员|男生），P（程序员，体重标准|女性）·相互独立：如果P（A，B）=P（A）P（B），则称事件A与事...

2020-02-23 18:38:27 1996

原创机器学习模型选择与调优 ---交叉验证、超参数搜索-网格搜索

模型选择与调优常见方法：交叉验证（cross validation）超参数搜索-网格搜索（Grid Search）1、交叉验证（cross validation）交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次（组）的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最络结果。又称4折交叉验证。实际...

2020-02-22 23:53:38 2093 5

原创 python分类分析--K-近邻（KNN）算法及鸢尾花分类案例

1、分类分析--K近邻（KNN）算法原理核心思想：根据离自己最近的邻居判断自己属于哪一类，如上图当圆的半径(距离)为1时，k个个体中有2/3个是三角形，则目标圆点（预测点）的分类和三角形为一类；当半径（距离）取值为2时，k个特征个体中有3/5个是正方形，则认为预测点和正方形为一类的思想。由此也说明了KNN算法的结果很大程度取决于K的选择。我们设定要取的k个邻近点来看属于哪一类别的分类时...

2020-02-22 18:53:07 5204 1

原创 sklearn转换器和估计器

sklearn转换器和估计器转挨器- - - - 特征工程父类1、类例化（实例化的是一个转换器类（Transformer））2、调用fit_transform（对于文稍建立分类词频矩阵，不能同时调用）案例说明标准化：（x-mean）/stdfit_transform（） fit（）计算每一列的平均值、标准差 transform（）（x-mean）/std进行最终的转换...

2020-02-22 14:29:13 625

原创特征工程案例--（合并表，交叉表、主成分分析）

机器学习特征工程案例。知识点：合并表：merge，交叉表：crosstab，主成分分析：from sklearn.decomposition import PCA

2020-02-22 14:21:54 720 1

原创机器学习数据集的划分

# 工具：python3 数据分析挖掘常用库导入#固定导入import numpy as np #科学计算基础库，多维数组对象ndarrayimport pandas as pd #数据处理库，DataFrame（二维数组）import matplotlib as mpl #画图基础库import matplotl...

2020-02-22 14:14:29 2056 1

原创机器学习之特征工程，工具（python3）

1、机器学习开发流程概括数据预处理：在python中使用pandas库，如：缺失值、异常值等的数据清洗、数据处理Pandas数据处理：https://blog.csdn.net/weixin_41685388/article/details/1038412962、特征工程概括特征工程：是使用专业背景知识和技巧处理数据，使得特征值（自变量）能在机器学习算法上发挥更好的作用的过程。...

2020-02-21 15:04:01 1275

原创机器学习的基本概念、算法分类、开发流程、数据集划分、工具介绍（python的scikit-learn）

1、机器学习基本概念。2、机器学习数据集的构成。3、算法分类。4、机器学习开发流程。5、学习可用数据集。6、scikit-learn工具介绍。7、sklearn数据集。8、sklearn数据集返回值解释。9、数据集的划分。...

2020-02-19 18:46:40 442 1

原创常见的回归函数及线性回归分析（python3）

线性回归分析（python3）1、python固定导入的包# 工具：python3#固定导入import numpy as np #科学计算基础库，多维数组对象ndarrayimport pandas as pd #数据处理库，DataFrame（二维数组）import matplotlib as mpl #画图基...

2020-02-16 18:16:35 10818

原创 mysql聚合函数---总体聚合、总体累加、分组聚合、分组累加

mysql因为没有窗口分析函数，所以分组累加需要构造sql语句来实现。数据：select * from emp;一、mysql总体聚合函数min()、max()、count()、sum()、avg()select count(ename) ,max(sal),min(sal),sum(sal),round(avg(sal),2) from emp;二、mysql...

2020-02-12 17:31:43 7506 3

原创探索变量之间的关系（python3）

在做数据分析的过程中。我们往往是--理解需求--获取数据--清洗数据--简单描述统计--统计型分析报告；其实到这里还没完。如果我们还需要深入探索数据的价值，那么，单变量的分布检验--探索变量间的关系--建立关系模型--评估--总结等。接下来就来看看数据分析的其中重要的一环--探索变量间的关系。探索数据变量之间是否存在某种关系/关联。大致步骤有：变量的类型：类别型/数值型可视化给出可能的方向：散点图、箱型图、直方图、...需建立更严格的分析方式：假设检验。

2020-02-10 15:42:29 7797

原创单变量的样本分布检验（python3）

单变量的样本分布检验。1.用数字特征检验。2. T-test（严格的检验）。3. K-S test (严格的检验)。4. 卡方检验。正态分布检验。

2020-02-08 18:07:43 2392 1

原创 python数据分析基础及流程回顾，重点数据预处理之异常值发现与处理

数据分析流程。任务描述：–理解数据类型和数据结构–载入数据–清洗数据–做简单的统计分析–使用基础的可视化。数据分析的步骤：–获取数据–数据预处理–数据分析–数据挖掘–可视化展现。数据预处理（数据分析和挖掘的瓶颈）：–获取数据–载入数据–清洗数据：异常–清洗数据：维度–清洗数据：粒度–缺失值；无效值；格式转换；命名变换；类型转换。

2020-02-07 04:47:09 1219

原创 excel常用函数公式

目录1、excel使用函数前须知：2、excel基本聚合函数：count、sum、average、max、min3、条件if、拼接&、左截取left、右截取right4、首字母大写proper、查找元素位置find5、Excel常用日期时间周期处理函数公式6、排名rank、截取mid、分组排名sumproduct7、累计求和、累计数量、分组累计求和、分组累计数量...

2020-01-30 18:39:33 2730

原创 python3爬虫(8)--动态渲染页面使用Selenium库模拟浏览器抓取数据

在使用Ajax采集数据时，有些Ajax接口含有很多的加密参数，直接很难发现规律。此时，就可以使用模拟浏览器运行的方式来采集。Python 提供了许多模拟浏览器运行的库，如Selenium、Splash、PyV8、Ghost等。一、模拟浏览器爬取数据Selenium的使用。1.1、安装准备工作安装selenium库：pip install selenium(1)、谷歌(Chrome)...

2020-01-26 14:58:02 2185

原创 python3爬虫(7)--使用pyquery的CSS选择器（Selectors）解析数据

在利用python进行就网页数据采集时，为们往往通过urllib或requests发送请求，返回的数据结构是json格式的，我们就使用json解析；其他格式的网页数据可以采用XPath(lxml)解析数据或者使用Beautiful Soup解析数据或者使用pyquery解析数据等很多方法。其中，pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CS...

2020-01-24 13:17:23 2467

原创 python3爬虫(6)--使用Beautiful Soup解析数据

1、基础概念前言：Beautiful Soup 就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。Beautiful Soup 已成为和lxml、html6lib一样出色的Python解释器，为用尸灵活地提供不同的解析策略或强劲的速度。Beautiful Soup 自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。Beaut...

2020-01-23 16:29:00 1300

原创 python3爬虫(5)--构造随机User-Agent池、构造免费随机ip池、常见异常处理

利用python进行数据采集的过程中，很多网站都设置了反爬虫机制，其中最常见的就是相同的User-Agent、ip或者Cookie不能连续进行数据采集，所以我们需要构建很多User-Agent、ip或者Cookie以防止被封停。同时批量采集数据时会出现很多常见异常。1、构造有很多方法，这里我们就将众多的User-Agent和ip存在csv文件中，供我们数据采集的时候使用。2、代理ip请求失...

2020-01-21 19:48:25 1651 2

原创 python3爬虫(4)--使用XPath(lxml)解析数据（27种典型的爬虫匹配用法）

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。一、XPath的几个常用规则。表达式描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // ...

2020-01-20 01:12:20 1214

tips.txt为python数据分析案例数据

python数据分析案例数据主要用于本人博客的部分文章案例数据使用。单变量的样本分布检验（python3）探索变量间关系 ....... 等文章的案例数据

2020-02-08

instantclient_11_2.rar

instantclient_11_2.rar应用于Python（pandas）连接Oracle数据库时报错"64-bit Oracle Client library cannot be loaded 解决办法所需包。错误：Python连接Oracle数据库时报错"64-bit Oracle Client library cannot be loaded: "D:\oracle\product\10.1.3\db_1\BIN\oci.dll 原因：Python3.x版本64位 oracle10g /11g... 32位 sqlplus 32位，连接后，报错如上。需要一个64位的的oci.dll windows7/8/10 解决办法所需包 instantclient_11_2.rar

2020-01-02

numpy完全详解--jalen.pdf

1、NumPy介绍； 2、NumPy安装使用； 3、数组的创建； 3.1、概述； 3.2、基本创建方式； 3.3、其他创建ndarray的方式1：函数和文件； 3.4、其他创建ndarray的方式2：随机函数； 4、数组输出； 4.1、输出方式； 4.2、打印省略； 5、数组（ndarray）与列表（List）； 5.1、应用对比； 5.2、矢量化计算； 5.3、广播机制； 6、相关属性与操作； 7、NumPy中的常数； 8、数据类型； 8.1、概述； 8.2、类型转换； 9、改变形状； 10、数组扁平化； 10、索引与切片； 10.1、概述； 10.2、切片； 10.3、索引； 11、数组的存储顺序； 12、NumPy的各种操作运算； 12.1、基本运算； 12.2、指定轴； 12.3、通用函数； 12.4、统计函数； 12.5、增删改； 12.6、交集并集差集； 12.7、链接和拆分； 12.8、判断； 12.9、三目运算符； 12.10、去重； 12.11、排序； 12.12、矩阵乘积； 12.13、复制和视图； 12.14、总结；

2019-12-29

numpy-100_100_Numpy_exercises(English version).pdf

NumPy 100 exercises, let you learn more about NumPy.

2019-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人