自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Alibaba营销策略效果分析【A/B测试】

一、项目分析1. 项目背景A/B测试常用于比较不同设计、运营方案的优劣,以辅助决策。本分析以支付宝营销活动为例,利用Python,通过广告点击率指标比较两组营销策略的广告投放效果。2. 数据概览及处理本项目所用数据集来自阿里云天池 Audience Expansion Dataset:其中effect_tb.csv(广告点击情况数据集)数据包含支付宝中的两个商业定向广告系列日志。数据中 dmp_id:营销策略编号 1:对照组,2:营销策略一,3:营销策略二user_id:支付宝用户IDlab

2020-07-18 15:57:40 1127

原创 广告投放分析(Python,Sql)

一、项目背景与目的1. 背景随着互联网的飞速发展,各种网络产品应运而生,如电商网站,移动应用,视频媒体,新媒体等等。网络广告也成为了一种主要的广告形式。而网络广告的形式具有复杂和多样化的特点。2. 问题当我们完成一个重点活动的全网营销。该从哪些维度来总结和评估本次推广的得失呢?实现广告的精准投放就是最大化投入产出的过程,需要知道我们的用户在哪里,在哪些渠道能够更大化用户价值,以及各个渠道用户价值的变化规律。通过对渠道方式和渠道质量的追踪,以引流和转化率为关键事件,做好渠道的优化和维护。二、分析维

2020-07-08 10:26:43 4771 3

原创 爱彼迎产品分析(Python)

一、项目背景与目的1 背景Airbnb是一个旅行房屋租赁社区,用户可通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序,其社区平台在191个国家、65,000个城市为旅行者们提供数以百万计的独特入住选择,被时代周刊称为“住房中的EBay”。Airbnb在做好了产品体验、房源美感、民宿共享服务之后,这款产品和背后的业务是否存在可以改进的地方?2 提出问题一款产品的发展必然伴随着不断的迭代。在AARRRR模型中,第一个A(用户获取)中,提高新用户获取的数量和质量是不断监测并优化的一个.

2020-06-06 15:07:49 3275

原创 用户行为分析(SQL)

一、前言之前在博客记录了一篇行为分析(python)的文章,后来觉得自己可以用SQL再走一遍,也算练练手。数据来源于天池的2020-04-13的“UserBehavior.csv”。数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。我自己的MySql版本是5.5,Na

2020-05-31 13:27:26 1967

原创 用户行为分析(Python)

一、前述电商、互联网、金融这三驾马车是对数据分析应用最为广泛的行业,同时也占据了就业市场上绝大多数的数据分析岗位,只因日常业务产生的海量数据蕴含着无尽的价值。本次就通过电商角度,选取阿里天池项目中的淘宝App用户行为数据利用Python进行数据分析。二、理解需求1. 明确分析目标及其方向通过对用户关键行为的埋点获取的日志数据,包含用户、商品、行为、时间等信息,而看似简单的几个维度,通过数据分析手段,便能从不同角度挖掘蕴含的价值。本次主要通过以下四个方向探索淘宝用户行为:1.1 用户行为时间模型

2020-05-24 15:39:16 4691 4

原创 2020年招聘分析

一、前述之前学爬虫的时候采集了智联招聘默认推荐的职位,数据共49183条,9个数据项。对数据清洗后,进行分析。其中可视化这里我使用的是pyecharts和matplotlib,matplotlib使用起来比较简便,pyecharts美化程度更高,官网也有大量可视化案例,各有各的优势吧。二、分析流程0、所需函数库import pandas as pd import numpy as np...

2020-04-24 15:15:10 1248 3

原创 用户消费行为分析

前言这两天复工了,见到了“油腻”的同事们,街上的车也比二三月多了不少,地铁里也逐渐拥挤了。周末在整理云盘时发现了一份“用户消费”的练习数据,忘记从哪里讨来的了。全部数据大概有23M,这样一份数据不练了它实在可惜,因此做了这个练习。一、分析角度数据共23.3M,记录了从2016年3月1日至5月2日的用户ID,支付状态,支付金额,支付时间。1. 按月、周分析总体消费趋势3,4月消费对比...

2020-04-21 16:41:22 2064

原创 2019-nCoV 分析

最近在家隔离,每天起床第一件事就是看看疫情情况,好在目前情况有了些许好转。天佑武汉!天佑种花家!偶然间在技术贴看到一疫情数据如口,点开一看,如获至宝,爬之分析之!呐,数据以json的模样展现在我们面前,各省入口是省名称。url = "https://lab.isaaclin.cn/nCoV/api/area?latest=0&province={0}".format(provinc...

2020-04-20 16:22:00 2621 4

原创 旧金山犯罪预测与可视化分析

前言项目首先使用朴素贝叶斯、逻辑回归、随机森林方法对旧金山犯罪进行预测,之后使用matplotlib、pyecharts对数据进行可视化。数据来源于Kaggle,下载数据需要注册,但是注册时验证码又被和谐掉了,最后使用VPN“出去”后下载的。主数据共878050条,9个属性,其中包含[‘Dates’,‘Category’,‘Descript’,‘DayOfWeek’,‘PdDistrict’,...

2020-03-28 17:21:44 4799 9

原创 卡方检验理论与特征选择实现

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验的基本思想:卡方检验是以χ2分布为基础的一种常用假设检验方法,它的基本假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:1.首先假设H0成立。2.基于此前提计算...

2020-03-15 18:54:27 2160 1

原创 Bilibili综合分析

最近在公众号:裸睡的猪上看到一篇关于B站的文章,觉得分析的很透彻,关键是还提供了数据让读者练习,所以小试牛刀,自己也按照猪哥的思路写了一些可视化程序和分析。数据提供了B站视频排行榜中的各类信息,比如:‘作者’,‘硬币数’,'弹幕数’等共14项信息,很全面。分析角度:总体情况以及综合排名top100。总体情况部分包括:1.各分区播放量情况2.各区三连(硬币、收藏、点赞)情况3.弹幕、评论...

2020-03-07 18:42:30 7276 12

原创 A/B Test

AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。A/B测试的作用1.消除客户体验(UX)设计中不同意见的纷争,根据实际效果确定最佳方案;2.通过对比试验,找到问题的真正原因,提高产品设计和运营水平;3.建...

2020-03-06 16:41:53 630

原创 KNN算法笔记及python演示

KNN算法又称K近邻算法,属于监督学习。其中心思想是找到未分类样本附近K个最相近的已分类样本,该样本的分类由附近已分类的样本投票决定。可通过欧氏距离、曼哈顿距离等计算测试样本与已分类样本之间的距离。K值的选择会直接影响归类效果。k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。(对距离加权,可以降低k值设定的影响)k值通常是采用交叉检验来确定(以k=1为基...

2020-03-02 19:34:24 234

原创 K-means笔记与实现

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是:预将数据分为K组,则随机选取K个对象作为初始的聚类中心计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止...

2020-02-29 15:10:54 470

原创 selenium爬取某东商城

Selenium是一个用于Web应用程序测试的工具,直接运行在浏览器中,就像真正的用户在操作一样。对于selenium和webdriver安装和配置不再赘述,我使用的是chromedriver。chromdriver下载好后要在环境变量中进行配置,具体方法可也去查一查,另外版本一定要和自己浏览器版本一致。driver = webdriver.Chrome(r'C:****\chromedri...

2020-02-26 11:56:45 235

原创 泰坦尼克分析

最近在B站看到一博主再讲数据分析的课程,跟着看了几节课,每节课很短,很适合通勤充电。https://space.bilibili.com/61036655?spm_id_from=333.788.b_765f7570696e666f.2前几天看了节泰坦尼克分析,觉得很有意思就敲了几行代码。Pandas怎样找出最影响结果的那些特征?应用场景:机器学习的特征选择,去除无用的特征,可以提升模型...

2020-02-24 19:06:24 565

原创 填表.py

作为传统制造业c++程序员,接触python有一阵了,总体来说python真的适合0基础开发的朋友们学习,语法简洁,类库基本满足所有开发人员,不像c++这样繁琐,这大概也是人生苦短我用python的真谛吧。之前做了个小程序,算是数据分析中数据处理的部分,把EXCEL表中的数据项提取出来,按照通用长度在txt数据文件中找到,并回传excel里。excel样式共254条数据,并且分为13个部分,...

2020-02-24 18:16:00 183

原创 sql 50题

sql50题,从头到尾练了一遍,收获很大,也对sql有更深一步认识,其中有些代码不是最优方案,还需要进一步完善。文章是在知乎 https://zhuanlan.zhihu.com/p/43289968 看到的,觉得不错,就一点一点跟着练了练,其实写sql只要按照触发顺序写就好写很多 FJW GH SO(简写顺序参考)对了rou_number()这些窗口函数只能在高版本mysql上使用,低版本不...

2020-02-24 17:13:28 272

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除