自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fff2zrx的博客

云笔记本

  • 博客(205)
  • 资源 (4)
  • 收藏
  • 关注

原创 【广州】买套二手房需要多少钱?

上次我们看了北京和上海的二手房,这次我们一起来看下广州的二手房价格如何。相比于北京和上海,广州在一线城市中显得更有盼头一些。

2024-02-03 13:14:45 348

原创 上岸国考有多难?

国考笔试成绩已于2024年1月13日公布,听说,今天用一份2024国考的数据帮大家探探路。数据来自和鲸平台,数据主要包括招考省市和部门、专业和学历要求、招考和报考人数。。(手动滑稽)

2024-01-31 22:47:17 325

原创 Pyecharts绘图

【代码】Pyecharts绘图。

2024-01-24 23:17:22 393

原创 【北京】买套二手房需要多少钱?

上次我们看了苏州和上海的二手房,这次我们一起来看下北京的二手房价格如何。

2024-01-20 10:28:30 400

原创 【上海】买套二手房需要多少钱?

上次我们看了苏州的二手房,这次我们一起来看下上海的二手房价格如何。

2024-01-09 22:40:31 429

原创 哈尔滨的南方小土豆产地在哪里?

那么这些小土豆都是哪些省份/城市的品种呢?我们借助迁徙数据来康康!网址见,这是我们的老朋友了,之前我们用过它的数据,我们今天再用它来辨别下小土豆的产地。

2024-01-03 11:14:52 420

原创 【苏州】买套二手房需要多少钱?

买新房存在一定的交付风险,买二手房毕竟是现货,所以最近二手房购房者越来越多了。根据住房和城乡建设部副部长董建国在中国国际经济交流中心举行的2023-2024中国经济年会上的发言,今年1到11月,,二手房市场的地位与影响力在不断提升。相信大家比较关注一线和新一线城市的二手房价格现状到底如何,这次我们首先一起看一看的二手房。

2023-12-29 14:02:04 493

原创 matplotlib 自定义颜色

获取RGB信息,比如(68, 114, 197),传入归一化后的RGB颜色color=(68/255, 114/255, 197/255)即可。

2023-12-24 20:40:30 98

原创 大数据告诉你新能源汽车哪家强?

随着双碳战略的提出和电池技术、电动机技术等的不断进步,新能源汽车最近几年势头很猛,借着一份汽车销售数据一起来了解一下新能源汽车目前的市场情况,大家买电车的说不定可以用上,毕竟这可是。

2023-12-24 20:20:31 187

原创 hive 偏门函数

1.分位数函数percentile。3.Hive常用日期格式转换。4.group sets用法。2.窗口函数(带滚动窗口)

2023-11-30 17:04:59 227

原创 让我康康是谁还不会用PSM

为了验证因果效应,最直接有效的就是做AB实验。一组保持原状,另一组做出对应改变,如果两组的差异超出了正常数据波动范围,我们就认为两组的差异是这个改变所引起的,差异就是因果效应。但是呢,很多时候我们出于各种原因,无法做严格的AB实验,只能基于观察数据验证因果效应。此时就是因果推断的用武之地了。。

2023-11-30 10:53:45 285

翻译 (3) 统计人不了解就会很危险的等式

SE、置信区间、P值

2023-11-15 00:47:14 67

原创 地理数据常用处理

国内的可以很方便的利用百度或者高德提供的api解决,国外的地址就需要用谷歌地图或者必应地图的api解决了。找到目标地区的编号,中国东部地区属于UTM Zone 50N。得到 EPSG:32650。再查找UTM 50N 的。

2023-11-10 23:05:22 638

原创 AB实验_如何计算P值、效应量和统计功效

P值、效应量和统计功效

2023-11-10 21:56:14 732

原创 AB实验_如何确定实验周期

MDE

2023-11-03 00:22:14 345

原创 除法类型复合指标异动贡献度计算

除法类型复合指标异动贡献度的python计算模版

2023-09-21 01:01:00 464

翻译 (2)随机试验

随机实验是获得因果效应的最可靠方法

2023-07-28 17:52:42 87

翻译 (1)因果推断介绍

它要求我们回答“如果,会怎么样”的问题

2023-07-27 00:06:17 128

原创 python求列表的交集、并集、差集

data_rule_eff是根据我们线上策略判断的作弊订单data_device、data_face、data_dest是根据我们挖掘到的新特征判断的作弊订单。

2023-07-24 15:14:27 278

原创 2则胡思乱想

哎,一到下雨听点什么悲情点的bgm,我就容易陷入低迷情绪之中。我觉得我这个人还是喜欢热闹,或者说害怕孤独。一个人独处有无事可干的时候总会觉得有点失落,即使是吃饭也总想拽个人一起,毕竟一个人吃饭实属无聊,两个人好歹还可以一起选一选今天吃什么。之前sst讲我太理性,但我觉得我是间歇性理性,间歇性感性,一会铁石心肠,道理头头是道,一会又心慈手软,圣母心泛滥。其实跟人熟络起来很简单的,只需要一个契机和一份真诚就可以换来友谊。但是随着大家年龄的增长,也许是朋友够多了,带来的边际效用也越来越少了,大家也都不乐意像.

2023-06-03 16:12:46 65

原创 数分人都听过的Cuped怎么用?

CUPED(Controlled-experiment Using Pre-Experiment Data)是一种利用AB实验前的数据来缩减指标方差,进而提高实验灵敏度的方法,让你的指标更容易显著,进而让有效的策略上线,避免第二类错误(取伪,错误地接受策略上线前后没有差异的原假设)的发生。老早就听说过这个似乎高大上的方法,也搜过一些科普文章,网上的很多文章反复地在讲原理,结果就是一看就懂,一用就懵,这次我尝试根据自己的理解拿一个简单的数据集实践一下这个方法。如有不对的话,欢迎大家指正!

2023-02-07 21:57:47 1799 2

原创 假设检验之卡方检验

为什么要求卡方检验的期望频数不小于5?假设期望频数小于5会有什么后果?

2022-12-27 00:11:12 1169

原创 工作中遇到的sql问题

工作笔记

2022-11-18 00:08:16 175

原创 快充伤电池?我来帮何同学做个假设检验

何同学在视频中给出的结论是正确的(当然了这些结论是各手机厂商用上前台手机已经验证过的结论),但是从数据到结论缺少了分析过程,数据分析的大忌啊。以上就是本次文章的全部内容啦。

2022-10-30 16:42:51 2298 3

原创 小叮当的2021年年终总结

  2021年马上又要过去了。说来也奇怪,自从08年那场大雪之后我似乎对年份不再敏感,以至于有时候签日期的时候还要反应一下。加上这该死的新冠疫情,更是搞的我心里2020跟2021不分。回顾2021时,相册帮了很大忙,当时拍的一些照片现在看起来觉得整挺好,2022年我要再多拍点照片视频记录下来一些生活片段。先来写一下工作相关的,2021年算是初步确定了职业规划,选择从交通行业转到互联网的数据分析,所以在找暑期实习和秋招的过程中略吃灰,尤其是找暑期实习的时候。------------------------

2021-12-31 20:46:45 1711 1

转载 Q-Q图和P-P图傻傻整不明白?

统计学里Q-Q图(Quantile Quantile Plot)是一个概率图,用图形的方式比较两个概率分布,把他们相对应的两个分位数放在一起比较。具体的做法是:首先选好分位数间隔。图上的点(x,y)反映出其中一个第二个分布(y坐标)的分位数和与之对应的第一分布(x坐标)的相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上。Q-Q图可以用来可在分布的位置-尺度范畴上可视.

2021-11-09 20:09:03 7521

原创 如何根据是否连续进行分组

现在需要将数据按照status连续与否,如上图中的id 1-2为1组,3-5为一组。关键点就在于判断间断点赋值 0 1然后累加即可利用sqlselect id,status,sum(flag) over (order by id) as 分组 --累加flagfrom ( select id,status,case when status=status2 then 0 else 1 end as flag --本行与上一行不相等,则为间断点 from ( selec.

2021-10-07 17:15:24 309

原创 利用蒙特卡洛模拟求积分

我们现在想通过蒙特卡洛模拟求下面这个积分的值,这个积分比较简单,我们当然可以计算出来为4。而对于复杂的定积分我们则可以通过蒙特卡洛模拟来求对应积分值。下面我们拿这个积分举例蒙特卡洛模拟如何求积分。文章目录投点法求积分平均法求定积分参考链接投点法求积分即模拟很多点投到对应区间,如果在对应概率密度曲线下面,则计为1,否则为0,最后统计出1的比例。然后用x y对应范围组成的长方形面积S乘以这个比例即为所求积分。import randomx_min = 0.2x_max = 1num_samples

2021-09-09 16:49:03 3276

原创 假设检验之Z检验

两总体Z检验

2021-09-02 11:11:30 835

原创 如何验证多组数据之间有无显著差异

利用方差分析和卡方分布验证多组数据之间的某些属性有无显著性差异,对于连续性属性可以用方差分析,对于离散型属性可以用卡方检验。方差分析单因素方差分析通过箱线图可以人肉看出10组的订单量看起来差不多,为了更科学比较10组的订单量有无显著差异,我们可以利用方差分析from statsmodels.formula.api import olsfrom statsmodels.stats.anova import anova_lmmodel = ols('orders~C(label)',data=.

2021-08-27 15:12:37 17686

原创 sql笔试的疑难杂症

1.留存率/复购率计算2.行列互换3.一行变多行,多行变一行

2021-07-22 21:41:39 276 1

原创 小叮当的sql实战笔记

ps:记录一下实习中实际使用hive sql取数的一些心得和坑性能调优用group by 代替distinct去重,效率更高两个表连接时,把关联字段里更少的放前面,即小表left join 大表在内层做完集计或者筛选后再在外层连接效率会更高常犯错误case when时,else可以省略,end不可省略,但是else不省略的时候必须后面跟上一个值,不然就报错select后跟着的字段,最后一个字段后面不能加逗号...

2021-07-13 14:50:51 243

原创 pyspark常用笔记

pyspark处理数据常用方法

2021-05-24 19:51:55 249

原创 小叮当四月折戟

上个月找数据分析的暑假实习,真是教我做人啊,分分钟让自我感觉还不错和浮躁的我认清了现实。投递下来,要么是压根没有笔试机会,要么是笔试完杳无音信,要么是面试下来也凉了。哼哧哼哧搞了一个月,最后有offer的也只是缺人的某电动汽车公司,还需要是日常实习,可是老板这里有项目现在没法过去,所以还不知道暑假人家是否还需要我。一个字,惨!不过这倒也让我明白了很多。1.自己没有未雨绸缪,没有早点明白现在互联网的竞争之激烈,跨行业还不早点去实习,被嫌弃没有实习经历2.自己掌握的东西还是太少了,很多东西还是需要多

2021-05-02 15:09:02 196

原创 pandas之groupby+带进度条的apply

from tqdm import tqdmtqdm.pandas(desc='pandas bar')outputs=case2.groupby(case2['ID']).progress_apply(lambda x:select_station(x))

2021-04-25 13:05:24 1242 1

原创 geopandas常用笔记

1.如何从Python形状多边形中提取点/坐标?from shapely.geometry import Polygon#Create polygon from lists of pointsx = [list of x vals]y = [list of y vals]some_poly = Polygon(x,y)#Extract the point values that define the perimeter of the polygonx, y = some_poly.exteri

2021-04-12 15:29:02 331

原创 datawhale-异常检测打卡之Task 5:⾼维数据异常检测

随着维度的增加,数据空间的⼤小(体积)会以指数级别增⻓,使数据变得稀疏,这便是维度诅咒。例如基于邻近度的⽅法是在所有维度使⽤距离函数来定义局部性,但是,在⾼维空间中,所有点对的距离⼏乎都是相等的(距离集中),这使得⼀些基于距离的⽅法失效。在⾼维场景下,⼀个常⽤的⽅法是⼦空间⽅法。而集成是⼦空间思想中常⽤的⽅法之⼀,可以有效提⾼数据挖掘算法精度。集成⽅法将多个算法或多个基检测器的输出结合起来。其基本思想是⼀些算法在某些⼦集上表现很好,另⼀些算法在其他⼦集上表现很好,然后集成起来使得输出更棒。1 Fe.

2021-01-24 23:14:15 363

原创 如何将seaborn的palette调色板应用为cmap

1 cmapmatplotlib有自己定义的cmap,包括Sequential,Diverging,Cyclic,Qualitative几种定义好的,当然也可以自定义,更详细的可以查看官网Choosing Colormaps in Matplotlib2 paletteseaborn是另一个可视化的库,他也有一个很好用的palette调色板,种类比matplotlib更多,而且自定义更方便,更多可以查看官网:Choosing color palettes3 将palette应用为cmap那么我们如

2021-01-22 21:30:22 669 1

原创 datawhale-异常检测打卡之Task 4:基于相似度方法

在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专注于那些具有有价值特性的异常值。在基于相似度的方法中,主要思想是异常点的表示与正常点不同。1 基于距离判断基于距离的异常检测有这样一个前提假设,即异常点的k近邻距离要远大于正常点。计算当前点与其他点的距离,一旦已识别出多于k个数据点与当前点的距离在阈值D之内,则将该点自动标记为非异常值。若是直接计算,需要计算每个点与其余点的距离,当数据量较大时,计算量非常大,因此需要利用基于单元、基于索引的方法加速计算。1.1 基于单元格在基于单元格的技

2021-01-21 23:14:01 175

原创 如何优雅地构造geodataframe

如何构造geodataframe1 通过经纬度构造1.1 geopandas.points_from_xy1.2 利用apply,shapely构造(更通用)2 通过wkt文本构造1 通过经纬度构造1.1 geopandas.points_from_xyimport pandas as pddf = pd.DataFrame( {'City': ['Buenos Aires', 'Brasilia', 'Santiago', 'Bogota', 'Caracas'], 'Count

2021-01-21 15:32:54 4007 7

Python代码+GMM聚类算法+决策树(C4.5)分类算法

基于鸢尾花数据实现了GMM聚类算法和决策树(C4.5)分类算法 1.GMM聚类算法python代码结合以下博客食用更佳 https://fff2zrx.blog.csdn.net/article/details/107892887 2.决策树(C4.5)分类算法python代码结合以下博客食用更佳 https://fff2zrx.blog.csdn.net/article/details/105588286

2023-07-20

mobike_beijing_geohash.rar

数据来自摩拜练习赛https://www.biendata.xyz/competition/mobike_practice/,地理位置通过Geohash加密,可以通过开源的方法获得其经纬度数据,标注数据中包含300万条出行记录数据,覆盖超过30万用户和40万摩拜单车。数据包括骑行起始时间和地点、车辆ID、车辆类型和用户ID等信息。

2020-06-16

shanghai_urban.csv

上海市各个地铁站的名称,所属线路名字,经纬度坐标,坐标是wgs84坐标系,包括部分在建,共449个地铁站;上海地铁poi

2020-05-18

双约束重力模型.rar

基于样例实现的交通分布之双约束重力分布模型, doublecon.m为运行主文件,剩下两个文件是定义的函数

2019-12-05

TensorFlow 安装whl文件

Tensorflow 在Windows下安装文件 只支持Python3.5 在Windows环境下 下载后切换cmd目录至文件所在目录,cmd中输入 pip install tensorflow-1.7.0-cp35-cp35m-win_amd64.whl

2018-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除