自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Bingo

  人生要学会沉淀,沉淀经验,沉淀心情,沉淀自己。

  • 博客(1180)
  • 资源 (8)
  • 收藏
  • 关注

原创 Python数据分析与机器学习实战

适用人群数据分析,机器学习,数据挖掘领域研究者。Python语言使用者。课程概述【数据分析与机器学习销冠课程,超100000名小伙伴加入】【连续多年荣获“最佳课程奖”,人工智能类“唯一”获奖课程,最佳合作伙伴】【课程同名配套教材《跟着迪哥学Python数据分析与机器学习实战》现已出版,加入课程免费送配套PDF版教材】课程特色:1、机器学习算法全面覆盖,每个算法均有配套项目实战!2、通俗易懂,用最接地气的方式讲解复杂的算法与代码!3、五年沉底,精选配套案例,打造最适合初学者的实战路线图

2021-04-26 14:05:06 1505 1

转载 只知道 dsp、ssp?互联网广告营销里的作弊与反作弊

媒体通过将广告展示和点击代码放在非约定的位置上,可能是用一块其他内容遮盖了广告,也可能是广告是透明的,也可能是广告只有1像素那么大。有点匠心精神的作弊者们,还会找到你们公司的员工经常浏览的网站比如自家的官网,采集员工的信息,一旦你们公司员工浏览广告,则马上变成一张正常广告,让你们心甘情愿的以为别人也都看到广告了。比如微博上的作弊流量,几百万的粉丝,几千条评论,看似很真实,其实只要稍加研究下,就发现评论下的二次评论一条也没有,这么明显的异常行为,但偏偏上当的人换了一茬又一茬。让监测程序把你判断为不同的个体。

2024-03-06 13:48:14 24

转载 Excel函数sumifs、sum与常量数组结合的高阶用法

sumifs 和 sum 的使用

2024-02-29 13:57:14 95

转载 EXCEL 查找某个字符在字符串中最后一次出现的位置

如果指定了 instance_num,则只有满足要求的 old_text 被替换。否则,文本中出现的所有 old_text 都会更改为 new_text。FIND("@",SUBSTITUTE(A1(字符串所在单元格),"\","@",LEN(A1)-LEN(SUBSTITUTE(A1,"\",""))))在EXCEL文档里想从很长的文件路径中取得文件名,【数据】→【分列】是个不错的选择,但用函数会显得更高大上一些。其他字符(如“@”),然后在查找这个没出现过的字符所在的位置就可以了。

2023-11-07 15:13:08 1548

转载 Excel 如何替换多个文本内容

如何想要替换单元格中特定的字符数字,我们经常会使用Excel自带的查找/替换功能,但是这个功能比较简单,无法替换指定位置的文本,也没有办法同时替换多个文本。3、如果只想要替换第1个“-”,则可以将公式修改为 =SUBSTITUTE(B5,"-",".",1),最后E5单元格返回的结果就是“A51.10-10001”,如图所示。2、使用【SUBSTITUTE】函数,可以使用图中的公式,也可以直接使用公式 =SUBSTITUTE(B5,"-","."),最终效果一样。,将部分文本字符串替换为不同的文本字符串。

2023-09-13 11:17:39 1862

转载 Datalore 安装使用教程

接下来我们需要去pull一个镜像,在https://hub.docker.com/r/jetbrains/datalore-agent/tags这里,我们需要找到相同版本的datalore-agent,比如上面的配置文件,我们用的版本是jetbrains/datalore-server:2022.2.3,于是就。来启动,等下载完后,进入127.0.0.1:8080,去随便注册一个,然后登陆进去,到admin panel中填密钥,然后就可以使用了。里面步骤很详细就不说了。下载完后,我们就可以直接。

2023-08-01 14:17:57 305

转载 如何在 Excel 中使用 SQL 语言 ?

使用 SQL 查询数据,首先需要数据源。如果我们用 Excel 来呈现这些数据的话,就需要先从外部导入数据源。

2023-07-27 16:18:16 1481

转载 【Python】开启Pandas进阶:图解Pandas透视表、交叉表

aggfunc是一个很灵活的参数,它是用来指定我们汇总想用哪种函数,默认是均值mean,我们也可以使用求和sum、最值max等。这个网上非常流行的一张图解Pandas透视表函数的图形,它利用一份简单的数据,清晰明了地讲解了pivot_table函数的每个参数的含义,保存备用!下面是在Excel表格中使用消费数据制作的透视表(部分数据截图),我们统计的是不同性别不同日期下的消费金额和小费,同时还显示了总计的数据。透视表的制作灵活性高,可以随意定制我们想要的的计算统计要求,一般在制作报表神器的时候常用。

2023-07-27 15:41:11 461

转载 EXCEL 如何制作混合数据透视图柱形图添加折线图

当我们制作了数据透视图,增长率什么的,需要在柱形图上增加折线图,如何做呢。

2023-07-27 14:19:58 922

转载 Excel 数据透视表如何累积求和?

选择数据区域,插入数据透视表。将“区域”与“组别”分别拖放至【行】,将“销售数量”分两次拖放至【值】字段,设置计算类型为“求和”。选择第二个“销售数量”,鼠标右键单击后,在弹出的快捷菜单中依次选择【值显示】→【按某一字段汇总】选项。在弹出的对话框中的【基本字段】对应的下拉列表中选择【组别】选项,最后单击【确定】按钮。修改透视表的字段名称与布局方式即可,如图所示。

2023-07-27 09:41:05 350

转载 如何用 python 进行数据分析

在第一步和第二步,我们主要使用的是Python的工具库NumPy和pandas。其中,NumPy主要用于矢量化的科学计算,pandas主要用于表型数据处理。可以为不同类型的数据和每个估算器提供广泛的描述性统计,统计测试,绘图函数和结果统计列表。数据分析的流程概括起来主要是:读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。Scikit-leran则是著名的机器学习库,可以迅速使用各类机器学习算法。数据可视化是数据工作中的一项重要内容,它可以辅助分析也可以展示结果。

2023-07-26 18:42:51 107

转载 python数据分析之数据分析(步骤)流程

从外部源数据中获取数据保存为各种格式的文件、数据库等使用爬虫等技术。

2023-07-26 18:30:46 64

转载 活用这23种图表,让你的数据分析胜人一筹

这当然是积极的变化,但也助长了一种本能倾向,即让数据可视化成为了一种汇报时的必备“流程”,开始无目的地进行可视化,结果做出的图表差强人意,比如机械地把电子表格单元转换为图表,只能提供支离破碎的信息,或者无效却扰乱视听影响决策的信息,进而无法传达出完整的理念。当我们想表达过多类型的数据时,可以使用矩形树图,它展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,每个矩形代表一个聚合类,颜色的深浅和面积的大小代表这个聚合类的大小。如图,可以看到用户在登录后的行为,以及下一步行为。

2023-07-26 11:21:20 213

转载 关于kafka中的消费者组(consumer group)以及kafka到底用的啥消息传递模式(待续)

关于kafka的消费者组的概念和作用,首先,概念很好理解,就是一些消费者具有共同的group id,比如有5个消费者都订阅了 topicA,则我们可以将5个消费者放到 groupA中并将这个group命名为“groupA”,则此时groupA的消费者组的id就是“groupA”。那么为啥要有 消费者组这种设定呢?主要原因在于:首先,传统的消息传递模型分为两类,共享消息队列模式允许来自producer的消息流到达单个消费者。推送到队列的每条消息只能读取一次,并且只能由一个consumer读取。

2023-07-25 11:59:02 851 1

原创 如何在 Excel 中快速生成随机密码?

有时,我们可能想创建随机密码来保护某些重要内容。但是,您有什么技巧可以在Excel中快速生成随机密码?在这里,我有一些可以在Excel工作表中处理的方法。

2023-07-17 18:45:13 3465 1

转载 python接口自动化(一)--什么是接口、接口优势、类型(详解)

接口泛指实体把自己提供给外界的一种抽象化物(可以为另一实体),用以由内部操作分离出外部沟通方法,使其能被内部修改而不影响外界其他实体与其交互的方式。人类与电脑等信息机器或人类与程序之间的接口称为用户界面。电脑等信息机器硬件组件间的接口叫硬件接口。电脑等信息机器软件组件间的接口叫软件接口。在计算机中,接口是计算机系统中两个独立的部件进行信息交换的共享边界。这种交换可以发生在计算机软、硬件,外部设备或进行操作的人之间,也可以是它们的结合。接口的优势一、规范性。

2023-07-13 16:50:06 71

转载 python接口自动化(十八)--重定向(Location)(详解)

在实际工作中,有些接口请求完以后会重定向到别的url,而你却需要重定向前的url。URL主要是针对虚拟空间而言,因为不是自己独立管理的服务器,所以无法正常进行常规的操作。但是自己又不希望通过主域名的二级目录进行访问,而是希望通过主域名的二级域名进行访问。所以这个时候就会用到URL重定向。重定向过程好比有个绰号叫“浏览器”的人写信找张三借钱,张三回信说没有钱,让“浏览器”去找李四借,并将李四现在的通信地址告诉给了“浏览器 ”。

2023-07-12 18:58:12 276

转载 Python 如何提取 url 中的参数

是一个tuple对象,把url分成了6个部分,query 属性就是查询参数部分,再通过 prase_qs 方法解析成字典对象,解析后,字典的value 是列表,因为同一个参数可以有多个值,我们只取第一个值。模块中的 urlpase 类来实现。提取其中的参数为字典对象。

2023-07-06 14:28:20 736

原创 SHELL 脚本定期删除日志文件(日志定期清理)

假设我们的应用每天会产生一个日志文件,但我们并没有对日志文件做任何归档处理,久而久之日积月累,就会将磁盘空间占满,从而影响系统的正常运行。分析磁盘空间占用情况#当前磁盘空间占用情况df -h#当前目录文件大小列表ll -lh#文件列表按时间排序ll -rt#文件大小列表,按时间排序ll -lhrt#查询20天前的日志#删除20天前的日志应用实现的方式这里就不做过多的介绍,本文着重讲解下# vim# :wq!保存并退出。

2023-06-09 11:07:41 2911

原创 Excel 提取 Json 数据属性值

如果要提取tvmid的值,则使用函数mid(A1,find("tvmid",A1,1)+8,27)进行提取,具体的使用方法可自行百度。今天遇到了json数据文件,需要对单一属性值进行提取,可以使用excel的mid函数以及find函数进行。

2023-06-01 16:04:23 676

转载 jar文件 反编译(IDEA环境)

想要对一些 jar 文件进行反编译,由于现在 IDEA 使用的人比较多,比较方便的方法是,可以使用 IDEA 中的插件进行反编译。

2023-04-26 17:35:12 2214 1

原创 MySQL 的 Replace into 与 Insert into on duplicate key update 真正的不同之处

但是实际上,根据我推测,如果是简单的update语句,auto_increment不会+1,应该也是先delete,再insert的操作,只是在insert的过程中保留除update后面字段以外的所有字段的值。有key的时候,replace是delete老记录,而录入新的记录,所以原有的所有记录会被清除,这个时候,如果replace语句的字段不全的话,有些原有的比如例子中c字段的值会被自动填充为默认值。- 意向共享锁(IS): 在一个事务获取表t的某行的S锁之前, 他必须获取表t的一个IS锁或更强的锁。

2023-04-20 17:42:34 1671

转载 mysql 字段值(字符串)累加

但是,在更新时,并不知道该记录的原值,也不希望通过mysql查询来获取原值(实际上,并不关心原值是多少,只需要在原值基础上添加新值即可)。结论:在create table时,需指定该字段NOT NULL,同时设置default 为""即可。如果原值为NULL,上述SQL语句将无法更新字段值(但mysql也不会报错)。即:针对以上记录,执行上述SQL后,country 值为NULL;mysql在更新记录时,需要在原来的值上在累加新的值。执行上述SQL后,country = "USA"。

2023-04-18 19:09:11 619

转载 DSP、SSP、RTB 是怎样的一个过程

这种购买的行为是每分每秒钟都在发生的,当一个符合条件的“男性20岁大学生”准备打开网页A时,cookie就被放在了菜市场,Nike看到后即可后买,然后将将制作好的广告banner展现在这个网页上,整个过程大约需要0.4秒,所以浏览者是完全感受不到的。与此同时又有无数个符合条件的cookie在浏览无数个网页,所以需要实时竞标,即让电脑自动帮你买入需要的“菜”,,从而产生了RTB(Real-time bidding),一般说来RTB仅仅是DSP平台的一个功能。以下一个浅显的例子说明这个问题。

2023-04-04 14:17:35 126

转载 九枝兰专访-----深入解读程序化购买以及行业现状(中篇)

正是因为剩余流量的“不清晰”,“高大上”的广告主既想要享受到程序化购买的优化手段,又想要满足自己对各类广告环境或媒体的要求,催生了私有程序化PDB模式,PDB不变的是传统广告排期采买执行流程,改变的是通过技术手段广告主获取了广告位的管理权:让这些传统广告位更智能化、更可控化、更精益化,以及更规模化。这种模式也是很多业内的人俗称的“保价保量”的模式。当然上面我也提到了依附流量的DSP中存在依附于AdNetwork的DSP,市场上也俗称DSP+ADN模式,这个是程序化的范畴,上面已经介绍过了这里就不在展开了。

2023-04-04 14:09:11 145

原创 搞不懂DMP是什么?看这里就够了

DMP(数据管理平台)是集数据采集、存储、处理、分析、输出应用于一体,具有标签自定义、数据多样、跨平台场景使用、数据自主权及安全系数高等特点,可有效作用于广告、市场、销售、运营、服务等各环节,为品牌方深入用户洞察、全景业务分析、高效准确决策提供有力支持。MobTech是全球领先的综合性智能科技企业,以数据应用为主导,融合顶尖的大数据、云计算、人工智能等多元先进技术,为全球百余个国家和地区的企业、开发者和政府机构提供商业智能解决方案、App运营赋能方案、企业级AI智能方案、数据咨询研究等服务。

2023-03-31 18:02:10 2294

转载 SSP对DSP发出的Bid Request应该包含什么信息

SSP: Supply Side Platform 供给方平台,供给方平台一般会有自己的广告SDK,他们会和很多的App的开发者合作,让App开发者去集成他们的SDK,这样集成了SDK的App里面就可以显示出广告,SSP所要供给的商品就是这些展示机会。AdExchange:Exchange是沟通需求方和供给方的平台,Exchange同时连了大量的DSP和SSP,因为RTB各方之间的集成工作还是比较复杂的,如果我和某个Exchange之间接好了,我就可以省下很多时间和精力的同时还是能获得很多流量。

2023-03-30 13:57:12 118

转载 一文搞懂移动设备ID的那些事儿

设备ID是唯一的匿名标识符,由与单个特定移动设备或用户相对应的数字和字母组成。全球所有智能手机和平板电脑都有唯一的设备ID,该ID直接存储在移动设备本身上。设备ID可以通过任何已安装的应用程序检索,并用于准确衡量单个用户采取的操作,即用于统计。设备ID在用户旅程和体验的所有阶段都发挥着重要作用,包括安装归因,应用内个性化,受众群体细分和整体应用性能。

2023-03-29 19:01:46 3260

转载 使用 Xshell 的服务器上传下载文件

使用Xshell自带的工具,不借助额外的工具,进行文件上传。

2023-03-09 16:17:26 2100

转载 最实用的数据分析模型——帕累托,手把手教你制作!

很多人都知道二八定理,即20%的人掌握着80%的财富。源出处是80/20帕累托法则,很有名的ABC分类法可以说是该法则的衍生。比如一共有100件商品,10件商品占销售总额的70%,20件商品占销售总额的20%,还有70件商品仅占销售总额的10%。于是你可以按照70%,20%,10%的销售额比重把产品分为ABC三类,然后把重点的管理资源放在A,把较少的资源分配给C或者砍掉部分C商品,以达到资源管理的最优状态。比如下图实例。

2023-01-12 16:14:11 536

转载 数据分析模型,你会用多少种?建议你用这28种商业模型和方法武装自己

我们所说的“模型”就是这样一个体系,实际上模型是指对于某个问题或客观事物、规律进行抽象后的一种形式化表达方式,模型分类有很多种,有数学模型、程序模型、逻辑模型、方法模型、数据模型、算法模型、管理模型(来自"MBA智库百科"),而我们这里所说的是“模型”不属于任何一类,对能纳入到数据分析决策中的都是我们需要的模型,主要包括数学模型、数据模型、算法模型、管理模型中的具体模型。这个矩阵可以更细化的说明产品所在行业的状况(比如波士顿矩阵中,偏向于现金牛的瘦狗中的产品,并不一定制定撤退战略就是妥善的。

2023-01-12 15:03:40 897

转载 数据清洗中异常值(离群值)的判别和处理方法

前天参加面试的时候被问了一个题:选择什么样的指标来代表总体情况?我回答的不是很好,具体怎么回答的记不太清了,感觉回答的不是很好。那这里就引申出一个问题,异常值的识别。异常值(outlier)是数据清洗的重要环节,异常值可能直接会导致后面的数据分析、建模工作出现偏差,因为像AdaBoost、GBDT等都对异常值很敏感。

2023-01-04 10:39:00 1998

转载 箱形图为什么能检测异常值

一般k=1.5是一个经验值,计算出的是中度异常的范围,K=3计算出的是极度异常的范围概率的四等分即0.25,0.5,0.75,概率为0.25对应的自变量x值为0.675西格玛。当k=1.5下限:= -2.7σ上限:= 2.7σ当k=2下限:= -3.375σ上限:= 3.375σ。

2023-01-04 10:23:45 737

转载 python 获取指定文件夹下所有文件名

(2)os.listdir()用于返回指定的文件夹下包含的文件或文件夹名字的列表,这个列表按字母顺序排序。使用os模块可以获取指定文件夹下所有文件名,有两个方法os.walk()和os.listdir().(1)os.walk可以用于遍历指定文件下所有的子目录、非目录子文件。

2023-01-04 10:21:44 3884

转载 xpath 获取标签的 class 属性包含的多个值

class="items"的标签div下包含有多个div标签,它们的class值都等于"item J_MouserOnverReq item-ad " 或 "item J_MouserOnverReq item-ad ",使用。都不能获取得class="items"的标签div下所有的div标签,那么如何获取呢?这时候可以使用功能函数。

2022-11-24 11:27:40 3255

转载 Running Jupyter Notebook on an EC2 Server

【代码】Running Jupyter Notebook on an EC2 Server。

2022-11-10 14:46:05 100

转载 Navicat 导出 excel 数据量过大解决方案

Excel一张Sheet最多只能达到1048575行,在网上查询了一大堆都没能找到解决方法,其实解决这个问题很简单,换个导出格式导出即可(txt、csv)注3:导入导出csv文件时,编码一定要改成10008 (MAC - Simplified Chinese GB 2312),不然会出现乱码。注2:这两天用导出csv文件后,发现丢失了一部分数据,最后发现是因为用excel打开了文件导致;注1:txt、csv理论上是可以无限存储的;

2022-11-08 17:02:05 2057

转载 如何使用 SQL 快速删除数百万行数据

【4】个人不建议上述的方式建表,上面的建表方式新表是不会复制原表的索引结构的,如果这个是一个大表那么后面单独加索引也是一个问题。注意:其中俩次rename可以先drop然后一次的rename,但是考虑到数据安全,毕竟是大数量数据删除,还是多操作一步,替换后自己检查下,然后再删除旧表,稳妥些。【7】小技巧,如果你的大表有递增的ID,删除的或者保留数据的能够以ID作为划分的那么select的条件可以通过这里进行优化,那么操作效率会更快。通过上面的方式500万的数据不到1分钟,还是比较快的。

2022-10-19 17:09:07 4677

转载 Mysql 分区大全及讲解

注意:RANGE分区与LIST分区有一定的相似性,RANGE分区是基于一个连续的区间范围分区,而LIST分区是基于一个给定的值列表进行分区,HASH分区与KEY分区类似,HASH分区既可以使用MySQL本身提供的HASH函数进行分区,也可以使用用户自定义的表达式分区,而KEY分区只能使用MySQL本身提供的函数进行分区。与hash分区不同的是,当数据表中存在主键的时候,可以不指定分区键,MySQL默认使用主键作为key分区的分区键。其中,子分区可以使用HASH分区,也可以使用KEY分区。

2022-10-13 13:41:32 2503

原创 SQL query on redshift to get the first and the last value

SQL query on redshift to get the first and the last value。

2022-10-13 11:39:38 104

GeoLite2-City.mmdb IP 数据库更新于 2022-05-23

GeoLite2 GeoIP GeoIP2

2023-06-21

AutoHotkey 中文手册

AutoHotkey 中文手册

2017-08-06

数学之美 pdf

数学之美

2017-06-29

Java性能优化指南1.4版

Java性能优化指南1.4版

2017-06-27

用Python进行自然语言处理(中文)

用Python进行自然语言处理(中文)

2017-06-27

WEKA教程完整版

WEKA 教程 数据挖掘

2017-06-19

MyEclipse2015 Stable2.0补丁

2016-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除