自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 资源 (4)
  • 收藏
  • 关注

原创 Python中的Lambda匿名函数

Lambda匿名函数在Python中经常出现,小巧切灵活,使用起来特别方便,但是小编建议大家少使用,最好多写几行代码,自定义个函数。既然Python中存在Lambda匿名函数,那么小编本着存在即合理的原则,还是介绍一下,本篇文章翻译自《Lambda Functions in Python》,分享出来供大家参考学习原文地址:https://www.clcoding.com/2024/03/lambda-functions-in-python.html。

2024-04-09 10:01:48 261

原创 Python pandas遍历行数据的2种方法

pandas在数据处理过程中,除了对整列字段进行处理之外,有时还需求对每一行进行遍历,来处理每行的数据。本篇文章介绍 2 种方法,来遍历pandas 的行数据。

2024-03-06 14:26:36 365

原创 Python 常用的加解密算法实例应用

经过移动互联网的蓬勃发展后,促使数字化也进入大众视野,现阶段各个行业能数字化的基本都数字化,至于数字化后好用不好用是另一回事了数字化就会涉及到数据处理、数据存放等,紧接着引出了数据安全,数据存放时是否需要加密的问题,大型公司数据存放在服务器时,敏感数据基本都是加密后存放小编这里大概梳理了几个常用的加密算法,本篇文章重点是实际使用,不介绍算法原理,算法原理相对比较深奥,涉及到密码学,小编也研究不懂。

2024-02-04 18:39:38 779 1

原创 Python 利用pandas对数据进行特定排序

在pandas对数据进行排序主要使用方法axis=0,key=None)参数解释:用于排序的单个字段 或 多个字段组成的列表排序时的轴向,0 表示行向排序(一行一行排序),1表示列向排序(一列一列排序),默认是 0,也就是Excel中经常使用的排序升序、降序,默认是升序,也就是True,如果是False,则是降序注意:该参数需要和 上面的by参数要相对应是否原地更新排序的数据,默认是False,表示调用该方法后,会返回一个新的数据框进行排序时,指定的排序算法,默认是quicksort。

2024-01-18 16:53:19 930

原创 Python利用partial偏函数,生成不同的聚合函数

偏函数(),主要用来解决函数中某些参数是已知的固定值。利用偏函数的概念,可以生成一些新的函数,在调用这些新函数时,不用再传递固定值的参数,这样可以使代码更简洁下面列举一些偏函数的巧妙使用方法,在使用偏函数时,需要从标准库functools中导入。

2023-12-26 17:32:51 419

原创 Python 利用aiohttp异步流式下载文件

aiohttp是一个现代库,为Python提供异步(协程)HTTP客户端和服务器功能。流是一种分块处理数据的方式,无需一次将整个文件加载到内存中,这对于下载大文件或同时处理多个请求非常有用。可以通过以下步骤下载带有aiohttp流的文件(尤其是几百MB或更多的大文件):创建一个对象,它表示用于发出HTTP请求的连接池(客户端会话,用于发送不同的HTTP请求)使用方法向文件URL发送get请求,并获得对象,表示来自服务器的响应使用属性访问对象,它是用于读取响应主体的流使用或。

2023-11-30 15:31:50 1163

原创 Python 字典已经是有序的,你知道吗?

随着Python版本的更新,背后的一些数据结构会进行不断优化迭代,重新进行架构设计,以实现内存减少、性能提升。其中字典的底层数据结构在Python3.6版本时,重新进行了设计,从而优化了字典的内存占用地址:https://zhuanlan.zhihu.com/p/73426505该文章的评论精彩评论:一句话解释:从Python3.6开始,dict的实现由改成。

2023-11-21 15:13:06 125

原创 在Linux服务器上部署Jupyter notebook

小编在刚开始学习Python时,是在Python官网下载的原生版本,用的是自带的编码环境,后来了解到在数据分析、数据科学领域用Jupyter notebook比较好,于是直到现在也是一直在用Jupyter notebook,也偶尔用PyCharm做开发。在数据分析与处理中Jupyter notebook还是很方便,可以直接查看数据,可以写文档,可以画图 等很多优点,感觉Jupyter notebook 就是是为了数据分析、数据挖掘、机器学习而生的。

2023-10-20 14:40:03 1328

原创 Python 标准库之pathlib,路径操作

pathlib标准库是在 Python3.4 引入,到现在最近版 3.11 已更新了好几个版本,主要是用于路径操作,相比之前的路径操作方法os.path有一些优势,有兴趣的同学可以学习下**官方文档:**https://docs.python.org/zh-cn/3/library/pathlib.html。

2023-09-27 11:10:12 152

原创 Python 利用Matplotlib制作初中时圆规画的图

大家在初中时,开始学习圆相关的知识,涉及圆的半径、周长、面积 等等,那会每位同学基本都会买一套圆规、三角板,来辅助学习和做作业使用,这些学习工具在闲暇时光也被用来玩耍,偶然间就拿着圆规在纸上画了这么一个图形,所有的圆心在同一个圆上,该图形一直记忆很深刻自从学了Python 后就一直有这么一个念头,用Python把它实现出来,最近利用业余时间就给画了出来,分享出来供大家参考学习,也是数据可视化的一部分。

2023-08-29 17:01:06 206

原创 分类问题中Sigmoid 与 Softmax 区别

利用神经网络进行分类任务时,在最后需要经过激活函数,对神经网络的原始输出值进行处理,输出每个类别的概率。本文将讨论用或处理原始输出值,进行分类问题。

2023-08-23 16:47:30 150 6

原创 Hive 中把一行记录拆分为多行记录

业务场景:统计每个小时视频同时在线观看人数,因后台的业务数据是汇总之后的,只有开始时间、结束时间,没有每小时的详细日志数据,无法直接进行统计,所以需要对每条业务数据进行拆分,来统计每个小时的同时数当然,如果有详细的日志数据也是直接可以统计的,但是正常情况下,日志数据会非常大,如果每个用户每30秒会产生一条数据,那么每天会产生大量的数据,如此大量的数据,很难长期保存。

2023-08-04 19:56:16 456

原创 Python 基于datetime库的日期时间数据处理

日期时间日期和时间的结合两个时间之间的间隔时区tzinfo 的子类--------日期时间--------时间间隔。

2023-07-27 16:18:50 129

原创 Python 中一个好用的股票开源库akshare

从小编真实接触股票已经有10年之久了,因为大学的专业就是数据与应用数据(金融学方向),大三、大四学期时学习了很多涉及金融相关的课程,特别是在大四时,老师还专门给每位同学开通了模拟炒股的账户,让全班同学一起模拟炒股,但小编用真金白银炒股的时间大概是2018年,距现在也有5年时间,一直是韭菜中最近大家也看到了曾任《环球时报》总编辑的胡锡进,也开始入市炒股,并且每天都会发博文,分享当天的炒股感受。

2023-07-27 16:16:11 1153 2

原创 Excel中的标准差stdev.S和stdev.P区别

标准差这个指标在平时使用比较多,主要是用来计算数据的离散程度,在Excel中有相关的函数,可以直接来计算,其他的编程语言里面也有相关的函数。Excel中提供了2个函数 stdev.S 和 stdev.P ,都可以用来计算标准差,但这两者应该如何合理使用呢?又有什么区别呢?本篇文章将对这两个函数进行详细的讲解。

2023-06-30 19:23:09 10143

原创 对csv文件,又get了新的认知(二)

背景最近在做数据处理时,发现别人给的 csv 文件用 txt 打开后,发现里面的所有字段都是带双引号,与自己之前见过的 csv 文件有点不一样,自己脑海里面隐约也见过 python 有相关的设置参数,于是就查看 python 官方文档中的 csv 模块介绍,总结分享出来予以记录,方便后续查看csv文档地址:https://docs.python.org/zh-cn/3.11/library/c...

2023-06-01 15:06:09 173

原创 Hive中对相邻访问时间进行归并分组

对用户每天的访问次数进行统计时,需要对用户访问页面相邻的时间间隔小于30分钟归并为一组(算是一次),这样可以统计出用户每天的访问次数(忽略隔天问题)。这个问题如果用python来处理可能比较方便,可以循环遍历每行,进行两两之间的比较。利用Hive来处理数据,劣势就是不能循环遍历不够灵活,但是也能处理,只是过程相对比较复杂。

2023-05-24 17:08:18 158

原创 Python 内建模块 bisect,二分查找算法

bisect模块提供了一种只针对的方法,快速找到插入元素的位置,这个模块使用二分查找算法,算法的时间复杂度相对更低一些,可以用于程序优化提升性能官方文档:https://docs.python.org/3/library/bisect.html#module-bisect模块中的函数主要分为两大块。

2023-05-10 09:54:50 87

原创 Python pandas 2.0 初探

每门编程语言都有其独特的用途,目前python在数据科学方面发展的相对比较全面,大家目前也都喜欢使用python来处理数据、做模型开发等。python在数据处理方面离不开pandas库,该库在今年的4月3日发布了 2.0版更新,对底层进行了大量的重构以优化性能和稳定性。

2023-04-11 10:21:36 492

原创 Python 标准库heapq,堆数据结构操作详解

heapq 是 Python 标准库中的一个基于堆的优先队列实现。它提供了一些函数来实现对列表中的元素进行加入、弹出、替换等操作,同时也支持对列表中的元素进行建堆、堆排序等高级功能。本文将详细介绍 heapq 的使用方法和内部实现原理。

2023-03-17 14:42:15 558

原创 Python pandas.str.replace 不起作用

pandas 数据处理,pandas.str.replace

2023-03-08 19:52:55 749

原创 Python 把csv文件转换为excel文件

由于其他部门给的数据是 csv 文件,业务人员一般都是熟悉 excel 文件,为了方便查看数据,因此需要写个程序,把 csv 文件转换为 excel 文件,由于是经常使用,小编的脚本程序,写成了在命令行中使用的方式业务人员直接打开 csv 文件会乱码,因excel 默认的编码是 GB2312,所以会乱码。

2023-02-01 13:52:13 2113 2

原创 Python 利用4行代码实现图片灰度化

对图片进行灰度化处理

2022-11-30 21:18:17 2577

原创 Hive 中的各种常用set设置

hive 中的常用set语句设置

2022-11-24 12:54:29 2432

原创 Hive 数据聚合成键值对时,根据值大小进行排序

hive 数据聚合成键值对时,根据值大小进行排序

2022-11-17 10:19:31 878

原创 吴军老师的《计算之魂》部分重点摘要

递推 vs 递归,信息编码

2022-09-03 17:04:43 1862 1

原创 Hive中的常用函数

现阶段各个公司的数据慢慢的增多,很多数据都是存放在基于Hadoop的集群上,数据的查询一般使用的是hive,很多公司的数据中台也是使用hive来进行数据处理,本篇文章就来分享下在hive中常用的函数。...

2022-08-11 19:27:54 578 2

原创 Python 利用聚类算法对图片进行颜色压缩

运用聚类算法压缩图片颜色

2022-07-12 17:37:28 1193

原创 Python数据处理中 pd.concat 与 pd.merge 区别

背景数据的合并与关联是数据处理过程中经常遇到的问题,在SQL、HQL中大家可能都有用到 join、uion all 等 ,在 Pandas 中也有同样的功能,来满足数据处理需求,个人感觉Pandas 处理数据还是非常方便,数据处理效率比较高,能满足不同的业务需求本篇文章主要介绍 Pandas 中的数据拼接与关联数据拼接---pd.concatconcat 是pandas级的函数,用来拼接或...

2022-06-14 11:02:05 3752

原创 不同岗位的数据分析人员,可能使用不同的分析方法

背景最近在做业务分析,用到的方法大家可能都比较熟悉:漏斗分析,这个分析方法在很多业务场景都有应用到,是业务侧的常用的分析方法,除了此之外还有一些业务侧常用的分析方法,比如:5W2H、AAARR 等但是,熟悉本公众号的读者,可能比较了解公众号分享的都是一些偏技术侧的知识,之前分享过一些算法模型,包括统计学、特征工程、决策树、人脸监测、NLP 等一些机器学习文章,既有传统的机器学习内容,也有深度学...

2022-05-29 18:50:06 115

原创 Matplotlib 自定义函数实现左边柱形图,右边饼图

背景在复杂的数字中找规律,不如从一张图中看出规律,在平时的汇报时,PPT里面能展示的也就那么几种图表,但是合理的把数据展示出来,有时能让人眼前一亮,在数据分析中合理的运用可视化技术,有时可以起到事半功倍的效果数据可视化是一门艺术,有时清晰的图表胜过千言万语,数据可视化的成功,往往并不在于数据可视化本身。效果效果利用自定义函数画图import pandas as pdim...

2022-04-24 18:03:40 237

原创 对csv文件,又get了新的认知

背景在数据分析时,有时我们会碰到csv格式文件,需要先进行数据处理,转换成所需要的数据格式,然后才能进行分析业务侧的同学可能对Excel文件比较熟悉,Excel可以把单个sheet直接保存为csv文件,也可以直接读取csv文件,变成Excel文件技术侧的同学有时需要把数据库里面的数据导出到一个csv文件,有时也需要把别人给的csv文件加载到数据库中csv文件在各个地方都这么流行,你真的彻底了解它吗?CSV(逗号分隔值文件格式),逗号分隔值(Comma-Separated Values,CSV,有

2022-04-15 19:46:53 5575

原创 Python 中一个好用的地址解析工具cpca(chinese_province_city_area_mapper)

简介gihub地址:https://github.com/DQinYuan/chinese_province_city_area_mappercpca---chinese province city area,一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区"]↓|省 ...

2022-02-16 17:57:53 1238

原创 SecureCRT利用Python脚本自动登陆服务器,自动验证Google Authenticator动态验证码

背景本地连接远端的服务器,SecureCRT可以说是一大利器,可以保存密码、设置自动登陆等,每次都可以一键直连服务器最近因公司加强了服务器登陆验证,增加了二次认证,必须用Google Authenticator输入6位动态验证码,才能成功登陆,这样的话每次都得打开手机,手动输入验证码比较麻烦在 Python 中有这样的库 pyotp 可以直接生成Google Authenticator输入6位动态验证码,前提是你知道谷歌验证码对应的密钥,一般是在最开始让扫描二维的下方会提示出来SecureCRT支

2022-01-18 19:19:50 3161

原创 Python 基于pyecharts自定义经纬度热力图可视化

背景在业务数据统计分析中基本都会涉及到各省区的分析,数据可视化是数据分析的一把利器,这些省区的数据一般会用地图可视化出来,这样一些规律可以被一面了然发现地图有很多可视化类型,比如:基本地理图、热力图、路径图、涟漪图 等,本篇文章主要介绍 热力图,使用的工具百度开源 pyecharts模拟数据以十一期间全国旅游景点热度为例(虚构数据)模拟数据基于pyecharts内置经纬度的热力...

2021-12-29 18:39:15 4103 3

原创 利用Python 自己动手制作动漫效果图片

背景动漫效果的头像最近比较火,微信里面有大量的朋友都是使用这种风格的头像,在一些软件里面也慢慢开始集成该功能,在手机里面可以直接制作出动漫效果的图片这种风格的图片是怎么生成的呢,那就不得不说最近这几年大火的AI,也就是神经网络模型,可以用来处理目前的一些问题,比如:自然语言/NLP类、图像/CV类、声音类 等,动漫图片就归属于图像/CV类中的一种,本篇文章主要是介绍一个开源的模型,来生成这种动...

2021-11-27 20:33:02 919

原创 数据分析师常用的 Linux 命令总结

数据分析师常用的 Linux 命令总结

2021-11-05 16:41:12 319

原创 Hive中各种日期格式转换方法总结

背景日期计算平时在业务取数时经常涉及到,但是数据库中经常存放着不同的日期格式,有的存放是时间戳、有的是字符串等,这时需要对其进行转换才能提取到准确的数据,这里介绍的均是hive里面的函数功能,以下内容均是业务的数据需求经常使用的部分时间戳unix时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒,一般为10位的整数一个在线工具:https://tool.l...

2021-10-22 18:26:40 4907

原创 Python pandas数据分列,分割符号&固定宽度

背景数据分列在数据处理中很常见,数据分列一般指的都是字符串分割,这个功能在Excel里面很实用,处理数据非常方便,那么在pandas数据框中怎么使用呢,今天这篇文章就来详细介绍下分列模拟数据以下面这9行数据作为案例来进行处理模拟数据读取数据#加载库import pandas as pd#读取数据data=pd.read_excel('data.xlsx')...

2021-09-30 16:06:53 4326

原创 Hive HQL支持的2种查询语句风格,你喜欢哪一种?

背景在平时业务运营分析中经常会提取数据,也就是大家俗称的Sql Boy,表哥表姐,各大公司数据中台现在大部分用的都是基于Hadoop的分布式系统基础架构,用的比较多的有Hive数据仓库工具,数据分析师在数据查询时用的就是HQL,语法与Mysql有所不同,基本每天都会写大量的HQL语句,但你有试过哪些风格的写法呢?哪种风格的查询语句更容易理解呢?可能不同的人有不同的看法,下面展示具体的风格代码样式...

2021-08-27 11:10:16 178

VBA爬取统计局统计标准:各省市

通过Excel VBA爬取统计局统计标准:省--市--县,详细的爬虫代码

2019-01-29

Tableau详细教程

Tableau详细教程,仪表板平铺设计,可以同时平铺、浮动

2018-12-12

网页数据采集 VBA

整理自excelhoom论坛,VBA也可以爬取网页数据,简单高效

2018-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除