自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 pandas中any和all在项目中的使用场景

一个机器的运行周期内,内部有两个内机(不会同时运行),判断这个运行周期内,单独只运行某一个内机的情况下,该周期保留,如果该周期内,出现两个内机都有运行的阶段时,或者都没有运行的阶段时,该周期剔除。构造一组数据说明情况,0表示关机,1表示开机import pandas as pddf = pd.DataFrame({ '内机1': [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], '内机2': [1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1]},

2021-09-24 22:33:01 581

原创 python判断列表里面相邻的数值是否连续并分块

需求复现:现在有这样一个大小排好序的列表data = data = [1, 2, 3, 4, 6, 7, 8, 10, 11, 14, 15, 18, 19, 20, 22]需要判断列表里的相邻的元素是否连续,连续的判断为:左边的数值+1=右边的数值需要输出的结果为:[[1, 2, 3, 4], [6, 7, 8], [10, 11], [14, 15], [18, 19, 20], [22]]解决思路是判断相邻元素的差值是否等于1直接上代码data = [1, 2, 3, 4, 6,

2021-09-06 22:09:03 3416 2

原创 pandas判断上下两行数值是否有变化

项目中数据处理过程中遇到的场景如下:一个系统下面有多个设备的运行数据,运行数据中有开关机状态的字段,需要统计在一个周期内,这些设备的开关机变化情况。构造数据import pandas as pd# 1表示开机,0表示关机df = pd.DataFrame({ 1: [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1], 2: [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1], 3: [1, 1, 1, 1, 1, 0, 0, 0, 0, 0,

2021-08-31 18:36:45 1422

原创 python判断某个坐标是否在规定范围内

最近在项目上处理异常数据的时候,有个需求是根据转换后每组数据的两个数组成一个坐标,判定这个坐标是否在合理的范围内,这个范围通过matplotlib绘制出来,是一个不规则的多边形。百度看了一堆由大神们写的一些算法,对新手来说还是不够友好。下面是总结了两个非常好用的api文档,希望对大家有所帮助。通过matplotlib.path判断直接上代码from matplotlib.path import Path# 构造一个矩形多边形进行测试p = Path([(0, 0), (0, 1), (1, 1

2021-08-24 18:41:52 6290 3

原创 pandas模块之SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame

利用python进行数据处理的时候,经常会使用到pandas这一强大的数据处理模块。将数据存储为DataFrame形式,进行一系列的操作。之前以及最近在处理数据的时候经常出现到的一个问题,将这个问题记录一下SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation: https://pandas.pydata.

2021-08-20 19:18:52 706

原创 python里pandas模块之groupby

利用python进行数据处理的时候,经常会使用到pandas这一强大的数据处理模块。将数据存储为DataFrame形式,进行一系列的操作。有些时候我们需要对DataFrame对象进行像sql里面group by聚合操作,pandas也提供了非常好用的api。在pandas中,聚合操作主要由groupby来完成。该篇文章讲述groupby常用方法以及怎么处理groupby产生的MultiIndex。利用groupby进行分组# 先构造一组数据import pandas as pddf = pd.

2021-08-18 18:22:41 880

原创 python通过调用jvm连接impala和phoenix数据库

很多已经入坑了数据挖掘工程师和数据分析师的人,基本上都会接触到mysql、SqlServer、hive、impala以及phoenix等等各种各样的数据库。作为数据挖掘工程师和数据分析师而言,我们不需要精通数据库环境的搭建,数据库的性能优化,但我们需要掌握如何使用查询。如果你选择一门语言来做数据分析、数据挖掘的工具,那么这门语言如何连接对应的数据库显得尤为重要。因为进行复杂的数据分析,我们不可能只用一条查询语句解决,我们需要将查询的结果在进行数据清洗等等一系列的操作转换,数据才能打到我们的要求。下面是

2021-08-08 08:42:53 379

原创 python的f-string字符串格式化你了解多少

python支持字符串格式化输出,当你需要遍历,改变某一个字符串里面的特定内容时,你可能会使用,当你遇到非常复杂的表达式,将一个变量插入到一个字符串中,你也可能用到。在程序中,看到%s,%d这样的操作符,这就是python中字符串格式化的符号,调用字符串format方法,也是python中字符串格式化的一种方式。使用格式化符号(python2.x和python3.x)常见的格式化符号如下:格式化符号含义%s通过str()字符串转换来格式化%d有符号的十进制整数%f

2021-08-05 20:09:32 171

原创 python日志记录loguru模块

python日志记录loguru模块在项目的编写的过程中,需要部署一些定时运行或者长期运行的任务时,为了留存一些导致程序出现异常或错误的信息,通常会采用日志的方式来进行记录这些信息。在python中用到日志记录,那就不可避免地会用到内置的logging标准库。虽然logging库采用的是模块化设计,你可以设置不同的handler来进行组合,但是在配置上通常较为繁琐;而且如果不是特别处理,在一些多线程或多进程的场景下使用 logging还会导致日志记录会出现错乱或是丢失的情况。但有这么一个库,它不仅能够

2021-08-03 22:00:51 486 1

原创 利用mysql和python实现excel的数据透视表功能

利用mysql和python实现excel的数据透视表功能前几天,看到了一家互联网公司的一道mysql面试题,觉得在实际应用中还是挺有用的,现在分享给大家。题目有三名学生,他们的Linux、MySQL、Java成绩在mysql数据表中,表中字段(id),(student name),(course),(score),如下图:idstudent_namecoursescore1张三linux852张三mysql983张三python904李

2021-08-02 20:29:01 411

原创 python连接MySQL、SqlServer数据库

python连接MySQL、SqlServer数据库从事python进行数据挖掘、数据处理、数据分析等跟数据打交道的工作,不免会接触到MySQL和SqlServer数据库,下面是python连接MySQL和SqlServer常用的方法进行简单的封装,我从事的大部分工作是获取数据下来进行数据挖掘处理分析,然后对处理完的数据进行写入,所以我只对查询和写入进行封装。终端直接执行pip命令:pip install pymysqlpip install pymssqlpip install pandas

2021-08-01 10:31:31 437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除