写代码ing-CSDN博客

原创 pandas中any和all在项目中的使用场景

一个机器的运行周期内，内部有两个内机（不会同时运行），判断这个运行周期内，单独只运行某一个内机的情况下，该周期保留，如果该周期内，出现两个内机都有运行的阶段时，或者都没有运行的阶段时，该周期剔除。构造一组数据说明情况，0表示关机，1表示开机import pandas as pddf = pd.DataFrame({ '内机1': [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], '内机2': [1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1]},

2021-09-24 22:33:01 581

原创 python判断列表里面相邻的数值是否连续并分块

需求复现：现在有这样一个大小排好序的列表data = data = [1, 2, 3, 4, 6, 7, 8, 10, 11, 14, 15, 18, 19, 20, 22]需要判断列表里的相邻的元素是否连续，连续的判断为：左边的数值+1=右边的数值需要输出的结果为：[[1, 2, 3, 4], [6, 7, 8], [10, 11], [14, 15], [18, 19, 20], [22]]解决思路是判断相邻元素的差值是否等于1直接上代码data = [1, 2, 3, 4, 6,

2021-09-06 22:09:03 3416 2

原创 pandas判断上下两行数值是否有变化

项目中数据处理过程中遇到的场景如下：一个系统下面有多个设备的运行数据，运行数据中有开关机状态的字段，需要统计在一个周期内，这些设备的开关机变化情况。构造数据import pandas as pd# 1表示开机，0表示关机df = pd.DataFrame({ 1: [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1], 2: [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1], 3: [1, 1, 1, 1, 1, 0, 0, 0, 0, 0,

2021-08-31 18:36:45 1422

原创 python判断某个坐标是否在规定范围内

最近在项目上处理异常数据的时候，有个需求是根据转换后每组数据的两个数组成一个坐标，判定这个坐标是否在合理的范围内，这个范围通过matplotlib绘制出来，是一个不规则的多边形。百度看了一堆由大神们写的一些算法，对新手来说还是不够友好。下面是总结了两个非常好用的api文档，希望对大家有所帮助。通过matplotlib.path判断直接上代码from matplotlib.path import Path# 构造一个矩形多边形进行测试p = Path([(0, 0), (0, 1), (1, 1

2021-08-24 18:41:52 6290 3

原创 pandas模块之SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame

利用python进行数据处理的时候，经常会使用到pandas这一强大的数据处理模块。将数据存储为DataFrame形式，进行一系列的操作。之前以及最近在处理数据的时候经常出现到的一个问题，将这个问题记录一下SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation: https://pandas.pydata.

2021-08-20 19:18:52 706

原创 python里pandas模块之groupby

利用python进行数据处理的时候，经常会使用到pandas这一强大的数据处理模块。将数据存储为DataFrame形式，进行一系列的操作。有些时候我们需要对DataFrame对象进行像sql里面group by聚合操作，pandas也提供了非常好用的api。在pandas中，聚合操作主要由groupby来完成。该篇文章讲述groupby常用方法以及怎么处理groupby产生的MultiIndex。利用groupby进行分组# 先构造一组数据import pandas as pddf = pd.

2021-08-18 18:22:41 880

原创 python通过调用jvm连接impala和phoenix数据库

很多已经入坑了数据挖掘工程师和数据分析师的人，基本上都会接触到mysql、SqlServer、hive、impala以及phoenix等等各种各样的数据库。作为数据挖掘工程师和数据分析师而言，我们不需要精通数据库环境的搭建，数据库的性能优化，但我们需要掌握如何使用查询。如果你选择一门语言来做数据分析、数据挖掘的工具，那么这门语言如何连接对应的数据库显得尤为重要。因为进行复杂的数据分析，我们不可能只用一条查询语句解决，我们需要将查询的结果在进行数据清洗等等一系列的操作转换，数据才能打到我们的要求。下面是

2021-08-08 08:42:53 379

原创 python的f-string字符串格式化你了解多少

python支持字符串格式化输出，当你需要遍历，改变某一个字符串里面的特定内容时，你可能会使用，当你遇到非常复杂的表达式，将一个变量插入到一个字符串中，你也可能用到。在程序中，看到%s，%d这样的操作符，这就是python中字符串格式化的符号，调用字符串format方法，也是python中字符串格式化的一种方式。使用格式化符号(python2.x和python3.x)常见的格式化符号如下：格式化符号含义%s通过str()字符串转换来格式化%d有符号的十进制整数%f

2021-08-05 20:09:32 171

原创 python日志记录loguru模块

python日志记录loguru模块在项目的编写的过程中，需要部署一些定时运行或者长期运行的任务时，为了留存一些导致程序出现异常或错误的信息，通常会采用日志的方式来进行记录这些信息。在python中用到日志记录，那就不可避免地会用到内置的logging标准库。虽然logging库采用的是模块化设计，你可以设置不同的handler来进行组合，但是在配置上通常较为繁琐；而且如果不是特别处理，在一些多线程或多进程的场景下使用 logging还会导致日志记录会出现错乱或是丢失的情况。但有这么一个库，它不仅能够

2021-08-03 22:00:51 486 1

原创利用mysql和python实现excel的数据透视表功能

利用mysql和python实现excel的数据透视表功能前几天，看到了一家互联网公司的一道mysql面试题，觉得在实际应用中还是挺有用的，现在分享给大家。题目有三名学生，他们的Linux、MySQL、Java成绩在mysql数据表中，表中字段(id)，(student name)，(course)，(score)，如下图：idstudent_namecoursescore1张三linux852张三mysql983张三python904李

2021-08-02 20:29:01 411

原创 python连接MySQL、SqlServer数据库

python连接MySQL、SqlServer数据库从事python进行数据挖掘、数据处理、数据分析等跟数据打交道的工作，不免会接触到MySQL和SqlServer数据库，下面是python连接MySQL和SqlServer常用的方法进行简单的封装，我从事的大部分工作是获取数据下来进行数据挖掘处理分析，然后对处理完的数据进行写入，所以我只对查询和写入进行封装。终端直接执行pip命令：pip install pymysqlpip install pymssqlpip install pandas

2021-08-01 10:31:31 437

lhbo_bo的博客