自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夏日麦香的博客

越努力越幸运,总有一天我会穿越云端,飞向属于自己的天空

  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

转载 python pandas DataFrame: Shuffle 打乱顺序/洗牌

转载:pandas: Shuffle rows/elements of DataFrame/Seriesnkmk note 这个作者写了很多关于python使用的文章,写得很好,推荐收藏You can randomly shuffle rows of and elements of with the method. There are other ways to shuffle, but using the method is convenient because it does not requi

2024-04-18 21:59:57 7

转载 python Faker 批量生成数据

print(fake.date_this_decade(before_today=True, after_today=False)) # 本年代中的日期 如: datetime.date(2014, 1, 29)print(fake.date_between(start_date=“-30y”, end_date=“today”)) # 日期(可设置限定范围) 如:datetime.date(2014, 8, 17)

2023-12-19 11:07:09 132

转载 python groupby 用法详解

进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。如果按照正常的步骤来计算,需要先求得不同公司的平均薪水,然后按照员工和公司的对应关系填充到对应的位置,不用。转换成列表的形式后,可以看到,列表由三个元组组成,每个元组中,第一个元素是组别(这里是按照。在pandas中,实现分组操作的代码很简单,仅需一行代码,在这里,将上面的数据集按照。而言更加灵活,能够传入任意自定义的函数,实现复杂的数据操作。

2023-08-03 16:34:29 1753 1

转载 【转】Python快速实现分列转到行

原博客_Python快速实现分列转到行在数据操作中会有将列表转为行的需求,以下是python的处理方法。数据源大致是这样的:数据源已经构造好,咱们开干!import pandas as pd df = pd.read_excel("分列转到行.xlsx",header=None) df.columns = ["年级","姓名"] df结果如下:整个代码很简单df["新列"] = df["姓名"].str.split(";")df["新列"]结果如下:最

2022-05-24 22:26:03 3103

原创 python 使用set()计算变量交集

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代.

2022-05-13 23:14:19 621

原创 Hive 行转列(lateral view)

将列表式变量转为列, 例如var1 value1 a c1,c2,c3,c2 b b1,b2,b1 将value1拆分转换为列,语句如下:select var1, value2from table1 lateral view explode(split(value1, ",")) adTable as value2 ;转换结果如下:var1 value2 a c1 a c2 a c3 a c

2022-05-12 21:18:43 813

原创 python 全角转半角

def full_to_half(full_width_string): fullString = str(full_width_string) halfString = "" for schar in fullString: char_code = ord(schar) if char_code == 12288: char_code=32 elif (char_code>=65281 and char.

2022-05-12 20:41:35 591

原创 使用python进行数据抽样

工作中使用hive进行数据预处理,有时候需要对数据抽样来做一些评估分析。下面记录通过python进行分层随机抽样的过程。使用python连接数据库读取数据请参考:使用python连接数据库import sqlalchemyimport pandas as pdimport numpy as np # 1. 连接hive获取数据def get_hive_data(sql): user_name = "hive引擎地址" hive_engine = sqlalchemy.c

2022-05-08 22:00:16 2814

原创 使用python连接数据库

import pandas as pdimport sqlalchemyimport pymysqlimport pymssqlimport pyhive# 连接hivedef con_hive(sql): user_name = "hive链接地址" hive_engine = sqlalchemy.create_engine(user_name) data = pd.read_sql(sql, hive_engine) print ("\n数据读取完毕\n.

2022-05-08 20:43:24 1436

原创 python 数据错位相减,上下两行相减

今天接到一个需求,要求用对数据进行错位相减。感觉写得有点麻烦,如果其他方法,欢迎留言交流数据说明:有客户、消费日期、消费额度求解目标:对于同一个客户,对日期升序排序,如果下一个日期的消费额度大于上一个日期的消费额度,则标记,最终取出第一次发生时对应的较大的日期import pandas as pdimport numpy as npdf = pd.DataFrame({'per...

2020-04-20 23:11:19 6833 1

原创 python 使用del和drop方法删除DataFrame的列,使用drop方法一次删除多列

使用del和drop方法删除DataFrame中的列,使用drop方法一次删除多列# 使用del, 一次只能删除一列,不能一次删除多列# 只能使用 del df['密度'], 不能使用 del df[['密度', '含糖率']]del df['密度']# del df[['密度', '含糖率']] 报错# 使用drop,有三种方法:dt = dt.drop(['密度',...

2020-04-19 11:36:18 30897

原创 python astype(‘category‘), 编码和标签对应,categories 和 code 映射为字典

在一些机器学习算法中,经常要对数据进行编码转换,转换后需要查询标签和编码的对应关系,可以使用以下代码处理。但是注意下面代码使用的是 astype(‘category’),它和pd.Category(…)是不一样的,具体区别请参考文章https://www.jb51.cc/python/533189.htmlimport pandas as pd# 创建数据集df = pd.Data...

2020-04-18 10:25:12 10369

原创 python 批量更改变量名(列名字符串替换),读取多个同类型文件合并

# 替换某些列名中的 某部分 字符串def re_columns(dt, substr, newstr, ls): """ Parameters ---------- dt : datasets substr : str string that will be replaced. newstr : str...

2020-04-16 09:22:44 6141

原创 python list 内嵌列表转为一维列表

# 只能是内嵌列表,如果改为 a = [[1,2,3],[4,5,6], [7], [8,9] , 10] 则无法实现import itertoolsa = [[1,2,3],[4,5,6], [7], [8,9]]out = list(itertools.chain.from_iterable(a))print(out)# [1, 2, 3, 4, 5, 6, 7, 8, 9]...

2020-04-16 09:01:13 1686

原创 hadoop与spark搭建及pyspark调用问题

最近趁着有空,在虚拟机里装了Ubuntu18.04系统,然后搭建了 hadoop与spark环境,记录一下。一、使用的工具版本:jdk-8u241-linux-x64.tar.gzhadoop-2.7.7.tar.gzscala-2.11.8.tar.gzspark-2.4.5-bin-hadoop2.7.gz没装hive,略过Anaconda3-2019.07-Linux-x8...

2020-03-23 14:41:51 1029 1

转载 numpy.ravel() 和 numpy.flatten()

转自CSDN博主「Inside_Zhang」,链接:https://blog.csdn.net/lanchunhui/article/details/50354978首先声明两者所要实现的功能是一致的(将多维数组降位一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflects)原始矩阵,而numpy...

2020-02-21 10:01:57 167

原创 使用Python发送邮件(图片、表格、附件) 系列三: 发送工作报表之透视表自动刷新数据

使用Python发送邮件(图片、表格、附件) 系列一,如何发送图片、表格等的全代码:https://blog.csdn.net/u010652755/article/details/104321413使用Python发送邮件(图片、表格、附件) 系列二, 同时发送图片和附件实际案例:https://blog.csdn.net/u010652755/article/details/104...

2020-02-16 23:13:20 1646

原创 Python 读取csv文件时数字变成科学计数法(含有e)

读取csv时遇到一个长数字(比较长的数字,excel中长度超过16位后,会变成科学计数法显示)转换问题。在csv中正常显示全部数字,没有变成科学计数法,但用pd.read_csv后就变成了科学计数法显示, 如下图显示。这是个问题,当然要解决呀呀呀。搜索了许多网页,找到一篇文章可以解决这个问题:https://www.jb51.net/article/164692.htm...

2020-02-16 21:44:56 15716

原创 使用Python发送邮件(图片、表格、附件) 系列一:如何发送图片、表格等的全代码

本文中Part 0 + 中间任何一Part 或组合 + Part 6, 即可将内容正常发送到QQ邮箱。本文使用个人电脑和个人邮箱,对代码进行了测试,可以正常运行。非常感谢诸位网友的共享,在写代码的过程中给了我很大的帮助,如果出现了问题错误,可以多搜索多尝试,希望对各位有帮助。 实际案例应用见系列二 :https://blog.csdn.net/u010652755/articl...

2020-02-14 23:50:09 3046 2

原创 使用Python发送邮件(图片、表格、附件) 系列二: 同时发送图片和附件实际案例

本文是系列一的实际应用案例。全部代码见系列一:# -*- coding: utf-8 -*-"""Created on Fri Feb 14 20:28:21 2020@author: xxx"""import osos.chdir(r'F:\自动化报表') # 设置文件路径import numpy as npimport pandas as pdimport m...

2020-02-14 23:49:12 2691

原创 python 连接 mysql 数据库出现 keyerror 255 错误

python 连接 mysql 数据库出现 keyerror: 255,字符集相关错误Traceback (most recent call last): File "<ipython-input-13-850297a5d287>", line 1, in <module> mydata = con_mysql(sql) File "<ipy...

2020-02-11 21:17:26 2419 2

原创 电脑内存爆满,使用率超过90%

今天突然发现电脑内存爆满,使用率超过97%,但是并没有发现占用内存高的软件,后来网上搜索发现了一个可能解决方法:更新驱动用360驱动大师更新完后,内存恢复正常,下降到14%。...

2020-02-11 18:16:02 9141

原创 Ptyhon matplotlib 绘图 中文乱码 不正常显示

参考文章:https://fonttian.blog.csdn.net/article/details/78107421import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport mathfrom mpl_toolkits.mplot3d import Axes3D# 添加下面代码后绘...

2020-02-06 22:13:30 217

原创 python pandas 分组切割 使用 pd.cut

import pandas as pdIn [156]: dt = pd.DataFrame({'A':[-10, 0 ,1, 10, 3, 9, 30, 50],'B':[100, 0, 9, -1, 20, 12, 4, 27]})In [157]: dtOut[157]: A B0 -10 1001 0 02 1 93 10 -...

2019-08-09 10:10:07 4621

原创 python 日期转换为指定格式 2019-06-12 形式,并做加减

import datetimeIn [11]: current_date = (datetime.datetime.now()).strftime('%Y-%m-%d');current_dateOut[11]: '2019-06-12'In [12]: current_date_sub_1 = (datetime.datetime.now()+datetime.timedelta(d...

2019-06-12 20:26:55 2242

原创 python merge ,suffiex,多个merge连接,后缀无法生效

此处不谈如何使用 pandas.merge,主要谈 merge函数的参数 suffiex参考文档http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.htmlsuffiex:用于重叠列的字符串后缀元组,默认为 (‘x', 'y')如果连接的两个表中,没有重复的列名,就使用各自原列名,此时定义的后缀...

2019-06-12 20:21:31 5672 2

原创 【项目03】数据清洗和结论研究

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inlinezhihu = pd.read_csv('知乎数据_201701.csv')people = pd.read_csv('六普常住人口数.csv', converters={'常住人口':float}, engine...

2019-06-12 19:46:49 629 1

原创 Python 编码错误,读取csv 报错:can‘t decode byte 0xba/0xca...invalid start byte

5、更新过程中把anconda关掉,不然更新可能会失败。2、运行过程中如若无法打开国内镜像源,请更换为官方镜像源。突然想到,要不更新下?结果简直不要太美好 ~^o^~1、打开cmd,先运行第一行,运行完毕后再运行第二行。试了网上的各种方法后,依然无法解决。4、替换方法请自行百度。在读取 csv 时,

2019-06-10 22:01:33 1023 1

原创 【项目02】  基于Python的算法函数创建

【项目02】 基于Python的算法函数创建作业要求:根据不同题目,完成代码书写并成功运行# 题目1:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的两位数?都是多少?# 该题目不用创建函数import numpy as npimport pandas as pd# 方法1from itertools import productnum = [1, ...

2019-06-09 11:18:34 193

原创 【项目01】 数据加载及存储

【项目01】 数据加载及存储要求:1、成功读取“store_data.csv”文件2、解析数据,存成列表字典格式:[{‘var1’:value1,‘var2’:value2,‘var3’:values,…},…,{}]3、数据清洗:① comment,price两个字段清洗成数字② 清除字段缺失的数据③ commentlist拆分成三个字段,并且清洗成数字4、结果存为.pkl文件...

2019-06-05 00:00:21 200

原创 将相同id对应的其他行元素合同到同一个列表中

将相同id对应的其他行元素合同到同一个列表中,使用 tolist()# 数据集如下In [8]: A = [1,2,3,0]In [9]: B = [1,1,2,2]In [10]: ID = [0,0,1,1]In [13]: df = pd.DataFrame(zip(A,B,ID), columns=['A','B','ID'])Out[14]: A B ID0 1...

2019-06-03 23:18:49 757

原创 pandas组内排序,并在每个分组内按序打上序号

pandas组内排序,并在每个分组内按序打上序号pandas dataframe 对dep_id组内的salary排序。希望给下面原本只有前三列的dataframe,添加上第四列。等价于sql的row_number()假设我已经建好了仅有前三列的dataframe,数据集命名为 MyData,那么解决方案如下:MyData[‘sort_id’] = MyData[‘salary’].gr...

2019-06-03 22:57:31 16324 3

原创 SQL 连续任意区间段分组统计

SQL 连续任意区间段分组统计

2017-06-10 12:04:35 5122

原创 R语言使用merge函数匹配数据(vlookup,join)

数据集中w中的 name = ‘D’ 不显示,数据集中q中的 name = ‘F’ 不显示,只显示公有的name行,并且用q数据集A行匹配了w数据集所有的A行。有多个公共列,在公共列后加上x,y表示数据来源,.x表示来源于数据集w,.y表示来源于数据集q。# all = TRUE 表示选取w, q 数据集的所有行,sort = TRUE,表示按 by 列进行排序,默认升序。6、outer 模式,将两张表的数据汇总,表中原来没有的数据置为空。5、inner 模式匹配,只显示两个数据集公共列中均有的行。

2017-06-10 11:40:36 106665 3

原创 R语言读取数据、拆分数据,并保存到相应文件夹

R语言读取数据、拆分数据,并保存到相应文件夹

2017-06-10 10:54:30 16621 6

原创 推荐系统实战 初学之路笔记(1)--推荐系统基本概念

推荐系统基本概念在此介绍的推荐系统有一、协同过滤推荐系统(CollaborativeFiltering, CF) 基本思想:如果用户在过去有相同的偏好,那么他们在未来也有相同的偏好。 解释: 用户:不是指用户自己,而是多个用户 时间:基于用户过去的偏好,计算两个用户之间的偏...

2016-04-16 00:09:27 1246

原创 Python 学习中遇到的各种问题

O’Reilly出版的Wes McKenny编的《Python for Data Analysis》, 采用Anaconda3集成环境1.1 Movielens数据的处理例子,输出前五个用户信息。代码如下:import pandas as pdunames = ['user_id', 'gender', 'age', 'occupationb', 'zip'] users = pd.read_

2015-11-13 21:49:05 1547

原创 Python基础教程100例 练习2

学习Python有一段时间了,从今天开始将Python基础教程100例中的习题完成,运行环境 Python 2.7参考一个在线教程网站 Python基础教程 ,网址 http://www.runoob.com/python/python-100-examples.html例2:题目:企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高于10万元...

2015-11-10 17:41:38 1235

原创 Python基础教程100例 练习1

学习Python有一段时间了,从今天开始将Python基础教程100例中的习题完成,运行环境 Python 2.7参考一个在线教程网站 Python基础教程 ,网址 http://www.runoob.com/python/python-100-examples.html例1:题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?题目分析:组...

2015-11-10 17:15:24 1305

原创 《learning python the hard way》习题46 项目骨架搭建 问题小结(二)之 自动化测试代码问题

在学习《learning python the hard way<第4版>》的过程中,既痛又快乐。特别是在习题46项目骨架搭建一节,不仅遇到了软件包安装的麻烦问题,而且遇到了测试代码的问题。 系统:Windows版本:python2.7.9 命令行终端:Windows PowerShell 首先,书中给出的代码是...

2015-07-29 22:59:46 1324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除