自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

原创 pndas的条件判断及空值判断

pandas数据判断是否为NaN值的方式实际项目中有这样的需求,将某一列的值,映射成类别型的数据,这个时候,需要我们将范围等频切分,或者等距切分。具体的做法可以先看某一些特征的具体分布情况,然后我们选择合适的阈值进行分割。def age_map(x): if x < 26: return 0 elif x >=26 and x <= 35: return 1 elif x > 35 and x <= 45:

2020-08-24 16:52:13 575

原创 pandas 去重 drop_duplicates 函数

pandas 去重 drop_duplicates 函数DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下: data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)参数含义:代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个

2020-08-24 16:48:23 1042

原创 pandas if else语句(数据替换)

1.if-then / if-then-else用在一个数据帧上:(原文链接:https://blog.csdn.net/tcy23456/article/details/85460709)(可进入该博主的主页,查看更多pandas其他功能资料)# 实例1:if-then-elsedf = pd.DataFrame({'A': [10,11,12],'B': [20,21,22],'C': [30, 31, -32]})df.loc[df.A >= 11, 'B'] = -1

2020-08-24 16:18:55 10265 1

原创 Pandas中DataFrame关联操作(concat、append、merge、join)

Pandas中DataFrame关联操作(concat、append、merge、join)原文链接:https://blog.csdn.net/ai_1046067944/article/details/86481276或结论:concat与append是属于拼接操作concat简略形式,只能在axis=0上进行合并merge与join属于关联操作,类似于sql中的join操作merge可以实现列与索引上关联操作,join只能索引上关联操作关联操作基本上用merge就可以了一、Conca

2020-08-24 15:52:31 2087

原创 关于python中ggplot包出现 ‘DataFrame‘ object has no attribute ‘sort‘问题的解决方法

关于python中ggplot包出现 ‘DataFrame’ object has no attribute 'sort’问题的解决方法最近发现python中也有ggplot包与R语言上的ggplot2库中的函数大体上一样,只有少数没有在python上实现,类似于coord_flip() 函数可以将柱状图变为水平放置的,在python中就没有办法实现。但是,大多数是可以使用的,这也大大方便了数据处理后的可视化操作。在使用中还发现了一个问题,就是这样的:ggplot(aes(x='factor(cyl)

2020-08-24 15:32:14 1462

原创 错误:‘Series‘ objects are mutable, thus they cannot be hashed

错误:‘Series‘ objects are mutable, thus they cannot be hashed问题:我在使用pandas里面的groupby函数:代码如下:People_features["sid"].groupby(People_features["pid"],People_features["click_mode"]).agg("count")我本意是统计整个数据People_features中每个pid里面每种click_mode的出现次数,然后出现了这个问题原因:

2020-08-24 15:30:06 1457

原创 Pandas修改DataFrame的列名的2种方法总结

输入: $a $b $c $d $e0 1 2 3 4 5期望的输出: a b c d e0 1 2 3 4 5原数据DataFrame:import pandas as pddf = pd.DataFrame({'$a': [1], '$b': [2], '$c': [3], '$d': [4], '$e': [5]})解决方法1:通过DataFrame.columns类的自身属性修改暴力修改(想要改变的列明顺序要对应)

2020-08-24 15:24:26 2698

原创 pandas dataframe 分组聚合

利用pandas做分组聚合时,分组组名默认是变化成index,如图grouped = tdf.groupby('uid')mean=grouped.mean();forwardmeandf=pd.DataFrame(mean)代码中tdf是一个dataframe 当以uid分组,并求每组的平均值后在转化为dataframe ,组名并入到index这样非常不方便我们通过index获取值,因为uid太长了。这个问题苦恼了我很久,终于在官方文档中看到解决方法,只要在分组的时候指定as_index=f

2020-08-24 15:12:04 932

原创 pandas的使用小结

1,使用pandas读取excel:https://blog.csdn.net/weixin_38546295/article/details/835375582,使用Pandas对数据进行筛选和排序:http://bluewhale.cc/2016-08-06/use-pandas-filter-and-sort.html#ixzz4S2k7VseY3,Pandas中的拼接操作(concat,append,join,merge)https://blog.csdn.net/guofei_fly/a

2020-08-21 10:43:37 84

原创 腾讯弹幕数据分析

腾讯弹幕数据分析数据读入In [1]:导入库import osimport jiebaimport numpy as npimport pandas as pd​from pyecharts.charts import Bar, Pie, Line, WordCloud, Pagefrom pyecharts import options as optsfrom pyecharts.globals import SymbolType​import stylecloudfrom I

2020-07-29 17:38:43 1145

原创 三十而已 豆瓣短评分析

三十而已 豆瓣短评分析数据读入In [1]:导入所需包import numpy as npimport pandas as pdimport reimport jieba​from pyecharts.charts import Pie, Bar, Map, Line, Pagefrom pyecharts import options as optsIn [2]:读入数据df = pd.read_excel(’…/data/三十而已豆瓣短评7.22.xlsx’)print(df

2020-07-29 17:35:54 781

原创 python可视化-plot()函数

函数功能:展现变量的趋势变化。调用签名:plt.plot(x, y, ls="-", lw=2, label=“plot figure”)x: x轴上的数值y: y轴上的数值ls:折线图的线条风格lw:折线图的线条宽度label:标记图内容的标签文本plt.legend()函数主要的作用就是给图加上图例,plt.legend([x,y,z])里面的参数使用的是list的的形式将图表的的名称喂给这和函数。 import matplotlib.pyplot as plt import nump

2020-07-23 18:52:16 1894

原创 数据整理

8.1 分析并预处理raw_sample数据集import os配置spark driver和pyspark运行时,所使用的python解释器路径PYSPARK_PYTHON = “/root/miniconda3/bin/python3”os.environ[“PYSPARK_PYTHON”] = PYSPARK_PYTHONos.environ[“PYSPARK_DRIVER_PYTHON”] = PYSPARK_PYTHONspark配置信息from pyspark import Spa

2020-07-06 20:12:23 491

原创 配置spark driver

import os配置spark driver和pyspark运行时,所使用的python解释器路径由于miniconda3中默认存在一个python3.7的版本,jupyter默认也使用的是这个版本,故:设置pyspark的解释器为miniconda3的解释器PYSPARK_PYTHON = “/root/miniconda3/bin/python3”JAVA_HOME=’/root/bigdata/jdk1.8.0_181’当存在多个版本时,不指定很可能会导致出错os.environ[“PY

2020-07-02 10:28:33 1025

原创 Spark中executor-memory参数详解

我们知道,spark执行的时候,可以通过 --executor-memory 来设置executor执行时所需的memory。但如果设置的过大,程序是会报错的,如下555.png那么这个值最大能设置多少呢?本文来分析一下。 文中安装的是Spark1.6.1,安装在hadoop2.7上。1、相关的2个参数1.1 yarn.scheduler.maximum-allocation-mb这个参数表示每个container能够申请到的最大内存,一般是集群统一配置。Spark中的executor进程是跑在c

2020-06-30 10:44:04 3502

原创 Spark优化那些事(4)-关于spark.driver.maxResultSize的疑惑

今天遇到了spark.driver.maxResultSize的异常,通过增大该值解决了,但是其运行机制不是很明白,先记录在这里,希望后面有机会可以明白背后的机制。该异常会报如下的异常信息:Job aborted due to stage failure: Total size of serialized results of 3979 tasks (1024.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)锁定了是spark.d

2020-06-30 09:25:08 2307

原创 pivotMaxValues报错

pivotMaxValues报错1、出现错误的操作在列转行且用指定的列的值填充时报错,且列转行的字段个数超过10000个;2、具体错误Exception in thread "main" org.apache.spark.sql.AnalysisException: The pivot column field_name has more than 10000 distinct values, this could indicate an error. If this was inten

2020-06-28 14:46:16 374

原创 特征工程值得看的资料

https://www.zhihu.com/question/29316149https://www.cnblogs.com/taceywong/p/5933002.htmlhttps://link.zhihu.com/?target=http%3A//machinelearningmastery.com/discover-feature-engineering-how-to-engineer...

2020-01-14 10:38:20 125

原创 spark之推测执行

1、什么是推测执行?  在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor上再启动一个task来跑这个任务,...

2020-01-12 11:17:35 179

原创 rdd

练习案例1:map filtermap:所有数据按照map中的参数对应的函数来处理并产生一个新的RDDfilter:所有数据按照map中的参数对应的函数(必须存在返回boolean的函数)来处理,并产生一个新的RDDrdd1 = sc.parallelize([1,2,3,4,5])rdd2 = rdd1.map(lambda x:x*2)rdd3 = rdd2.filter(lamb...

2020-01-06 10:05:00 231

原创 111

2.2 创建DataFrame1,创建dataFrame的步骤​ 调用方法例如:spark.read.xxx方法2,其他方式创建dataframecreateDataFrame:pandas dataframe、list、RDD数据源:RDD、csv、json、parquet、orc、jdbcjsonDF = spark.read.json(“xxx.json”)jsonDF = s...

2020-01-06 10:04:09 98

原创 pyspark:dataframe与rdd的一点小事

原文链接:https://www.jianshu.com/p/5e593510313b大纲问题描述解决方案代码以及效果总结1.问题描述要做的事情从一堆房源hive表和hdfs数据中读取信息,并将同一id的信息整合到一起。共有5个hive表,2个hdfs文件;每个表所需操作的id数是千万数量级,每个表中字段20~200不等。当前做法用pyspark读取hive表以及hdfs的数据...

2020-01-05 21:32:59 779

原创 pyspark DataFrame 转RDD

-- coding: utf-8 --from future import print_functionfrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowif name == “main”:# 初始化SparkSessionspark = SparkSession .builder .appName(“RD...

2020-01-05 21:24:38 1706

原创 spark sql实战(pyspark)—如何把多个udf作用于同一列数据

概述本文介绍如何把多个udf函数使用到dataframe/dataset的同一列上。使用思路有时候我们需要在同一列上进行多个函数操作,形成一个函数链。也就是把上一个函数的输出作为下一个函数的输入,把最后的结果作为处理结果。有多种方式可以实现该功能,这介绍一种函数链的方式,基本思路如下:把需要对列进行处理的函数放到一个链表中分别通过函数链上的每个函数来对列数据进行处理把上一个函数的处理...

2020-01-05 15:58:35 670

原创 Python 3安装pymysql

1、下载一个包含pymysql文件夹,下面的是下载网站:https://github.com/PyMySQL/PyMySQL2、下载好,将压缩包解压,会得到一个PyMySQL-master的文件夹pip的执行程序其实是在Python 3 的安装目录下,所以你想要用pip安装模块,必须去官方装电脑版的Python1、安装Python 3 ,下载网站:https://www.python.or...

2020-01-05 10:47:30 597

原创 window 7 python 3.7 安装pymysql及用法

1、下载安装包,进行安装https://www.python.org/downloads/windows/2、打开cmd,输入python,查看python查看版本3、安装PyMySQL在cmd命令行中输入以下命令,进行安装pip install PyMySQL4、示例#!/usr/bin/env python-- coding: utf-8 --import pymysql...

2020-01-05 10:45:44 230

原创 pip安装包报错

pip安装第三方库时报错Retrying (Retry(total=1, connect=None, read=None, redirect=None, status=None))…,详细报错见下图:报错原因:国外镜像源连接问题导致解决:改为国内镜像源下载常用国内源:清华:https://pypi.tuna.tsinghua.edu.cn/simple/阿里云:http://mirr...

2020-01-05 10:38:54 1844

原创 如何查看用pip命令安装的软件的安装路径

怎么查看python的pip install xx安装的软件的安装路径?pip freeze命令可以查看用pip安装的软件有哪些要查看安装路径,在执行一次命令pip install xx,就会告诉你已经安装,安装路径在哪原文链接:https://blog.csdn.net/jiangmengying01/article/details/78966174...

2020-01-05 10:33:11 544

原创 Python更新PIP至最新版本

有时我们使用pip为python安装模块“python -m pip install **”时,系统提醒需要更新pip版本,使用以下指令即可:python -m pip install --upgrade pip原文链接:https://blog.csdn.net/qq_25315595/article/details/81353832...

2020-01-05 10:30:33 458

原创 在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高1 创建数据集的spark D啊他Frames: TmpDF=spark.createDataFrame(RDD,schema) 这里schema是由StructFied函数定义的 2 将数据集的DataFrames格式映射到...

2019-12-29 17:52:00 3389

原创 PySpark的存储不同格式文件

PySpark的存储不同格式文件,如:存储为csv格式、json格式、parquet格式、compression格式、tablefrom future import print_function, divisionfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession启动 Spark (...

2019-12-27 10:11:51 473

原创 Spark 2.1.0 入门:协同过滤算法(Python版)

导入需要的包from pyspark.ml.evaluation import RegressionEvaluatorfrom pyspark.ml.recommendation import ALSfrom pyspark.sql import Row根据数据结构创建读取规范创建一个函数,返回即[Int, Int, Float, Long]的对象def f(x):rel = {}...

2019-12-16 10:26:37 295

原创 数据机构与算法

数据结构:1,数据对象在计算机中的组织方式:逻辑结构(线性结构,树型结构(一对多),图型结构(多对多))。物理存储结构。2,数据对象必定与一系列加在其上的操作相关联。 3,完成这些操作所用的方法就是算法。...

2019-12-14 21:54:26 76

原创 推荐2

打印df结构信息df.printSchema()更改df表结构:更改列类型和列名称raw_sample_df = df.withColumn(“user”, df.user.cast(IntegerType())).withColumnRenamed(“user”, “userId”).withColumn(“time_stamp”, df.time_stamp.cast(LongTyp...

2019-12-10 14:36:43 76

原创 推荐

import os配置spark driver和pyspark运行时,所使用的python解释器路径由于miniconda3中默认存在一个python3.7的版本,jupyter默认也使用的是这个版本,故:设置pyspark的解释器为miniconda3的解释器PYSPARK_PYTHON = “/root/miniconda3/bin/python3”JAVA_HOME=’/root/b...

2019-12-10 11:28:00 395

原创 spark

2.2 创建DataFrame1,创建dataFrame的步骤​ 调用方法例如:spark.read.xxx方法2,其他方式创建dataframecreateDataFrame:pandas dataframe、list、RDD数据源:RDD、csv、json、parquet、orc、jdbcjsonDF = spark.read.json(“xxx.json”)jsonDF = s...

2019-12-01 21:18:11 131

原创 count(1)、count(*)与count(列名)的执行区别

执行效果:count(1) and count(*)当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count()用时多了!从执行计划来看,count(1)和count()的效果是一样的。 但是在表做过分析之后,count(1)会比count(*)的用时少些(1w以内数据量),不过差不了多少。如果count(1)是聚索引,id,那肯定是count(1)快。但是差的很小...

2019-11-27 10:11:12 71

原创 PySpark DataFrame 添加自增 ID

在用 Spark 处理数据的时候,经常需要给全量数据增加一列自增 ID 序号,在存入数据库的时候,自增 ID 也常常是一个很关键的要素。在 DataFrame 的 API 中没有实现这一功能,所以只能通过其他方式实现,或者转成 RDD 再用 RDD 的 zipWithIndex 算子实现。下面呢就介绍三种实现方式。 创建 DataFrame 对象 from pyspark.sq...

2019-11-27 10:07:54 3533 1

原创 instr()函数--支持模糊查询

sql 进行模糊查询时,可使用内部函数 instr,替代传统的 like 方式,并且速度更快。1)instr()函数的格式 (俗称:字符查找函数)格式一:instr( string1, string2 ) / instr(源字符串, 目标字符串)格式二:instr( string1, string2 [, start_position [, nth_appearance ] ] ...

2019-09-25 09:34:14 1449

原创 Python3解决UnicodeDecodeError: 'utf-8' codec can't decode byte..问题 解决方案

一,Python3解决UnicodeDecodeError: ‘utf-8’ codec can’t decode byte…问题 终极解决方案本文链接:https://blog.csdn.net/wang7807564/article/details/78164855二,python 导入数据错误:UnicodeDecodeError: ‘utf-8’ codec can’t decode ...

2019-09-22 20:45:40 1712

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除