自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 pandas 小技巧——如何显示程序进度/进度条的使用/tqdm的使用

python的进度条库:tqdm

2022-09-02 13:52:13 2236 1

原创 jupyter notebook —— linux 为远程登录 jupyter notebook 设置密码

linux 为远程登录 jupyter notebook 设置密码

2022-04-06 17:05:57 1270

原创 jupyterLab 如何修改字体大小

1、打开jupyterLab,左键单击【Settings】,选择【Advanced Settings Editor】2、在上一步弹出来的页面中,左键单击【Notebook】,然后在右侧的【User Overrides】中进行增删改,这个地方就是自定义字体设置的地方。参考代码如下:{ // Notebook // @jupyterlab/notebook-extension:tracker // Notebook settings. // **************

2022-03-02 10:58:24 13769

原创 解决:win10安装谷歌浏览器,双击快捷方式,没反应,打不开

解决:win10安装谷歌浏览器,双击快捷方式,没反应,打不开

2022-02-28 18:19:29 11764 11

原创 excel 小技巧——如何在每列后插入一列并指定内容(如何隔列插入一列并指定内容)

如何在每列后插入一列并指定内容(如何隔列插入一列并指定内容)

2021-12-29 17:56:42 16001

原创 pandas 小技巧——pd.concat(dict)

pandas.concat()pandas.concat(),一般最常见的用法如下:传入的参数是一个list,里面是dfdf_new = pd.concat([df1, df2])其实,它还有一个更好用的用法:传入的参数是字典,其中字典的value是一个Series,其key值是该Series的名称/标识。如下df_new = pd.concat(series_dict).reset_index()这个用法在我们进行数据分析的时候,会经常用到。比如:给定一个样本集S,每个样本包含N个特征,任务

2021-12-08 11:56:51 3060

原创 python 插值 —— 如何实现插值,以及错误ValueError: A value in x_new is below the interpolation range.

插值插值,是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。–摘自百度百科插值与拟合有一定差别,但其目的都是类似的,根据已有数值,生成预测函数,来预测目标值。下面介绍一下,在Python中如何实现插值。import scipy.interpolate as spi# 准备数据,X和Y都是有限离散点集,X与Y是一一对应的# 我们想用X逼近YX Y # 准备插值点,就是拟合点,用于生成插值函数# 1)如果(X, Y)有很多,就从X和Y中

2021-10-26 15:57:53 8767 5

原创 hive-sql —— 新建空表,并上传数据(本地文件数据、HDFS文件数据)

一般建表的时候要建外部表,这样一不小心删除的话,还能够恢复。1、自己设计表结构,然后上传文件到该表中1.1 新建表,并将本地csv文件上传到该表中(Linux命令行模式下)准备本地文件,一般都是csv文件。1、注意记下该文件的分隔符;2、记下该文件字段名称和字段类型,以及字段顺序!!;3、注意该文件是否有表头,如果有,在下面进行载入空表的时候,表头也会被当做数据传入表中。如果不需要,就把表头去掉,但是注意记下字段顺序;建表写好建表的sql文件,假设命名为create_table.sql,

2021-10-25 15:39:50 2189

原创 pandas 小技巧——df如何筛选包含特定字符的列(或者行)

dataFrame如何筛选包含指定字符的列[x for x in df.columns if '指定字符' in x]dataFrame如何筛选包含指定字符的行df[df['列名'].str.contains('指定字符')]

2021-10-11 15:48:57 11526

原创 pyspark —— spark dataframe 从hdfs读写文件:按照指定文件格式读写文件(读写csv、json、text文件,读取hive表,读取MySQL表)、按照指定分隔符读写文件

spark有3种数据结构——RDD、DataFrame、DataSet。这里展示的文件读写方式,都是针对dataFrame数据结构的,也就是文件读进来之后,是一个spark dataFrame。1、读写hdfs上的文件1.1 读写hdfs上的文件 ——> 按照指定文件格式读取与保存SparkSession在读取文件时,可以指定读取文件的格式。举个例子。按照csv文件格式,读取文件(其余的文件格式只需将csv变成相应的文件格式名称即可)【读取】from pyspark.sql.types i

2021-08-18 18:51:35 9601 3

原创 pandas 小技巧——如何生成pmml模型文件

# 生成pmmlfrom lightgbm.sklearn import LGBMClassifierfrom sklearn2pmml import sklearn2pmmlfrom sklearn2pmml.pipeline import PMMLPipeline# 首先,使用某一种算法训练完成得到一个模型main_model = LGBMClassifier()# 将训练好的model包装成pmml格式pipeline = PMMLPipeline([("classifier", ma

2021-05-11 14:38:33 793 2

原创 pandas 小技巧——如何删除行或者列、根据条件删除指定行或者列

使用df.dropDataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)1、labels:要删除的标签,一个或者多个(以list形式);2、axis:指定哪一个轴,=0删除行,=1删除列;3、columns:指定某一列或者多列(以list形式);4、level:索引等级,针对多重索引的情况;5、inplaces:是否替换原来的datafram

2021-05-10 20:22:24 46641 1

原创 pandas 小技巧——pd.read_csv读取没有表头的csv文件、并加上指定表头

我们在读取csv文件的时候,有的时候可能没有表头,或者想换一个表头,该怎么操作?df = pd.read_csv('data.csv', sep='\t',header=None, names=['var_code','var_name','var_desc'])```

2021-04-14 17:09:31 15529

原创 pandas 小技巧——dataframe、series如何删除指定列中有空值的行+如何删除多列都为空的行

dataframe、series如何删除指定列中有空值的行+如何删除多列都为空的行

2020-12-30 16:44:12 8481 2

原创 pandas 小技巧——如何将多个df保存在一个Excel的不同sheet里

如何将多个df保存在一个Excel的不同sheet里

2020-11-26 16:22:00 1906

原创 pyspark 小知识——自定义聚合函数UDAF:使用pyspark分组计算AUC

在pyspark中,自定义聚合函数UDAF,在实现上有些困难,但是我们可以用另外一种方法实现同样的功能:利用自定义函数UDF,实现自定义聚合函数UDAF的功能。

2020-10-23 16:23:43 5455 5

原创 推荐系统:NDCG评价指标及其Python实现方法

除了推荐任务,在二分类任务中,也可以计算该指标,代码如下:# ndcgdef get_dcg(y_pred, y_true, k): #注意y_pred与y_true必须是一一对应的,并且y_pred越大越接近label=1(用相关性的说法就是,与label=1越相关) df = pd.DataFrame({"y_pred":y_pred, "y_true":y_true})...

2019-11-26 15:24:43 7441

原创 pandas 小技巧——修改Series的index名称

1、修改series的index名称2、合并两个series,并对列名进行重命名

2019-10-23 19:46:13 11202

原创 pandas 小技巧——空值判断:对整个Series/Dataframe判断+对单独值判断

空值判断:对整个Series/Dataframe判断+对单独值判断

2019-10-23 19:44:20 17903 1

原创 pandas 小技巧——用指定列的“非空值”值去填充另一列的“空值”

举例:有df如下>import numpy as np>df = pd.DataFrame({"name":["apple", "pear", "pig", "dog", "cat"], "number_1":[1,np.nan,3,np.nan,5], "number_2":[np.nan, 2,3,4,5]})>print(df) name number_1...

2019-07-29 15:01:41 15010 3

原创 python2.7 小知识——操作中文名文件乱码等编码问题

python2.7 小知识——操作中文名文件乱码等编码问题

2019-07-08 17:07:44 2746

原创 python 小知识——strftime()和strptime() 日期获取、格式转换和计算

python 小知识——strftime()和strptime() 日期获取、格式转换和计算

2019-07-05 12:16:18 9077

原创 pandas 小技巧——set_index()和reset_index()

set_index()和reset_index()的使用介绍

2019-07-05 11:27:57 5474

原创 pandas 小技巧——使用时候的“坑”

1、使用字典创建df的时候,如果字典的key只有一个value会报错2、python中字符串的最后一个字符是斜杠会导致出错3、空值判断

2019-07-02 11:14:01 355

原创 win10安装jupyter notebook详细步骤+修改工作路径

1、安装:我电脑里python2.7和Python3.4都安装了,在用pip安装jupyter的时候,要指明安装的是哪一版。在cmd中输入。cmd -python27 -m pip install jupyter notebook``2、运行并打开:安装完成之后,在cmd输入jupyter notebook这一步是运行jupyter notebook,如果安装成功,就会在浏览器中成功...

2019-06-24 17:35:51 19062 1

原创 决策树系列(四):集成学习+boosting算法+提升树+GBDT(梯度提升决策树)_详细原理解析

1 GBDT简介GBDT,英文全称是Gradient Boosting Decision Tree,梯度提升决策树,顾名思义,与梯度、boosting算法、决策树有关。是一种迭代的决策树算法,由多棵决策树组成,每一颗决策树也叫做基学习器,GBDT最后的结果就是将所有基学习器的结果相加。2 boosting算法GBDT既然跟boosting算法有关,就先来讲讲boosting算法。如果不想看,...

2019-03-22 17:06:53 4856 2

原创 决策树系列(三):CART(分类回归树)-详细原理解析

CART,分类回归树,是几乎所有复杂决策树算法的基础。下面简单介绍其算法原理。

2019-03-21 17:34:21 15482 13

原创 PCA:详细解释主成分分析

1 PCA目的/作用主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到...

2018-09-04 15:33:33 212832 71

原创 风控信贷模型(一):特征分析

一 特征工程1、初步分析阶段数据的探索分析EDA,是对数据进行初步的统计分析,统计数据的分布、异常、相互关系,目标是让我们了解这些数据能告诉我们什么。可以用来指导我们进行模型的选择,比如说帮助我们初步的决定哪些特征需要被使用,哪些特征需要被剔除。1、准备好样本、特征、label 2、查看样本集中样本总个数、特征总个数 3、查看正负样本个数,如果正负样本相差不多,则属于样本均衡的建模...

2018-08-28 19:50:22 8152

原创 机器学习算法经验

1、特征值归一化背景:好多算法都是基于参数的,并且涉及到了梯度下降优化方法 目的:为了让所有的特征的值,具有相同的量纲原因:拿LR举例,属于基于参数的算法,用到了梯度下降算法。在计算梯度的时候,如果特征值不进行归一化处理,那么在同一个学习率的情况下,拥有较小特征值的特征就学习的不好(因为此时的学习率对于该特征值来说大了,不合适),为了避免这种情况,学习率就要设置的非常小,学习率小,这就会...

2018-08-28 10:41:27 917

原创 决策树系列(二):随机森林(random forest)

随机森林,属于集成算法bagging的一种,关于什么是bagging看这里决策树(1)集成学习 (ensemble learning)–boosting与bagging的区别1、简单原理以及特点1)随机森林,属于集成算法bagging的一种,由多个基分类器组合而成,最终的预测结果是多个基分类器结果的平均值(回归问题)/众数(分类问题)。 2)各个基分类器之间相互独立,使用的基分类器是...

2018-07-26 17:39:15 1668

原创 决策树系列(一):集成学习(ensemble learning)->boosting与bagging的区别

参考文献 GBDT回归树过程详解 https://blog.csdn.net/zhangbaoanhadoop/article/details/79904916 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT https://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html...

2018-07-24 17:53:24 1499

原创 win10的pycharm更新pip出错

我在pycharm的Terminal中,更新pip的时候,出现了以下错误: 原因:可能与最近的Windows 10更新有关。我的版本如下:在cmd中输入msinfo32,回车,可以看到版本信息。 解决办法:直接运行cmd,输入python -m pip install -U pip,就可正常升级pip了。 PS:查到的另外一个解决办法是安装win_unicode_consol...

2018-05-15 18:06:29 1810

原创 基于虚拟环境的TensorFlow安装 on Mac OS X

TensorFlow官网上建议使用virtualenv(虚拟环境)安装。 Virtualenv是与其他Python开发隔离的虚拟Python环境,不会在同一台机器上干扰或受到其他Python程序的影响。

2018-04-10 20:08:02 776

原创 Git 使用git时候的坑

git有4个区域:工作区(working directory) :工作区是我们能看到的区域,就是本地目录,我们在目录里面进行操作; 暂存区(stage index):git add命令就是将文件从工作区添加到暂存区; 本地版本库(repository):git commit命令就是将暂存区的文件提交到本地版本库中; 远程库:git push命令就是将本地版本库中的文件推送到远程库中...

2018-04-08 20:28:05 1088

原创 Git(二)要修改之前推送到远程库中的文件,并重新推送上去

上一篇我们讲了如何将本地的文件推送到远程库中,现在假如我们要修改上次推送的文件中的内容,并且重新推送到相同的远程库中,该怎么做呢?

2018-04-08 19:57:48 1945

原创 Git(一) 第一次向自己的gitlab仓库推送文件

第一次向自己的gitlab仓库推送文件

2018-03-23 20:10:15 9811 5

原创 Faster-RCNN Tensorflow版本源码解析(二)train_net.py所用到的函数

这里将要解析的是Faster-RCNN Tensorflow版本,fork自githubFaster-RCNN_TF。1. 背景交代Faster-RCNN_TF中,网络的训练文件是 Faster-RCNN_TF/tools/train_net.py。我们已经在Faster-RCNN Tensorflow版本源码解析(一)网络训练部分中对该文件进行了源码解析,现在来解析一下该文件中用到的

2017-10-10 16:55:40 5940 6

原创 Faster-RCNN Tensorflow版本源码解析(一):网络训练部分train_net.py

这里将要解析的是Faster-RCNN Tensorflow版本,fork自githubFaster-RCNN_TF。网络训练部分Faster-RCNN_TF中,网络的训练文件是 Faster-RCNN_TF/tools/train_net.py。1. 启动训练的方法我们在启动faster-RCNN网络训练的时候,要在目录Faster-RCNN_TF/下,在终端输入:...

2017-10-10 10:22:47 10854 5

原创 用自己的数据训练Faster-RCNN,tensorflow版本(二)

我用的Faster-RCNN是tensorflow版本,fork自githubFaster-RCNN_TF

2017-09-26 12:45:10 15703 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除