duncandai-CSDN博客

原创 pycharm配置black进行代码格式化

pycharm代码格式化工具-black的配置

2023-03-03 13:33:15 535

原创 git使用详解

git使用详解：创建分支，克隆项目，合并分支，分支重命名，冲突解决等

2023-03-03 13:20:13 59

原创 yum install 无法正常执行

yum install 安装报错error: cannot open Packages database in /var/lib/rpm

2023-03-02 17:46:47 519

原创金融风控指标:WOE, IV, KS，LIFT值和PSI

1.WOE：表示自变量在分组内取值对于目标变量（违约概率）的影响•WOE的计算公式是：•WOE=ln[(坏样本/总坏样本)/(好样本/总好样本)]=ln[(坏样本/好样本)/(总坏样本/总好样本)]Pyi：是这个组中响应客户（坏样本）占所有样本中所有响应客户的比例Pni：是这个组中未响应客户（好样本）占样本中所有未响应客户的比例#yi：是这个组中响应客户的数量#ni：是这个组中未响应客户的数量#yT：是样本中所有响应客户(总的坏样本)的数量#nT：是样本中所有未响.

2021-04-20 21:05:09 10482

jupyter正确使用py文件的姿势

2018-12-12 08:27:07 17447

yum: Cannot find a valid baseurl for repo: migsrv解决方法

yum安装程序报错：Loaded plugins: fastestmirrorSetting up Update ProcessDetermining fastest mirrorsCould not retrieve mirrorlist http://yum.wsd.com/index.php?release=1.2&arch=x86_64&repo=migsrv erro...

2018-09-03 10:33:45 324

yum: Cannot find a valid baseurl for repo: migsrv解决方法

po=migsrv error was14: PYCURL ERROR 22 - "The requested URL returned error: 404"Error: Cannot find a valid baseurl for repo: migsrv解决办法：删除migsrv.repo文件rm -rf /etc/yum.repos.d/migsrv.repo

2018-09-03 10:33:45 338

pandas 计数value_counts()

在pandas里面常用用value_counts统计某个字段各种值数据出现的频率pandas.Series.value_countsSeries.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)参数: normalize : boolean, default...

2018-08-23 10:12:53 6536

pandas 计数value_counts()

rue)参数: normalize : boolean, default False　如果设置为true，则以百分比的形式显示sort : boolean, default True　是否排序ascending : boolean, default False　默认降序排序bins : integer, optional 而不是数值计算，把它们分成半开放的箱子，一个方便的pd.cut，只适用于数字数据dropna : boolean, default True　默认删除na值

2018-08-23 10:12:53 3235

原创 Pandas相关函数用法

None, levels=None, names=None, verify_integrity=False)12参数说明 objs: series，dataframe或者是panel构成的序列lsit axis：需要合并链接的轴，0是行，1是列 join：连接的方式 inner，或者outer,如果join_axes没指定则是使用index来joinkeys：用于标识数据来自哪个dataframe其他一些参数不常用，用的时候再补上说明。result = pd

2018-08-07 17:32:42 1245

原创特征工程

1.什么是特征工程　　顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程是指从原始数据转换为特征向量的过程。2.特征工程作用　　在业界广泛流传一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。（1）特征越好，灵活性越强只要特征选得好，即使是一般的模型（或算法）也能获得很好的性能，因为大多数模型（或...

2018-05-30 11:03:11 240

原创特征工程

2018-05-30 11:03:11 163

原创损失函数总结

1.什么是损失函数损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型认为性能就越好。2.损失函数，代价函数和目标函数的区别损失函数：计算的是一个样本的误差代价函数：是整个训练集上所有样本误差的平均目标函数：代价函数 + 正则化项目标函数公...

2018-05-20 15:18:03 464

原创损失函数总结

2018-05-20 15:18:03 1095

原创激活函数汇总及各优缺点

激活函数1. 什么是激活函数如下图，在神经元中，输入的 inputs 通过加权，求和后，还被作用了一个函数，这个函数就是激活函数 Activation Function。[img]http://dl2.iteye.com/upload/attachment/0129/8036/e5a56dfd-c778-3397-9e24-a786b7d9d7a9.png[/img]...

2018-05-14 11:05:24 963

原创激活函数汇总及各优缺点

2018-05-14 11:05:24 1474

rpmdb: Thread died in Berkeley DB library

[size=large]通过rpm -ivh hadoop-hdfs-namenode-2.3.0+cdh5.0.0+548-1.cdh5.0.0.p0.69.el6.x86_64.rpm安装hadoop时，报下面错误：rpmdb: Thread/process 37574/140114963916704 failed: Thread died in Berkeley DB library...

2018-05-10 20:18:49 1448

rpmdb: Thread died in Berkeley DB library

d in Berkeley DB libraryerror: db3 error(-30974) from dbenv->failchk: DB_RUNRECOVERY: Fatal error, run database recoveryerror: cannot open Packages index using db3 - (-30974)error: cannot open Packages database in /var/lib/rpmwarning: hadoop-hd

2018-05-10 20:18:49 591

github安装说明

github安装方法，记录一下下载地址：https://git-scm.com/download安装教程地址：https://www.jianshu.com/p/414ccd423efc

2018-03-08 20:56:32 118

github安装说明

2018-03-08 20:56:32 118

Python操作mysql方法说明

python支持连接多种数据库：如下：GadFly,mSQL,MySQL,PostgreSQL,Microsoft SQL Server 2000,Informix,Interbase,Oracle,Sybase如果要操作mysql需要先安装MySQLdb，MySQLdb是用于Python链接Mysql数据库的接口，它实现了 Python 数据库 API 规范．一、MySQLd...

2018-03-02 08:50:33 125

Python操作mysql方法说明

ython链接Mysql数据库的接口，它实现了 Python 数据库 API 规范．一、MySQLdb安装检测python中是否已安装mysqldb的方法，只要在客户端执行import MySQLdb看是否报错就行，如果不报错说明已安装，如果报ImportError: No module named MySQLdb，　说明没有安装安装mysqldb方法：linux平台先到https://pypi.python.org/pypi/MySQL-python上下载相应版本如果您选择

2018-03-02 08:50:33 118

转载相似度（距离计算）汇总

在数据挖掘中，我们经常需要计算样本之间的相似度(Similarity ),我们通常的做法是计算样本之间的距离，相似性度量用以描述两个向量之间的相似性，看到三篇讲的比较好的关于距离计算的文章，汇总一起方便查阅。

2017-10-19 09:44:58 13184

原创 LDLIBRARYPATH shouldn't contain the current directory

ry when*** building glibc. Please change the environment variable*** and run configure again.出现这个错误的原因是由于环境变量的LDLIBRARYPATH中出现了当前目录。找了好久不知道是啥原因，因为不可能把这目录放在环境变量啊。后来发现，通常我们写环境变量都喜欢写：

2017-09-29 08:56:40 1347

忘了root用户密码后，修改root密码方法

[size=medium]对于Redhat7系统，如果把root用户密码忘了的话，需要重新设置root密码，其步骤如下：1、系统启动时，按e进入命令行界面2、在linux16行后加init=/bin/sh，去掉rhgb和quiet参数3、mount -o remount,rw /4、通过passwd修改root用户密码5、touch /.autorelabe...

2017-07-10 15:40:13 407

忘了root用户密码后，修改root密码方法

2017-07-10 15:40:13 338

原创 redhat7 配置使用centos的yum源

[size=medium]新安装了redhat7.安装后，登录系统，使用yum update 更新系统。提示：This system is not registered to Red Hat Subscription Management. You can use subscription-manager to register.无法更新。redhat 默认自带的 yum ...

2017-07-02 16:37:33 214

原创 redhat7 配置使用centos的yum源

ger to register.无法更新。redhat 默认自带的 yum 源需要注册，才能更新。我们想不花钱也可以更新，需要替换掉redhat的yum源。 1.检查是否安装yum包查看RHEL是否安装了yum，若是安装了，那么又有哪些yum包：[root@syq yum.repos.d]# rpm -qa |grep yumyum-3.4.3-118.el7.noarchyum-utils-1.1.31-24.el7.noarchyum-rhn-

2017-07-02 16:37:33 100

kill所有java进程

[size=medium]经常需要杀掉某一类进程，其命令如下：ps -ef | grep java | grep -v grep |awk '{print $2}' | xargs -p kill -9 如果直接杀掉，把xargs后面 -p 参数去掉grep java: 指查找含有java关键字的进程grep -v grep 是在列出的进程中去除含有关键字"grep...

2017-06-27 10:03:31 1110

kill所有java进程

grep java: 指查找含有java关键字的进程grep -v grep 是在列出的进程中去除含有关键字"grep"的进程[/size]

2017-06-27 10:03:31 149

删除指定时间的文件

[size=medium]按照文件的修改最后修改时间来删除1、删除2016年的所有文件for filename in *; do if [ `date -r $filename +%Y` == "2016" ];then rm -rf $filename; fi done2、删除16点生成的文件for filename in *; do if [ `date -r ...

2017-06-07 09:27:28 233

删除指定时间的文件

2017-06-07 09:27:28 124

批量替换和删除多个文件中的指定字符串

[size=medium]一、Linux sed 批量替换多个文件中的字符串sed -i "s/oldstring/newstring/g" `grep oldstring -rl datadir`例如：替换/data下所有文件中的testString为newStringsed -i "s/testString/newString/g" `grep testString...

2017-05-02 15:45:15 3564

批量替换和删除多个文件中的指定字符串

ngsed -i "s/testString/newString/g" `grep testString -rl /data`二、批量删除指定字符串的行sed -e '/test/d' test.txt // 删除test.txt中含"test"的行，但不改变test.txt文件本身，操作之后的结果在终端显示 sed -e '/test/d' test.txt > test_new.txt // 删除test.t

2017-05-02 15:45:15 819

ERROR: Couldn't open transport for host.impala:26000(connect() failed: Connectio

[size=large]　今天impala集群在执行：invalidate metadata;时，报ERROR: Couldn't open transport for host.impala:26000(connect() failed: Connection refused)　经过分析后，发现主节点的catalog服务已经停了，没启动，service impala-catalo...

2017-05-01 20:32:52 2912

ERROR: Couldn't open transport for host.impala:26000(connect() failed: Connectio

2017-05-01 20:32:52 445

原创 spark 提交任务参数说明

[size=medium]1.参数选取当我们的代码写完，打好jar，就可以通过bin/spark-submit 提交到集群，命令如下：./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... # other options \ [ap...

2017-04-28 14:32:55 316

原创 spark 提交任务参数说明

mode \ --conf = \ ... # other options \ [application-arguments]一般情况下使用上面这几个参数就够用了--class: The entry point for your application (e.g. org.apache.spark.examples.SparkPi)--master: The master URL for the cluster (e.g. spark://23.

2017-04-28 14:32:55 137

apache-tomcat-5.5.27.exe

空空如也