2 scxyz_

尚未进行身份认证

机器学习/深度学习/大数据风控/编程技巧/学习笔记

等级
TA的排名 2w+

【亲身经历】2019杭州人才引进落户——详细流程、地址、所需材料、网上办事链接

首先说一下整体的办理感受:完美(先吹一波)。不管是从服务态度还是办事效率,好到我都觉得这不是在政府办事了。大部分事情可以在网上办理,政府网站也很给力,基本都是处于更新状态,而不是摆设。不愧是杭州,一套流程走下来打心底里觉得落户杭州是正确的选择。以后不管是生活还是办理公共事务,肯定非常舒服。办理时间是2019年3月份,其实当场办理很快,窗口也很有效率,主要是邮寄东西耽误时间。本文主要说研究生...

2019-07-28 22:41:03

解决xgboost报错 : ValueError: feature_names mismatch

问题原因已使用训练数据完成xgboost模型的训练,后期应用时,加载完成模型,使用新数据进行预测时报错。ValueError:feature_namesmismatch,具体如下图。导致这个问题原因可能有多种情况,我这里对我的情况解释一下。我这里是由于训练数据划分好,使用的X_train训练,后面经验证集X_test跑出结果,得到auc都没有问题。保存好模型。在后期再应...

2019-05-20 15:28:11

【Linux-Ubuntu】免U盘安装windows 和 Ubuntu 18.04 双系统流程,教你避免各种坑

python机器学习和深度学习的很多开源模块在windows下面不好用,一直使用的是虚拟机,但是虚拟机里不敢给太高配置,电脑会卡,所以训练很慢。为了提高使用体验,决定装一个windows和Linux(Ubuntu)的双系统,在装的过程中我真的遇到了非常多的坑,装了不下十次,才最终找到一个最靠谱的安装方法,在此和大家分享,win7和win10都适用。但是每个人的电脑不同,不能保证所有电脑都完美,但最...

2019-05-07 11:49:31

【算法】字符串匹配2 BM算法 坏字符规则 好后缀规则 python代码实现

BM算法,Boyer-Moore,非常高效,是KMP算法的3~4倍。高能预警,此算法较难。核心思想匹配过程其实就是模式串在主串中不停地往后滑动。当遇到不匹配的字符时,BF和RK算法做法是往后滑动一位,从模式串第一个字符重新匹配。上图中,主串中的c其实在模式串中并不存在,所以滑动时只要与c有重合,肯定无法匹配。所以可以把模式串多滑动几位,移到c后面再开始匹配。这样效率就提高了...

2019-04-26 17:45:51

【算法】字符串匹配1 BF算法 RK算法

字符串匹配有多种方法,这里先讲最简单的两种算法:BF算法和RK算法,复杂度也相对较高。它们均为单模式串匹配的算法,也就是一个串跟一个串进行匹配。BF算法简介BruteForce,暴力匹配算法,也叫朴素匹配算法。比较简单、好懂,但相应的性能也不高。在字符串A中查找字符串B,那字符串A就是主串,字符串B就是模式串。主串的长度记作n,模式串的长度记作m,所以...

2019-04-26 17:18:34

【数据处理】pandas DataFrame 实现 某列中分隔数据转成多行 split explode

DataFrame中某列由“逗号”分隔,格式如下。希望转换后,分隔的行全部以列的形式重新排列。处理前:处理后:转换代码如下。importpandasaspddf=pd.DataFrame([{'var1':'a,b,c','var2':1},{'var1':'d,e','var2':2}])df1=pd.concat...

2019-04-23 15:10:29

【算法】图的 深度优先搜索 广度优先搜索 复杂度分析 python代码实现

深度优先搜索算法和广度优先搜索算法都是基于“图”这种数据结构的。作为图的搜索算法,既可用于有向图,也可用于无向图,以下均用无向图讲解。广度优先搜索Breadth-First-Search,BFS。一种“地毯式”层层推进的搜索策略,先查找离起始顶点最近的,然后是次近的,依次往外搜索。s表示起始顶点,t表示终止顶点。搜索一条从s到t的路径。实际上,求得的路径就是从s到t...

2019-04-10 01:08:55

【数据结构】图的表示与存储方法 邻接表 邻接矩阵

图是一种非线性表数据结构。图中的元素我们就叫作顶点(vertex)。一个顶点可以与任意其他顶点建立连接关系,这种建立的关系叫作边(edge)。跟顶点相连接的边的条数,叫作顶点的度(degree)无向图边没有方向的图就叫作“无向图”。有向图边有方向的图叫作“有向图”。有向图中,把度分为入度(In-degree)和出度(Out-degree)。顶点的入度,表示有多少条边指向这个顶...

2019-04-10 00:49:13

Linux - Ubuntu 下配置JAVA JVM

下载假设现在已经在虚拟机中安装好了ubuntu系统,首先去下载JDK和HADOOP解压配置环境将压缩包进行解压,放入合适的位置。tar-zxvfjdk-8u172-linux-x64.tar.gztar-zxvfhadoop-X.Y.Z-src.tar.gz如果有root权限可以更改/etc/environment内的环境,没有权限的话更改~/....

2019-04-04 10:41:36

【算法】理解哈希算法 hash 和常见应用

概念将任意长度的二进制值串映射为固定长度的二进制值串,这个映射的规则就是哈希算法。通过原始数据映射之后得到的二进制值串就是哈希值。要求从哈希值不能反向推导出原始数据对输入数据非常敏感,一个Bit修改得到的哈希值也大不相同散列冲突的概率要很小执行效率高效常见应用安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。后三个应用均与分布式系统有关。下面...

2019-03-19 11:40:56

【链表】快慢双指针——python解决 链表中环的检测,求单链表的中间结点

在解决链表的很多问题时,设置快慢指针是一个很好的解决思路。这次解决两个问题:链表中是否有环结构求单链表的中间节点快慢指针的另一个问题删除链表倒数第n个结点,请点击查看。链表中环的检测classNode():def__init__(self,data,next=None):self.data=dataself.next=...

2019-02-28 15:08:25

【链表】快慢双指针——python解决 删除链表倒数第n个结点

在解决链表的很多问题时,设置快慢指针是一个很好的解决思路。这次问题的是删除链表倒数第n个结点。例如,1->2->3->4->5,删除倒数第2个变成1->2-&g

2019-02-28 14:12:02

【数据结构】链表 的介绍与python实现 下篇

【算法与数据结构】链表的介绍与python实现上篇【算法与数据结构】链表的介绍与python实现下篇上面简单介绍了链表,这篇用python实现链表的基本一些操作。包括打印链表,插入,删除,查找,翻转。classNode():def__init__(self,data,next=None):self.data=dataself.n...

2019-02-27 10:17:10

【数据结构】链表 的介绍与python实现 上篇

【算法与数据结构】链表的介绍与python实现上【算法与数据结构】链表的介绍与python实现下本文部分文字图片引用了极客时间的《数据结构与算法之美》链表篇https://time.geekbang.org/column/article/41013讲解的很不错的课程,如果有需要可以去订阅。链表介绍链表通过指针将一组零散的内存块串联在一起。内存块称为链表的“结点”。为了将...

2019-02-27 10:12:26

【facenet项目】人脸识别相关数据下载(包括 CASIA/LFW/训练模型)

下面的数据是github上的开源项目facenet的相关数据下载。具体请查看项目介绍。名称百度网盘地址密码20180402-114759https://pan.baidu.com/s/1_GABHFZfM13K8Qy0a6EIEgchxh20180408-102900https://pan.baidu.com/s/19Z5uG7LXvtGKSpfYREy...

2019-02-11 16:20:04

一文完全理解模型ks指标含义并画出ks曲线(包含代码和详细解释)

KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。——神秘的KS值和GINI系数上面是ks的简单介绍,相信大家看了这几句话,肯定还是不懂ks到底是个什么。我也是研究了比较久,终于搞清楚了ks的具体计算方式。搞清楚了计算方式后,ks的含义自然就清楚了。下面...

2019-01-31 11:44:20

ubuntu 18.04 安装NVIDIA驱动 cuda/cudnn + tensorflow-gpu + pytorch

电脑换了华硕新主板,需要重装系统,用的Ubuntu18.04的系统,电脑用的显卡是GTX1080Ti。在新系统中装显卡驱动过程中遇到很多坑,中间无奈搞乱环境又重装了一次系统,再次尝试,终于成功。整个过程失败次数很多,参考的教程感觉自己步步都做对了,但是最后就是不能成功运行。配置系统这种事情确实比较麻烦,心态要对,遇到问题上网搜索方法,最终总归都能解决。接下来接讲讲我装NVIDIA驱动到装tens...

2018-12-29 15:35:34

conda和pip常用方法,更换源,包的安装、更新、删除、查看

anaconda软件官网下载速度过慢,可以使用清华源的下载地址,https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=Aconda和pip可以说各有优劣。pip的模块更全更多,而conda使用更方便,安装模块时会检查环境,自动下载。conda特别是在数据分析方面,会对某些常用的包做了专门的优化。更换源pip临...

2018-12-29 15:29:37

【转载】ggplot2主题设置

http://www.rpubs.com/lihaoyi/156592library(ggplot2)#加载ggplot2包library(gcookbook)#加载本书的数据包主题theme参数设置改变字体类型、大小,图例、坐标轴、背景等各种元素,可通过theme()函数来完成library(ggplot2)library(grid)#为了使用unit函数p0<-ggplo

2018-09-26 10:07:09

【数据处理】pandas DataFrame 对多个sheet表格的excel 读取、处理、保存

今天一个不太懂编程的朋友让我帮他处理一些excel的表格,要求大概是:有20多个excel表,每个表里有42个sheet表格(sheet数量和名字相同)。最终需要根据对应的sheet名称将所有表格拼接成一个。为了方式朋友数据泄露,我模拟了一下文件内容,大概如下。不同的excel文件,每个文件中相同的sheet名称。他用VBA一时间没有写出来,请我看看能不能用python实现。我大概搜索了...

2018-09-26 00:46:20

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。