6 Magician~

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 6k+

申请评分卡(A卡)的开发过程(1)

前言:本篇文章上接《申请评分卡简介》,有需要的童鞋可以参考下:https://blog.csdn.net/qq_16633405/article/details/107744921下面介绍下A卡的开发步骤。开发过程1、评分卡模型开发步骤:1、立项:场景(营销、信贷领域)、对象(个人、账户、公司)、目的(程度决策、流失预警、反欺诈等等)2、数据的准备与预处理(账户,客户,内部外部数据)3、建模的构建(逻辑回归VS机器学习,单一模型VS 集成模型)4、模型评估(区分度,预测性,稳定性)5、验证

2020-08-23 14:17:10

linux生产环境下安装anaconda总结

前言:工作中,常常要在新的linux生产服务器中安装自己的集成python环境,这种情况下有一点需要注意:不能覆盖生产服务器中的python环境(也就是自己的python环境要和系统的python环境分开)。一般情况下系统自带的python环境一般为2,而我们需要的python环境一般为3。并且生产服务器一般是安全等级比较高的,一般是断网的状态,这也就意味着所有的安装操作都要手动进行(PS:一行指令的事就此变成漫长的折腾)。为了顺利完成安装python3的环境,就需要你事先做好准备,不然把生产环境搞出问

2020-08-15 15:23:30

互联网金融行业申请评分卡(A卡)简介

文章目录前言基本概念1、信用违约风险的基本概念什么是信用违约风险:组成部分违约的主体个贷中常用的违约定义M0,M1,M2的定义2、申请评分卡的重要性和特性信贷场景中的评分卡申请评分卡的概念为什么要开发申请评分卡评分卡的特性 (一个人的信用分数由两部分组成:还款能力和还款意愿)贷前准入环节中申请评分卡的流程总结:前言最近会总结下我了解到的互金行业各个评分卡的知识,包括但不限于A,B,C卡以及相关的业务知识和用到的技术。很早之前就有这样的想法,最近刚好有这样的机会,就简单记录下。如果有问题,请大家及时指正。

2020-08-02 16:11:40

win10下安装pyspark及碰到的问题

文章目录前言安装过程Q1总结:前言最近由于工作需要,需要了解下pyspark,所以就在win10环境下装了下,然后在pycharm中使用的时候碰到了一些问题。整个过程可谓是一波三折。下面一一道来。安装过程安装过程就不详细说了,网上一搜一大堆,这里写下自己参考的博文:https://blog.csdn.net/w417950004/article/details/77203501安装好之后如何在pycharm中使用?网上有文章说要在对应的文件中配置相关的spark_home地址等。详情参考:h

2020-08-02 14:21:45

浅谈管理数据平台的一些想法

前言:对于任何使用大数据技术的公司来说,大数据平台特别是Hive来说,维护其高效快速的运行,对整个公司的运作来说至关重要。比如说:某个调度任务失败了造成业务部门的某些报表无法正常产出;hive平台最近速度下降了,造成业务跑sql,跑半天不出结果,进而发起投诉等等。对于数据平台来说任何一个小的事故轻则造成公司的运行效率降低,重则使整个公司的业务运行异常(异常可能不会被立刻发现)等等,可以夸张点的说...

2020-04-18 22:17:53

SQL中基于代价的优化

还记得笔者在上篇文章无意中挖的一个坑么?如若不知,强烈建议看官先行阅读前面两文-《SparkSQL Join原理》和《Join中竟然也有谓词下推?》第一篇文章主要分析了大数据领域Join的三种基础算法以及各自的适用场景,第二篇文章在第一篇的基础上进一步深入,讨论了Join基础算法的一种优化方案 – Runtime Filter,文章最后还引申地聊了聊谓词下推技术。同时,在第二篇文章开头,笔者引...

2020-04-05 17:31:08

Spark&HiveSQL中Join操作的谓词下推?

前言:SparkSQL和HiveSQL的Join操作中也有谓词下推?今天就通过大神的文章来了解下。同样,如有冒犯,请联系。正文上文简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join 、shuffle hash join以及sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明一番:大表与小表进行join会使...

2020-04-03 21:12:28

SparkSQL之Join原理

文章目录前言:Join背景介绍Join常见分类以及基本实现机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort-Merge Join总结前言:写SQL的时候很多时候都有用到join语句,但是我们真的有仔细想过数据在join的过程到底是怎么样的吗?今天借这位大神的文章来交接下sql中join的原理。同样,如有冒犯,请联系。Join背景介绍Jo...

2020-04-02 21:46:30

SparkSQL-从0到1认识Catalyst

文章目录前言正文预备知识-Tree&RuleCatalyst工作流程ParserAnalyzerOptimizerSparkSQL执行计划前言这篇文章是转载一位大神的文章,为什么要转载的,实在是因为写的太经典了,所以忍不住希望能有更多的人可以看到。如有冒犯请联系我。正文最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化...

2020-04-01 22:01:34

Git常用指令及功能总结

前言:最近有些懒,加之又被一些琐事缠身,所以博客就更的比较慢,后面还是保持一个月最少2-3篇的频率,分享一些最近学的东西,希望我们能一起成长。今天就简单介绍下常用的Git指令吧,主要适用于那些刚需这些指令完成某些需求的人群。博主也是小白一个,主要分享下一些常用的功能吧。1、常用的git指令git clone git@192.168.2.252:hadoop/rce.git //用于将远...

2019-12-28 16:36:27

Linux命令三剑客:grep、sed、awk总结

最近看到了几篇关于linux命令grep、sed、awk的文章,这里总结下,方便后面使用。一、grepgrep命令(grep的全称:Global search Regular Expression and Print out the line)主要用于文本内容的查找。它支持正则表达式查找。命令语法grep提供两种方式:◆ grep [option] [pattern] testfile...

2019-09-28 14:29:53

Python开发中收集的一些常用功能Demo

前言:虽然之前自学了些Python基础,但是一段时间没用再加上学的时间也比较短,搞的现在重拾Python写代码的时候,总要去查一些API(还是Coding不够,仍需多加实践),但整个过程又比较耗时。所以就准备把之前以及以后遇到的一些常用的功能Demo给记录下来,方便自己后来查看。此文章会不定时一直更新。1、Python判断文件是否存在的几种方法:通常在读写文件之前,需要判断文件或目...

2019-08-17 14:40:24

导入Anaconda中的第三方库运行时报错:ImportError: Missing required dependencies ['pandas']

今天碰到一个大坑,花了大半天才搞明白问题出在哪来。事情的经过是这样的:博主下午手贱把已将装好anaconda2给卸载了(同时装了2和3),然后再次安装anconda2后,却发现配置完pycharm的解释器后,代码报错::ImportError: DLL load failed:“xxxx模块没发现”或者ImportError: Missing required dependencies [‘XXX...

2019-08-11 00:11:11

azkaban的操作指南

前言:最近在实际工作中玩到了Azkaban,虽然之前有简单的接触,但是真正用到的时候,才能体会到这个工具的实用性有多强,总结下真个操作过程。在总结整个操作过程之前先简单描述下工作流调度系统的优势。1、工作流调度系统的优势一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了...

2019-08-03 15:10:25

Azkaban简介及安装教程

前言:最近在实际工作中玩到了Azkaban,虽然之前有简单的接触,但是真正用到的时候,才能体会到这个工具的实用性有多强。下面就写个系列文章来记录下azkaban从简介及安装配置再到简单使用的一个过程。1、概述1.1、为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先...

2019-08-03 14:27:20

Python第三方库的安装及路径查看总结

文章目录1、python第三方库的四种安装方法2、更换安装的第三方库的镜像源3、如何查看查看python安装路径以及pip安装的包列表及路径3.1、Linux环境下查看Python路径3.2、查看使用pip安装的软件包3.3、Windows 环境 查看Python路径实际工作中,经常会在公司的服务器中面临网络限制之类的问题,这时候平常的pip指令安装第三方库的简单操作就行不通了。刚好最近就碰到这...

2019-07-27 17:30:22

Pandas常用操作总结

文章目录前言1、DF常用的两种创建方式方式一:通过np来生成方式二:通过字典来生成2、pandas常用的属性及方法3、Pandas Select(数据选择)方法三:混合选择方法四:#通过判断选择部分数据4、Pandas Set_values设置值5、Pandas Nan处理缺失值方法一:剔除缺失值所在的行或列方法二:填充Nan值方法三:显示Nan值的位置,做进一步处理6、Pandas导入导出数据7...

2019-06-13 21:51:48

Mysql面试热身题集总结

前言一直有个想法:把面试需要的知识点全都总结一下,包括数据库,语言,算法,数据结构等知识,形成一个面试总结笔记,这样以后面试的时候只看这些文章回顾下就行了。今天就先总结下Mysql的面试热身题吧,后续会总结其他方面的点。当然,文章同样会不定时更新。热身题1、热身题实践说明:以下五十个语句都按照测试数据进行过测试,最好每次只单独运行一个语句。问题及描述:--1.学生表Student(S...

2019-06-10 22:31:31

浅谈互联网寒冬与经济形势

作为刚进入职场一年多的小白来说,刚准备好好“生长”,却碰到这股互联网寒冬,也感到鸭梨山大。也许有人认为我在贩卖焦虑,但是现实真的很严峻。接下说下过去一年的经历和所见所闻吧,记录下这“寒冷”的时刻。一位金融圈内的人士在一切没发生之前有预言:业界会接连发生1、暴雷;2、裁员;3、产业链断裂…前两条都应验了,如果第三条发生了,结果会有多恐怖。去年7-8月份,全国互金行业频繁暴雷,刚好有同事就经历了这...

2019-05-31 17:13:03

Python基础总结之常用内置方法总结

文章目录前言1、str1.1、内置方法:1.2、常用的内置方法1.3、String模块的一些方法2、list2.1、内置方法2.2、常用内置方法3、tupple3.1、内置方法3.2、常用内置方法4、dict4.1、内置方法4.2、常用内置方法小礼物几个sort的使用前言由于一些原因,好久没更博客了,接下来会陆续总结出一些包含各方面的基础知识的文章(如数据库、Python、数据挖掘等),算是作...

2019-05-11 15:54:53

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享精英
    分享精英
    成功上传11个资源即可获取