自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 matplotlib基本属性设置

https://blog.csdn.net/helunqu2017/article/details/78659490/

2020-10-21 11:10:07 257

原创 人工智能的应用

人工智能AI在风控领域的应用人工智能技术的应用什么是人工智能对于人工智能的定义一直以来有很多争议和解释,简单解释为“人工智能是用于延展、模拟人的理论、方法的一种新的技术”,人工智能的各个技术也有所差异:机器学习机器视觉生物特征识别自然语言处理知识图谱随着人工智能技术的发展。人工智能技术被应用在不同领域。但随着线上生态的繁荣也催生了黑产行业、线上漏洞、欺诈行业的集中爆发。因此有了智能风控的诞生。怎么定义智能风控呢?简单来说智能风控就是借助人工智能、大数据、云计算等技术构建的风控模型,

2020-09-20 12:37:23 555

原创 LeetCode第一题:两数之和

题目描述给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。链接:https://leetcode-cn.com/problems/two-sum1.示例给定 nums = [2, 7, 11, 15], target = 9因为 num...

2019-11-21 10:38:46 172

转载 Hive 中各种字符串转换成日期格式【转载】

原创链接:https://blog.csdn.net/ytp552200ytp/article/details/88885899Input Format Code Output FormatddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-dddd-MM-yyyy ...

2019-11-07 10:05:43 4505

原创 GBDT原理小总结

什么是GBDT算法GBDT算法是一种基于决策树实现的分类回归算法。GBDT 全称为 Gradient Boosting Decision Tree,从字面看GBDT算法是由两部分组成gradient boosting和 decision tree,那如何理解 gradient boosting 和 decision tree 呢1.decision tree(决策树)首先GBDT无论是处理回...

2019-09-02 17:59:31 215

原创 python读取txt,处理为excel格式【利用pandas数据处理】

应用场景:读取txt文件,处理存储为excel格式1.数据准备 data.txt{specid:40611, phone_sptd_24:-100}{specid:32427, phone_sptd_24:-100, area_180:1, area_1:1}{ts:1565573013137, ip_iii_29:-100}{ phone_sptd_24:-100}{specid:...

2019-08-12 20:35:16 3293

原创 python 中 numpy的使用

1.排序函数(sort,argsort)import numpy as npa = [1,12,-5,0,3]data1= np.sort(a)data2 = np.argsort(a)输出结果:data1data2区别:可以发现argsort函数是提取数组中的index,对数组排序...

2019-08-07 16:50:44 126

原创 ID3 预剪枝结束条件

ID3 预剪枝结束条件1.目标变量只有一个分类2.信息熵变化不大3.设置一个最小的叶子节点的样本数

2019-07-23 18:04:52 398

原创 matplilib绘制一个好看的双层环形图

import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['sans-serif'] #只要下面一行,上面的一行可以删除 plt.rcParams['font.sans-serif'] = ['SimHei']vals1 = [308153,257147]vals2 = [117400,633720]vals3=[1]...

2019-07-17 16:02:09 448

原创 pandas计算同比环比增长

问题描述我有2017.1-2018.12的销售数据,计算每一个月的 同比和环比增长,没有的话 用null代替注释:同比 和 环比 都是为了显示数据的变化速度,但是基数不同,同比侧重长期数据趋势变化,环比侧重于短期内数据趋势变化同比是指在同一时期内的数据趋势变化,用于本期与同期的对比,例如本期2018-02月销售额与同期2017-02月销售额做对比。【(本期 - 同期)/ 同期】环比是...

2019-06-18 17:29:17 14017 3

原创 CSDN-markdown编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-06-11 16:32:14 106

原创 matplotlib实现柱形图

1. 准备绘图中使用到的数据data1:provinceuv上海1000北京2000河北800南京600大连800沈阳400青岛900烟台1000日照600data2:provinceuv上海700北京600河北200南京400大连1000i...

2019-06-11 16:31:28 2500 1

转载 Git建立本地仓库并上传到Gitee

https://blog.csdn.net/sclibingqing/article/details/81179470

2018-09-29 11:02:39 566

原创 4月26日 数据运营

什么是数据运营?问:钱花了 但是用户没有留下来 该怎么解决?答:做转化率更高的运营 如何做?怎么定位客户? 定位投入和产出比怎么计算?做数据运营就要从业务需求出发,把复杂的问题抽象来看数据体现在哪?从数据中发现业务问题:基于指标监控发现用户付费持续下降,分析数据,定位付费下降的群体,用户画像做一些措施。数据从哪来呢?数据运营平台:离线产品:批量 高时延 主动发起的计算任务 一般数据量大 数据多维探...

2018-04-26 17:05:53 131

原创 hive 分区表,桶,倾斜知识点

为什么要引入分区和桶的概念?hive的select会扫描整个表的内容, 引入partition 桶【把hive表的数据划分为快】。partition更粗粒度 桶更细粒度 在小范围的查询上提高效率。分区:partitioned by(分区字段的名字 分区字段的类型)eg partitiond by(time date)静态分区:分区的值是确定的【假设有一个程序,每天都统计销售额,按照日期进行分区 每...

2018-04-12 09:45:08 828

原创 使用spoon将数据从hive导入mysql

1.spoon-dir来指定导出的目录spoon export --connect jdbc:mysql://ip:端口号/数据库名 --user 【username】--password 【password】\--table 【table_name】\ --exprot-dir 【hive中的路径】\2.update-mode数据更新插入,不存在的做插入。spoon export --conne...

2018-04-11 10:33:21 1553

原创 Hadoop集群搭建学习

需要用到的安装包 JDK hadoop1.安装jdk、a. cp jdk名称 /opt/         【个人习惯 喜欢把安装包放在opt文件目录下,也可以直接在根目录下解压】b. rpm -ivh jdk名称        【解压】c. vi /etc/profile             【添加环境变量】   添加:JAVA_HOME=/usr/java/default     【jdk的...

2018-03-29 19:08:30 177

原创 hadoop开源组件功能描述

随着现在科技的发展,我们随处都能留下数据信息,我们现在也正处于一个信息爆炸的时代,那什么是大数据?怎么才算是大数据?大数据有哪些特点?大数据的大不单单指数据量大,当数据规模对现有技术构成挑战的时候构成大数据,机器无法处理,传统的系统无法满足现有的需求时就可以被称为大数据。首先大数据特点简单分为4V 1.value:可以带来信息价值2. volume:数据量巨大3. variety:数据的形式多种多...

2018-03-29 18:55:13 862

原创 hive学习笔记

hive 对海量数据进行管理简单来说hive是建立在hdfs上的数据仓库,并且对数据进行分析处理。https://cwiki.apache.org/confluence/display/Hive/Home特点1.一种工具,通过sql访问hadoop之上的数据。数据仓库软件,大型数据的读写和计算,直接建立与hadoop之上的。2.一种机制,多种数据结构3.数据访问,hdfs中的文件或者文件存储系统【...

2018-03-29 18:54:17 122

原创 使用kettle向hbase导入数据

1.新建一个转换,在住对象树的DB连接选项中把需要用到数据库都新建进去。这样以后使用的时候就不用再新建了(个人习惯,也可以在表输入中新建)2.切换到核心对象 从输入拖拽出一个表输入3.双击表输入,输入步骤名称,选择好连接的数据库,最后点击后去sql查询语句。4.在BigDate中拖拽出一个Hbase Output,并和表输入做连接5.双击Hbase Output,在图中框起来的位置填写hbase....

2018-03-26 19:13:06 3059 1

转载 eclipse配置安卓开发的环境

http://blog.csdn.net/ermua/article/details/79201313

2018-03-21 18:45:52 222

原创 安装mysql并修改密码

(注:我使用的是免安装的mysql,解压就可以了)安装包百度云:链接:https://pan.baidu.com/s/1c254f3i 密码:4lua1.解压后bin路径加入path2.cmd 进去 bin路径:mysqld install3.第一次使用设置数据库密码:(下面步骤在cmd中进行)a. mysql -u root -pb.SET Password=PAS...

2018-01-02 10:43:34 291

原创 python实现excel透视表

话不多说 , 先上代码blingbling~~~import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 读取数据data = pd.read_csv('everyday.csv', index_col=0)#展示前10个数据data.he

2017-12-28 12:11:00 5342 1

原创 python连接mysql 数据库

1.安装mysql(略)2.安装pymysql(python3版本)附了安装包,安装步骤简单,在此省略啦3.安装成功后进入dos界面,输入:pip install mysqlclient-1.3.12-cp36-cp36m-win_amd64.whl4.输入import pymysql不报错说明成功一大半啦5.下面就可以连接数据库啦代

2017-12-20 16:26:25 186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除