自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

转载 特征工程(转)

一、特征工程是什么        有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:      特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处...

2018-09-21 10:42:46 1562

转载 python3安装 xadmin错误:"UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 3444"(转)

在学习 Django 时,需要安装 xadmin ,因为用的是python3,结果出现了一下错误:网上搜索了一下,解决的方法如下:从错误中可以看到,是文件README.rst 出现了 Unicode 解码错误,这个文件时没有什么用处的,可以新建一个同名的空白文件替换掉下载 zip 安装包 https://github.com/sshwsfc/xadmin 新建空白文件README.rst 压缩进 ...

2018-07-09 20:20:04 4001

原创 MongoDB与Elasticsearch实现实时同步

 Step1:安装mongo-connector和elastic-doc-namager插件 pip installmongo-connector #Elasticsearch 1.xpip install 'mongo-connector[elastic]' #Elasticsearch 2.xpip install 'mongo-connector[elastic2]' #Elasticsea...

2018-07-08 21:47:27 2315

原创 MongoDB副本集部署安装

MongoDB部署 系统架构图如下: (使用3个物理节点搭建高可用“副本集”集群) 搭建步骤: Step1:在home下创建目录MongoDB Step2:下载相应版本安装包:https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.0.0.tgz,并解压至MongoDB目录下,并改名为mongodb1 Step3:cd到mong...

2018-07-08 21:46:32 5098

原创 ElasticSearch集群部署与head插件安装

Elasticsearch部署(使用3个物理节点,分别作为:master、slave1、slave2)Step1. 下载elasticsearch-rtf-master并解压:         该版本集成了大部分插件,部署简单高效。Step2. 创建一个普通ES账户。Elasticsearch5版本以后,不能再使用root账户启动。          #adduser esuser        ...

2018-07-08 21:41:50 4231

转载 hive---FetchTask

 我们在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下图所示:        我们会发现这个属性所对应着两种模式,minimal和more。      在minimal下,我们执行select * ,limit,filter在一...

2018-07-08 21:37:38 241

原创 理解多线程的实际意义和优势

首先理解并行和并发的区别:并行:指在同一时刻,有多条指令在多个处理器上同时执行;并发:指在同一时刻,只能有一条指令执行,但多个进程指令被快速轮换执行,使得在宏观上具有多个进程同时执行的效果。大部分操作系统都支持多进程并发运行:程序员一边使用开发工具写代码,一边打开网页在查API,同时还开着网易云听歌······还没完,每台电脑运行时还有大量的底层支撑性程序在后台运行······这些进程看上去像是在...

2018-07-03 21:40:16 9977

原创 hive---常用内置函数总结

数学函数:round(四舍五入):ceil(向上取整):floor(向下取整):上面的结果变为45字符函数:lower(转小写):upper(转大写):length(字符串长度,字符数):concat(字符串拼接):substr(求子串):substr(a,b):从字符串a中,第b位开始取,取右边所有的字符substr(a,b,c):从字符串a中,第b为开始取,取c个字符注意:空格算占用一个字符的...

2018-06-28 17:55:15 12099 1

原创 hive---nvl函数

nvl函数:空值转换函数函数形式:nvl(expr1,expr2),类似于mysql-nullif(expr1,expr2)作用:将查询为Null值转换为指定值。若expr1为Null,则返回expr2,否则返回expr1。适用于数字型、字符型和日期型,但是expr1和expr2的数据类型必须为相同类型。...

2018-06-28 15:48:10 12139

原创 hive---基本类型中,varchar(20)与char(20)的区别

Hive中varchar与char都是用来存储字符串。两者区别是:varchar属于可变长的字符类型。char属于固定长度的字符类型。假定声明了varchar(20)与char(20)两种数据类型,当存入的字符占用小于20时,声明为varchar的字符只占用足够表示它的那些字符空间;而char则仍然占满20个字节空间,用空格填充。...

2018-06-27 17:29:43 12052

原创 使用virtualenvwrapper安装配置python虚拟环境

实际项目中,依赖python版本不同,例如有的基于python2.7,然而越来越多的程序则基于python3环境开发。正常情况下,系统是可以配置多个版本的开发环境。但是这样就会产生一个问题,如果不同项目的依赖包混合在一起,可能会引起意想不到的错误。因此,我们可以使用虚拟环境的方式,隔离不同的开发环境,使其共存。传统方法是安装virtualenv,安装方法参考https://www.cnblogs....

2018-06-21 21:37:37 245

原创 数据结构---图---知识点总结

转自:https://blog.csdn.net/Ontheroad_/article/details/72739380图的存储结构1.邻接矩阵:两个数组,一个数组保存“顶点集”,一个数组保存“边集”。无向图中:有向图中:2.邻接表:数组与链表相结合的存储方法。对于带权值的网图,可以在边表结点定义中再增加一个weight的数据域,存储权值信息即可。图的遍历1.深度优先遍历(DFS):类似于树的先序...

2018-06-21 10:05:57 384

原创 Hadoop系统中的单点故障解决方案总结

相较与Hadoop1.0,Hadoop2.0提供了比较完整的单点故障解决方案(Hadoop HA)Hadoop2.0内核由三个分支组成:HDFS、MapReduce和YARN,其他的Hadoop生态系统组件比如:HBase、Hive、Pig等,均是基于这三个系统开发的。因此在Hadoop2.0,存在着三个子系统的单点故障问题。正式介绍解决方案之前,先简要回顾这三个子系统:(1)HDFS:即分布式存...

2018-06-19 20:25:22 7156

原创 HDFS中数据块概念及设置大小的学问

sss

2018-06-19 18:41:15 6632

原创 分页原理及意义

网站建设中网页排列方式一般分为两种:(1)单页面显示所有内容(2)单页面无法显示所有内容,此时就需要多分页来显示实现分页的解决方案有两种:(1)一次查询出数据库中的所有记录,然后在每页中显示指定的记录。(2)对数据库进行多次查询,每次只获得本页的数据并显示先如今网站建设中的数据都是海量的,若按方案1执行:无疑会加大服务器内存的负载,降低系统运行速度,因而大家都会使用方案2。如今,分页方式又有了新的...

2018-06-13 19:01:06 1798

原创 正则表达式(长期更新)

1.  *、+、?*:匹配前面的子表达式零次或多次+:......一次或多次?:......零次或一次,或指明一个非贪婪限定符2.贪婪与非贪婪

2018-06-13 18:13:20 384

原创 Tableau连接MongoDB数据库

Tableau支持大量的文件类型数据的连接和数据库连接但是目前,Tableau不能直接连接MongoDB数据库,需要借助MongoDB Connector for BIMongoDB Connector for BI下载链接:https://www.mongodb.com/download-center#bi-connector下载安装完成后,安装目录的bin目录下出现两个可执行文件首先打开Mon...

2018-05-25 17:42:41 2954 3

原创 数据挖掘or数据分析?

关于数据挖掘与数据分析的区别和联系,我在网上搜集了一些,自己挑选了几种形象利于理解的答案简单罗列如下:(1)从实际工作角度:数据分析更侧重业务,数据挖掘则更侧重技术数据分析强调基于新的发现支持业务决策,关键是要转换到业务行动中发挥数据价值;数据挖掘关注焦点在于技术创新而非业务含义,当业务问题转化为数据问题后,建模工作主要是寻求可行的技术解决方案,过程中业务人员起的是辅助作用。另外,数据挖掘从实验室...

2018-05-25 11:50:09 660

转载 三分钟看懂大数据风控中用户行为数据的采集、分析及应用( 转 )

据统计,目前银行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣。大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制,用户行为数据可以作为另外的30%客户风控的有效补充。那么,大数据风控运营中,会主要分析用户的哪些行为数据,怎么分析?1.行为数据的采集和分析用户行为数据:主要包含用户在网站和移动App中的浏览/点击/发帖等行为,行为数据其实...

2018-05-24 20:03:49 37598

转载 sql之 <>与 !=

<> 这个是最早的用法。!=是后来才加上的。两者意义相同,在可移植性上前者优于后者故而sql语句中尽量使用<>来做不等判断

2018-05-21 10:36:25 40353 1

原创 sql之 if 与 like 关键字

like:    从上面的 "Persons" 表中选取居住在以 "N" 开始的城市里的人:    sql语句:select * from Persons where City like ‘N%’    注:"%" 可用于定义通配符(模式中缺少的字母)if:    表达式为:IF( expr1 , expr2 , expr3 )    expr1 为true,则返回expr2 ,否则返回expr3...

2018-05-20 17:41:52 2769

原创 sql优化之count distinct vs. count group by

很多情况下,尤其是对文本类型的字段,直接使用count distinct的查询效率非常低,而先做group by再count往往能提升查询效率。但是,实验表明,对于不同的字段,count distinct与count  group by的性能并不一样,而且其效率与目标数据集的数据重复度相关。举例:分别使用count distinct 和 count group by对 bigint, macadd...

2018-05-20 11:04:44 3368

原创 sql之聚合函数使用总结

Having是一个经常与聚合函数搭配使用的关键字。它的作用是筛选满足条件的组,即在分组之后过滤数据,条件中经常包含聚合函数什么是聚合函数?聚合函数一般会出现在哪?顾名思义,聚合函数就是按照某种规则将特定字段进行规约,常见的聚合函数如:(1)求个数:count(2)求总和:sum(3)求最大值:max(4)求最小值:min(5)求平均值:avg在诸多应用中,聚合函数更多的辅助group by使用,而...

2018-05-20 10:38:10 4252

原创 sql查询语句的书写顺序、执行顺序及注意事项(优化策略)

查询中用到的关键词主要由6个,分别是:select、from、where、group by、having、order by书写顺序:顺序与上一行一致。不过其中select和from为必须,其他关键词是可选执行顺序:from、where、group by、having、select、order byfrom:从哪张表检索数据where:设置条件,过滤表中数据group by:将上面过滤出的数据,进行...

2018-05-19 19:13:14 4459

原创 sql多表连接查询

初始表环境如下:表1:student表2:course1.外链接:    又分为:左连接、右连接、完全外连接    左连接:select * from student left join course on student.ID=course.ID    查询结果为:                            右连接:select * from student right join c...

2018-05-19 17:22:11 10010 1

原创 sql实战:查找入职员工时间排名倒数第三的员工所有信息

查找入职员工时间排名倒数第三的员工所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1) NOT NULL,`hire_d...

2018-05-19 11:40:32 736

原创 准确率(accuracy)、召回率(recall)的意义和区别

1.

2018-05-18 15:41:17 43398 6

原创 Scrapy安装错误,安装Twisted时出现,Microsoft Visual C++ 14.0 is required.

解决步骤:(1)下载对应的whl文件  https://www.lfd.uci.edu/~gohlke/pythonlibs/  (2)打开cmd,输入 pip install whl文件路径  点击回车进行安装

2018-05-17 18:58:33 308

原创 关于Fatal error in launcher: Unable to create process using '"'的一个坑

Windows环境下:使用MSI安装完python,默认安装在了C:\Users\xxx\AppData\Local\Programs配置完path:C:\Users\xxx\AppData\Local\Programs\Python36 和 C:\Users\xxx\AppData\Local\Programs\Python36\Scripts打开一个新的终端:输入python  和 pip 均...

2018-05-17 18:47:36 2521 1

原创 Java容器(集合)

1.集合类和数据的区别:    数组元素既可以是基本类型的值,也可以是对象;而集合类主要负责保存、盛装其他数据,因此集合类也被称为容器类。2.Java容器大致可分为Set、List、Map和Queue四种体系:Set:代表无序、不可重复的集合;List:代表有序、可重复的集合;Map:代表具有映射关系(key/value对)的集合(key-value对应关系唯一;key唯一,不可有相同值;valu...

2018-05-16 18:42:25 609

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除