自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据ING的博客

数据分析,数据挖掘,大数据

  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

原创 xgboost原生接口和sklearn的区别

1、区别如图:2、(1)原生形式使用Xgboost(import xgboost as xgb)from sklearn import datasetsfrom sklearn.model_selection import train_test_splitimport xgboost as xgbimport numpy as npfrom sklearn.metrics import precision_score, recall_score# 加载数据iris .

2021-09-20 21:02:29 1344

原创 pandas常用函数

凄凄切切去群群群群群群群群群群群群群群群群群群群群群群群群群群

2020-11-29 19:17:26 398

原创 sql常用函数

1、2、3、

2020-10-31 22:46:58 214

原创 常用shell命令集合

tee命令:在输出信息的同时把信息记录到文件中例子:ls | tee ls.txt 将会在终端上显示ls命令的执行结果,并把执行结果输出到ls.txt文件中,将会覆盖原文件的内容,若无ls.txt文件,将会自动创建该文件ls | tee -a ls.txt 保留ls.txt文件中原来的内容,并把ls命令的执行结果追加到ls.txt文件的最后,不覆盖原来的内容ls | tee fil...

2020-03-27 17:09:54 256

原创 数据仓库的两种建模方法(范式建模和维度建模)

数据仓库的两种建模方法范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长 范式建模应用在EDW层...

2020-03-20 15:45:57 9732

原创 python的logging两种高级用法

一、 基础使用1.1 logging使用场景日志是什么?这个不用多解释。百分之九十的程序都需要提供日志功能。Python内置的logging模块,为我们提供了现成的高效好用的日志解决方案。但是,不是所有的场景都需要使用logging模块,下面是Python官方推荐的使用方法:任务场景 最佳工具 普通情况下,在控制台显示输出 print() 报告正常程序操作过程中发生...

2019-11-14 10:38:13 895

原创 天气越来越冷,利用Python做一个监控天气的程序,发邮件

完成这个任务需要三个步骤:1、查询天气 2、发送邮件 3、代码实现查询天气,主要是通过api来发送请求得到json数据串,并通过postman来测试请求。查询天气接口要获取天气情况,需要一个查询天气的接口,网上找了一下,一般都是注册后送一定调用次数的,我选择了一个,免费送 500 次查询次数的。我们看看接口的 API 文档。其中城市名 cityname 和 key...

2019-11-04 17:37:17 1952 4

原创 带有 yield 的函数在 Python中的使用介绍

带有 yield 的函数在 Python中的使用介绍菜鸟观数据2019-10-19 18:17带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ,通过下面的例子来说明。1. 简单输出斐波那契數列前 N 个数#!/usr/bin/python# -*- coding: UTF-8 -*-def fab(max):...

2019-10-19 18:27:20 255

原创 python etree爬取去哪儿数据

爬取去哪儿数据import pymysqlfrom lxml import etree#!/usr/bin/env python# encoding: utf-8"""@author: owen.cai@contact: [email protected]@file: qunarspider.py@time: 2019/9/30 15:01"""import pym...

2019-10-08 13:57:09 434

原创 一文看懂mysql sys库常见用法--实现数据库信息的收集及监控 概述

一文看懂mysql sys库常见用法--实现数据库信息的收集及监控概述MySQL5.7的新特性中,非常突出的特性之一就是sys库,不仅可以通过sys库完成MySQL信息的收集,还可以用来监控和排查问题。下面介绍一些常用的用法。一、用户、连接类1、查看每个客户端IP过来的连接消耗资源情况。select * from sys.host_summary;2、查看...

2019-09-12 10:12:20 895

原创 python爬取nab球员数据

import requestsfrom bs4 import BeautifulSoupimport pymysqldef insertdata_myql(sql): # 打开数据库连接(具体配置信息请自行替换) # print('执行到这里00') db = pymysql.Connect( host='localhost', ...

2019-09-06 15:31:53 233

原创 python的爬虫基本知识介绍

前言简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前;一、爬虫是什么?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;...

2019-09-04 10:17:10 2066

原创 Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE和ROLLUP

概述GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。数据准备2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-04,2...

2019-08-28 16:45:02 193

原创 Hadoop之YARN学习总结之架构

一、yarn产生背景 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。...

2019-08-14 16:12:03 194

转载 MySQL优化大全,硬优化和软优化

笔者将优化分为了两大类:软优化和硬优化。软优化一般是操作数据库即可;而硬优化则是操作服务器硬件及参数设置。1、软优化1)查询语句优化首先我们可以用EXPLAIN或DESCRIBE(简写:DESC)命令分析一条查询语句的执行信息。例: DESC SELECT * FROM `user`显示:其中会显示索引和查询数据读取数据条数等信息。2)优化子查询...

2019-08-07 15:22:55 737

原创 windows下安装pycharm并连接Linux的python环境

windows下安装pycharm并连接Linux的python环境1.下载安装Pycharm专业版http://www.jetbrains.com/pycharm/2.添加配置连接远程服务器2.1打开 PyCharm,依次点开 File → Settings → Project scripts → Project Interpreter 选择“Add Remote...

2018-12-05 18:09:00 3192 6

原创 机器学习实战-利用PCA来简化数据(降维)

一 理论       降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。  降维具有如下一些优点:(1)使得数据集更易使用(2)降低算法的计算开销(3)去除噪声(...

2018-11-19 10:49:43 1222

原创 Hive实现数据抽样的常用三种方法

背景在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:1、随机抽样(rand()函数)(1)使用rand()函数进行随机抽样,limit关键字限制抽样...

2018-11-15 10:21:55 9404 1

原创 Linux用shell一次性杀指定进程的方法和Linux命令杀掉符合条件的所有进程

本文主要讲解下面两个内容:1、Linux用shell一次性杀指定进程的方法2、Linux命令杀掉符合条件的所有进程Linux用shell一次性杀指定进程的方法需要把 linux 下符合某一项条件的所有进程 kill 掉,这个时候我们需要运用 ps, grep, cut 和 kill 一起操作。面给出具体的参考:两种方法ps -ef|grep 'Jps'|grep -v ...

2018-11-13 22:31:36 6998

原创 Python2《机器学习实战》学习笔记(四):利用AdaBoost元算法提高分类性能

'''Created on Nov 02, 2018Adaboost is short for Adaptive Boosting@author: peter cai'''from numpy import *#数据集def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], ...

2018-11-02 18:11:47 282

原创 python 中pd.pivot_table行转列函数使用

2018-10-25 16:30:46 2582

原创 皮尔逊相关系数的,余弦相似性,欧式距离计算(python代码版)

 皮尔逊相关系数的,余弦相似性,欧式距离是我们经常用到的计算相似性的函数,下面自己实现一下:一、介绍下三个公式(1)皮尔逊相关系数(2)欧式距离       ---------- 二维空间                                       -----------n维空间(3)余弦相似性 二、代码实现如下# 皮尔斯相关系数fr...

2018-10-24 15:29:21 5914 3

原创 python与SQL比较与转化实例操作

python与SQL比较与转化由于许多潜在的pandas用户对SQL有一定的了解,因此本页面旨在提供一些如何使用pandas执行各种SQL操作的示例。按照惯例,我们按如下方式导入pandas和NumPy:import numpy as npimport pandas as pdurl = 'https://raw.github.com/pandas-dev/pandas/mast...

2018-10-17 16:18:55 625

原创 《机器学习实战》学习笔记:朴素贝叶斯分类算法

 贝叶斯决策理论选择高概率对应的类别是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。朴素贝叶斯朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法  。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM),本文主要讨论朴素贝叶斯模型。我们称之为“朴素”,是因为整个形式化过程只做最原...

2018-09-26 14:39:51 2298 10

原创 Python2《机器学习实战》学习笔记(一):k-近邻算法

K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K 近邻算法使用的模型实际上对应于对特征空间的划分。K 值的选择,距离度量和分类决策规则是该算法的三个基本要素: K 值的选择会对算法的...

2018-09-20 17:27:46 347

原创 机器学习算法与Python实践之逻辑回归(Logistic Regression)(二)

#!/usr/bin/python# -*- coding:utf-8 -*-import numpy as npfrom numpy import *import matplotlib.pyplot as plt#处理数据函数def loadDataSet(): dataMat=[] labelMat=[] fr=open('C:\\Users\\root\...

2018-09-17 17:37:59 452

原创 机器学习算法与Python实践之逻辑回归(Logistic Regression)

机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。在参考大神的代码自己测试一番。################################################## logRegression: Logistic Regression# Author : cai# Date : 2018-09-13# HomePage : http://bl...

2018-09-13 17:24:21 351

原创 python数组和矩阵

二维 

2018-09-06 18:33:06 235

原创 hbase常用命令

进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main):013:0> whoamiroot (auth:SIMPLE) groups: ...

2018-09-05 13:44:05 171

原创 第一、第二、第三范式之间的理解和比较

第一第二第三范式总结:第一范式属性不可分割(无重复的列)第二范式非主属性依赖主属性第三范式非主属性不存在传递依赖举例说明:实例讲解:第一范式如果一个关系模式R的所有属性都是不可分的基本数据项,则R∈1NF(即R符合第一范式)。两点:一、每个字段都只能存放单一值课程有两个值,不符合第一范式,可改为如下二、每笔记录都要能利用一个惟一的主键...

2018-08-29 17:01:34 5347

原创 python中的enumerate()函数使用方法

结合实例来理解比较好,网上找了一下这个enumerate用法,自己也记录一下加深印象enumerate函数说明: 函数原型:enumerate(sequence, [start=0])  #第二个参数为指定索引 功能:将可循环序列sequence以start开始分别列出序列数据和数据下标 即对一个可遍历的数据对象(如列表、元组或字符串),enumerate会将该数据对象组合为一个索引...

2018-08-29 11:39:46 1658

原创 python 画图操作

import matplotlib.pyplot as pltimport numpy as npfig=plt.figure()# ax1=fig.add_subplot(2,3,1)ax2=fig.add_subplot(2,3,6)plt.plot([1.5,1.5,1.9,1.7])#这个在哪个图下面就在哪个画图ax2=fig.add_subplot(2,3,5)# ax2...

2018-08-22 15:44:33 754

原创 apache-phoenix-4.14.0-HBase-1.3-bin安装及基本使用

apache-phoenix-4.14.0-HBase-1.3-bin安装及基本使用1、安装步骤a. 下载相关版本 (注:要与 hbase 版本相对应) b. 解压到安装目录c. 把目录下的 phoenix-4.14.0-HBase-1.3-server.jar 自制到 hbase 目录下的 lib/ 里面d. 重启hbase e. 运行phoenix , 如下cd /home...

2018-08-02 16:23:33 2176 1

转载 VMWare虚拟机NAT模式静态IP联网配置

VMWare虚拟机NAT模式静态IP联网配置

2018-07-31 16:30:19 242

原创 大数据 linux sed使用简介

sed是一种流编辑器,它是文本处理中非常中的工具,能够完美的配合正则表达式使用,功能不同凡响。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反...

2018-07-17 11:00:33 245

原创 大数据中经常用到的linux awk的基本使用

awk的工作原理awk 'BEGIN{ commands } pattern{ commands } END{ commands }'第一步:执行BEGIN{ commands }语句块中的语句; 第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ commands }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。 第三步:当读...

2018-07-17 10:32:10 496

原创 SyntaxError: non-default argument follows default argument

def power(x=1, n):    s = 1    while n > 0:        n = n - 1        s = s * x    return s  File "<ipython-input-15-928e32ada7ec>", line 1    def power(x=1, n):SyntaxError: non-default...

2018-07-10 16:48:37 7933

原创 mysql查看存储过程函数视图和触发器

mysql查看存储过程函数查询数据库中的存储过程和函数 select `name` from mysql.proc where db = 'xx' and `type` = 'PROCEDURE' //存储过程 select `name` from mysql.proc where db = 'xx' and `type` = 'FUNCTION' //函数...

2018-07-05 19:45:53 137

原创 python连接操作mysql数据库

用python来实现对mysql增删改查的操作,具体代码如下:#!/usr/bin/python# -*- coding: UTF-8 -*-import MySQLdb#打开数据库连接db = MySQLdb.connect("localhost","root","1181ff69","test_demo",charset='utf8' )# 使用cursor()方法获取操作游...

2018-07-05 19:10:42 407

原创 python 实现发邮件

第一版本#coding:utf-8from email.header import Headerfrom email.mime.text import MIMETextfrom email.utils import parseaddr, formataddrimport smtplibclass post_email(object): def __init__(sel...

2018-07-05 19:07:49 481 1

经典坦克游戏

自己写的一个坦克,java编写,实现了很多功能!

2014-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除