自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Hadoop保姆级安装教程(大数据集群一)

Hadoop入门与集群搭建Hadoop概述HDFS概述YARN概述Mapreduce架构概述Hadoop集群搭建虚拟环境准备安装JDK安装HadoopHadoop目录结构Hadoop完全分布式运行模式xsync群发脚本实现集群配置配置集群SSH无密登录配置群起集群Hadoop概述HDFS概述NameNode:存储文件的元数据(文件名,文件目录结构,文件属性(生成文件的时间、副本数、文件权限),以及每一个文件的块列表和块所在的DataNode。DataNode:在本地文件系统存储文件块数据,以及块数

2021-02-25 09:34:58 406

原创 Pandas去重替换与数据分组

2020-11-18 16:46:50 154

原创 Linux常用命令

Linux常用命令常用命令使用awkawk练习压缩与拷贝文件zip格式tar格式scp命令拷贝文件、文件夹find命令对比两个文件,对结果进行解释常用命令使用awk1.基本用法awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filenamepattern:表示AWK在数据中查找的内容,就是匹配模式action:在找到匹配内容时所执行的一系列命令2.选项参数说明选项参数 功能-F 指定输入文件折分隔符-v 赋值一个用户定义变量特殊要点

2020-11-17 10:59:02 120

原创 (一)机器学习第一天 KNN算法实现(约会网站配对效果)

本文讲解的第一个机器学习算法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。导入模

2020-05-30 16:51:33 439

原创 python股票量化分析

使用tushare包的get_k_data()函数来获取股票交易数据,具体可以通过命令help(ts.get_k_data)了解函数和参数含义。import pandas as pd import numpy as npimport matplotlib.pyplot as plt#正常显示画图时出现的中文from pylab import mpl#这里使用微软雅黑字体mpl.rcParams['font.sans-serif']=['SimHei']#画图时显示负号mpl.rcPara

2020-05-10 09:50:33 773

原创 基于简单模型KNN——泰坦尼克号获救分析

数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)字段意义:PassengerId: 乘客编号Survived :存活情况(存活:1 ; 死亡:0)Pclass : 客舱等级Name : 乘客姓名Sex : 性别Age : 年龄SibSp : 同乘的兄弟姐妹/配偶数Parch : 同乘的父母/小孩数T

2020-05-09 15:34:18 865 1

原创 数据分析Qgis-城市餐饮店铺选址

目标:从三个维度“口味”、“人均消费”、“性价比”对不同菜系进行比较,并筛选出可开店铺的餐饮类型实现的具体细节:① 计算出三个维度的指标得分② 评价方法:口味 → 得分越高越好性价比 → 得分越高越好人均消费 → 价格适中即可③ 制作散点图,x轴为“人均消费”,y轴为“性价比得分”,点的大小为“口味得分”绘制柱状图,分别显示“口味得分”、“性价比得分”实现过程载入数据import numpy as npimport pandas as pdimport matplotlib.pyp

2020-05-08 22:07:54 1638 13

原创 基于bokeh的数据分析——电商套路解析

项目目标一: 从现有数据中,分析出“各个品牌都有多少商品参加了双十一活动导入模块import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')from bokeh.plotting import figure,show,output_filefrom bokeh.models import ColumnDataSour

2020-05-08 18:24:26 348

原创 基于Excel下的电商数据分析

一.数据来源阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1数据集包含了2017年11月25日至2017年12月3日之间,约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集大小情况为:用户数量约100万(987,994),商品数量约410万(4,162,024),商品类目数量...

2020-05-05 22:25:01 1243

原创 Pandas中连接与修补 concat、combine_first

2020-04-21 15:25:35 126

原创 pandas中merge,join

2020-04-21 15:10:36 84

原创 Pandas针对字符串配备的一套方法,使其易于对数组的每个元素进行操作

2020-04-21 14:55:15 97

原创 Pandas常用的数值计算和统计基础

基本参数axis,skipna

2020-04-21 14:43:33 142

原创 Pandas中的series

2020-04-19 15:21:22 82

原创 Numpy数据的输入输出 numpy读取/写入数组数据、文本数据

2020-04-19 12:03:26 1620

原创 Numpy随机数生成

2020-04-19 12:00:12 91

原创 Numpy索引及切片

基本索引切片

2020-04-19 11:56:27 109

原创 Numpy基础数据结构

Numpy基础数据结构Numpy

2020-04-19 11:51:26 112

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除