查尔斯-狩乃-CSDN博客

原创第7章Hadoop的数据仓库框架-Hive

在Facebook Jeff团队所构建的信息平台中，最庞大的组成部分是Apache Hive。Hive是一个构建在Hadoop上的数据仓库框架，是应Facebook每天产生的海量网络数据进行管理和机器学习的需求而产生和发展的。7.1Hive的配置与安装 Hive有3种Metastore的配置方式，分别是内嵌模式、本地模式和远程模式。这里我们以本地模式为例，介绍Hive的配置与安装，首先，本地模式需要Mysql作为Hive Metastore的存储数据库，因此在安装Hiv...

2021-10-04 22:53:00 485

原创 Python数据分析9-综合案例-网站日志分析

目录9.1数据来源9.1.1网站日志解析9.1.2日志数据清洗9.2日志数据分析9.2.1网站流量分析9.2.2状态码分析9.2.3IP地址分析网站的日志数据记录了所有Web对服务器的访问活动。本章主要讲解如何通过Python第三方库解析网站日志；如何利用pandas对网站日志数据进行预处理，并结合前面章节中的数据分析和数据可视化计数，对网站日志数据进行分析。9.1数据来源9.1.1网站日志解析注：该数据集可以从从网上资源下...

2021-10-03 17:17:01 1271

原创 Python数据分析8-时间序列

1

2021-10-02 20:49:29 1164 1

原创第6章Hadoop分布式离线计算框架-MapReduce

Hadoop中有两个重要的组件，一个是HDFS，另一个是MapReduce，HDFS用来存储大批量得数据，而MapReduce则是通过计算来发现数据中有价值得内容。5.1MapReduce概述 hadoop作为开源组织下最重要得项目之一，最推出后得到了全球学术界和工业界的广泛关注、推广和普及。它是开源项目Lucene（搜索索引程序库）和Nutch（搜索引擎）的创始人Doug Cutting于2004年推出的，当时Doug Cutting 发现MapReduce正是其所需...

2021-09-30 15:07:31 595 1

原创 Python数据分析7-seaborn可视化

seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得绘图更容易、更美观。本章首先讲解如何使用seaborn样式和分布图，并介绍如何使用seaborn绘制分类如；然后介绍回归图的绘制和网格计数。7.1样式与分布图...

2021-09-30 15:02:37 1655

原创 Python数据分析6-matplotlib可视化

数据可视化时数据分析中的一部分，可用于数据的探索和查找缺失值等，也是展现数据的重要手段。matplotlib是一个强大的工具箱，其完整的图标样式函数和个性化的自定义设置，可以满足几乎所有的2D和一些3D绘图的需求。本章节介绍了如何利用matplotlib绘制常用数据图表，如线形图、柱状图、散点图和直方图；还介绍了如何使用matplotlib的自定义设置绘制个性化图表；最后使用全球星巴克店铺的数据进行数据分析和可视化。 6.1线形图线形图是最基本的图标类型...

2021-09-25 13:06:16 1112

原创第5章Hadoop的集群资源管理系统-YARN

目录5.1为什么要使用YARN5.2YARN的基本架构5.2.1ResourceManager进程5.2.2ApplicationMaster和NodeManager5.3YARN工作流程5.4YARN搭建（1）编辑mapered-site.xml配置文件（2）编辑yarn-site.xml （3）编辑yarn-yarn-env.sh （4）检查slaves文件（5）配置若没有问题则可以启...

2021-09-24 11:47:44 548

原创 Python数据分析5-数据分组与聚合

数据的分组统计是数据分析工作中的重要环节。本节将讲解GroupBy的原理和使用方法；聚合函数的使用；富足运算中transform和apply方法的使用；通过pandas创建数据透视表的方法；最后通过一个综合示例。巩固数据分析统计的使用。5.1数据分组5.1.1GroupBy简介 GroupBy技术用于数据分组运算，类似于Excel的分类汇总（对于不同分类进行运算），其运算的核心模式为split-apply-combine，如下图所示，首先，数据及按照key（分组键...

2021-09-22 23:33:27 3184

原创第4章Hadoop的分布式协调服务-ZooKeeper

ZooKeeper在分布式应用中提供了诸如统一命名服务、配置管理和分布式锁的基础，成为高效、稳健的分布式协调服务。另外，在分布式数据一致的情况下，ZooKeeper采用一种被称为ZAB（ZooKeeper Automic Broadcast）的一致性协议。4.1 ZooKeeper的核心概念在分布式系统构建的集群中，每台机器都有自己的角色定位。其中最经典的是Master/Slave模式，在这种模式中，所有写操作的机器都可以称为Master机器；所有通过异步复制方式获取...

2021-09-20 11:39:00 764

原创 Python数据分析4-数据清洗与整理

有效的数据是进行数据分析的依据，因此在数据分析中，数据的处理往往需要花费70%的时间，可见数据处理的重要性。本章将讲解在pandas中如何进行多数据清洗和处理并介绍针对多元数据的合并和链接，以及数据的重塑等内容。4.1数据清洗现实中通过各种方式收集到的数据都是“肮脏”的。本节将着重讲解数据清洗的工作，如缺失值的处理，重复数据的处理以及如何替代值等具体操作。4.1.1处理缺失值有时由于设备原因（设备故障或无法存入数据等）或人为原因（没有录入或故意...

2021-09-19 15:18:02 2363

原创 Python爬虫11-Scrapy爬虫框架

前面章节着重介绍了但脚本的爬虫代码编写，从数据请求到数据解析和提取，都需要我们进行编写程序。本节所介绍的Scrapy爬虫框架，集数据字段定义、网络请求和解析、数据获取和处理等为一体，极大的方便了爬虫的编写过程。Scrapy是一个为了爬取网站信息，提取结构性数据而编写的应用爬虫框架。11.1scarapy的安装和使用11.1.1scrapy的安装由于Scrapy爬虫框架依赖许多第三方库，所以在安装scrapy之前，需要确保以下第三方库均以安装。 1....

2021-09-18 19:43:31 585

原创第16章Stata面板数据分析

面板数据（Panel Data）又被称为平行数据，指的是对某变量在一定时间内持续跟踪观测的结果。面板数据间距了横截面数据和时间序列数据的特点，即有横截面维度（在同一时间段内有多个观测样本），又有时间序列维度（同一样本在多个时间段内被观测到）。面板数据通常样本数量相对较多，也可以有效解决遗漏变量的问题，还可以提供更多样本动态行为的信息，具有横截面数据和时间序列数据无可比拟的优势。根据横截面为度和时间序列维度相对长度的大小，面板数据被区分为长面板数据和短面板数据。16.1短面...

2021-09-17 10:47:56 55704 8

原创第15章Stata时间序列分析

regregress m s g t #本命令的含义是不考虑数据的时间序列性质，直接以城乡人口净转移量为因变量，其他变量为自变量进行简单线性回归

2021-09-17 10:47:08 36572 5

原创 Python数据分析3-外部数据的读取于存储

对于数据分析而言，数据大部分来源于外部数据，如常用的CSV文件、Excel文件和数据库文件等。本章讲解如何李彤pandas库将外部数据转换为DataFrame数据格式，再通过Python进行处理，将DataFrame数据存储到相应的外部数据文件中。3.1文本数据的读取于存储3.1.1CSV文件的读取 pandas库提供了将表格型数据读取为DataFrame数据结构的函数。在现实应用中，常用的有read_csv和read_table函数，具体差异如下表：字符 ...

2021-09-17 10:37:43 619

原创第14章Stata因变量受限回归分析

目录14.1断尾回归分析案例延伸使用稳健标准差进行断尾回归分析14.2截取回归分析案例延伸1.使用稳健标准差进行截取回归分析2.设置下限进行截取回归分析3.同时设置上限和下线进行截取回归分析前面我们讲述的回归分析方法，都要求因变量或连续或离散，但是很多时候因变量观测样本数据会受到各种各种的限制，只能观测到满足一定条件的样本。例如，我们再统计某地区游客容量时可能仅仅能够统计到知名景点，或者说游客数大于某一特定值的景点游客量，又例如再统计工...

2021-09-16 09:10:14 4411

原创第13章Stata Logistic回归分析

前面我们讲述得回归分析方法都要求因变量是连续变量，但很多情况下因变量是离散得而非连续得。例如，公司招聘人才时根据对应聘人员得特征做出录用或者不录用得评价、毕业学生对职业得选择等。这时就需要用到Logistic回归分析。根据因变量得离散特征：常用得Logistic回归分析方法有3终，包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。13.1二元Logistic回归分析我们经常会遇到因变量只有两种取值的情况，例如是否患病、是...

2021-09-16 09:09:59 37953 1

原创第12章 Stata非线性回归分析

前面讲述的回归分析方法都属于线性回归的范畴，即因变量和自变量之间存在线性关系。在很多情况下，线性模型都是对真实情况的一种合理又简单的近似。如果遇到回归参数不是现行的，也不能通过转换的方法将其转换为线性的参数，这时候就需要用到本章将要讲述的非线性回归分析。常用的非线性分析方法由3终，包括非参数回归分析、转换变量回归分析以及非线性回归分析。12.1非参数回归分析非参数回归分析与前面讲述的回归方式区别很大，是一种探索性工具，通常不会像其他回归方法一样形成一个明确的回归方程，...

2021-09-16 09:09:43 18423 3

原创第11章Stata回归诊断与应对

在上以讲中，简要介绍了最小二乘线性回归，这种方法可以满足大部分的研究需要。但是这种分析方法的有效性建立在变量无异方差、无自相关、无多重线共线性的基础之上。显示生活中很多数据是不满足这些条件的...

2021-09-16 09:09:13 14534

原创第10章最小二乘线性回归分析

回归分析是经典的数据分析方法之一，应用广泛。它是研究分析某一变量受到其他变量影响的分析方法，基本思想是以被影响变量为因变量，以影响变量为自变量，研究因变量与自变量之间的因果关系。本章主要介绍最简单最常用的最小二乘线性回归分析方法（包括简单线性回归、多重线性回归）的应用。10.1简单线性回归分析简单线性回归又称一元线性回归分析，是最简单也是最基本的一种回归分析方法。简单线性回归的特色是只涉及一个自变量，主要用来处理一个因变量一个自变量之间的线性关系，建立变量之间的线性模...

2021-09-16 09:08:28 4477

原创第9章 Stata聚类分析

聚类分析（Cluster Analysis）是研究事物分类的基本方法，基于我们所研究的指标或数据之间存在着不同程度的相似性或者相异性。聚类分析采用定量数学方法，根据样品或指标的数值特征对样品进行分类，从而辨别出各样品之间的亲疏关系。聚类分析是一种使用简单但是很常用的分析方法，往往被用来经验性类型的探索，而不是用来检验实现所定的假设，聚类分析分成两个宽泛的类别，包括划分聚类分析和层次聚类分析。9.1划分聚类分析划聚类分析的基本思想是将观测到的样本划分到一系列事先设定好的...

2021-09-16 09:07:43 16881 4

原创第8章 Stata主成分分析与因子分析

在进行数据统计分析时，还往往会遇见变量特别多的情况，而且很多时候这些变量之间还存在着很强的相关关系或者说变量之间存在着很强的信息重叠，如果我们直接对数据进行分析，一方面会带来工作量的无畏的加大，另一方面还会出现一些模型应用的错误，于是主成分分析与因子分析应运而生。这两种分析方法的基本思想都是在不损失大量信息的前提下，利用较少的独立变量来替代原来的变量进行进一步的分析。8.1主成分分析基本思想是将众多的初始变量整合成少数几个互相无关的主成分变量，而这些新变量尽可能地包含...

2021-09-16 09:07:14 44407 7

原创第7章 Stata相关性分析

在得到相关数据资料后，我们要对这些数据进行分析，研究各个变量之间的关系。相关分析是应用非常广泛的一种方法。它是不考虑变量之间的因果关系而只研究分析变量之间的相关关系的一种统计分析方法，常用的相关分析包括简单相关分析、偏相关分析等。7.1简单相关分析数据（案例7.1）对数据的月份、温度、日照时间三个变量进行简单相关性分析，命令如下：correlate month tem hour结果如图所示，我们可以看到有12个样本参与了分析（obs=12）然后可以看到变量之间的相关系数...

2021-09-16 09:06:43 72166 2

原创第6章 Stata方差分析

目录6.1单因素方差分析6.2多因素方差分析6.3协方差分析6.4重复测量方差分析当遇到多个平均数间的差异显著性检验时，我们可以采用方差分析法。方差分析法就是将索要处理的观测值作为一个整体，按照变异的不同来源把观测值总变异的平方和以及自由度分解为两个或者多个部分，从而获得不同变异来源的均方与误差平方：通过比较不同变异来源的均方与误差均方，判断各样本所属总体方差是否相等。方差分析主要包括单因素方差分析、多因素方差分析、协方差分析、重复测量方差分析等。6...

2021-09-16 09:06:16 33510 1

原创第5章 Stata非参数检验

目录5.1单样本正态分布检验案例延伸5.2两独立样本检验5.3两相关样本检验5.4多独立样本检验5.5游程检验案例延伸一般情况下，参数检验方法假设统计总体的具体分布为已知，但是我们往往会遇到一些总体分布不能用有限个实参数来描述或者不考虑被研究的对象为何种分布，以及无法合理假设总体分布形式的情形，这时我们就需要放弃对总体分布参数的依赖，从而去寻求更多来自样本的信息，基于这种思路的统计检验方法被成为非参数检验。常用的非参数检验包括单样本正态分布检验，两独立样本检...

2021-09-16 09:04:40 6685 2

原创第4章 Stata参数检验

目录4.1单一样本T检验案例延伸4.2独立样本T检验案例延伸1.改变置信水平2.在异方差假定条件下进行假设检验4.3配对样本T检验案例延伸1.改变置信水平4.4单一样本方差的假设检验案例延伸4.5双样本方差的假设检验参数检验（Parameter Test）是指对参数的平均值、方差、比率等特征进行的统计检验。参数检验一般假设统计总体的具体分布为已知，但是其中一些参数或者取值范围不确定，分析的主要目的是估计这些未知参数的取值，或者对这些参数进...

2021-09-14 20:45:59 10327 2

原创第3章 Stata描述统计

目录3.1定距变量的描述性统计案例延伸1.获得更详细的描述性统计结果2.根据自己的需要或去相应的概要统计指标3.按另一变量分类列出某变量的概要统计指标4.创建变量总体均值的置信区间3.2正态性检验和数据转换案例延伸2.关于ladder命令介绍3.3单个分类变量的汇总案例延伸3.4两个分类变量的列联列表分析案例延伸3.5多表和多维列联分析案例延伸在进行数据分析时，当研究者得到的数据量很小时，可以通过直接观察原始数...

2021-09-14 20:45:31 28826 2

原创第2章 Stata图形绘制

该部分是讲述的利用Stata进行绘图，该章中会讲到8个不同的图形绘制命令。2.1直方图histogram [变量]，Frequency

2021-09-14 20:44:10 13426

原创第1章 Stata管理变量与数据

1.1创建和替代变量数据（案例1.2）例1.2是我国2009年各地区的就业人口以及工资总额数据。请使用Stata命令进行操作：（1）试着生成新的变量来描述各地区的平均工资情况；（2）试着生成平均工资变量来替代原有的工资总额变量；（3）对生成的平均工资变量数据均做除以10的处理；（4）对就业人口变量进行对数平滑处理，从而生成新的变量。generate avwage = sumwage/people:本命令的含义是生成新的变量来描述各地区的平均工资情况。结果如图所示：replace sumwage

2021-09-14 20:43:34 6369 1

原创 Python爬虫10-Selenium模拟登录

对于采用异步加载技术的网页，有时候通过逆向工程来构造爬虫是比较困难的。想用Python获取异步加载返回的数据，可以使用Selenium模块模拟浏览器。10.1Selenium和Phantomjs10.1.1Selenium的概念和安装 Selenium是一个用于web应用程序测试的工具，它直接运行在浏览器中，就像真实的用户在操作一样。由于这个性质，Selenium也是一个强大的网络数据采集工具，它可以让浏览器自动加载页面，这样使用了异步加载技术的网页，也可获取其需要...

2021-09-14 20:39:28 3012

原创 Python爬虫9-表单交互与模拟登录

无论是简单网页还是采用异步加载技术的网页，都是通过GET方法请求网址来获取网页信息的。但如何通过获取登录表单后的信息的？本节将讲解Reqquests库的Post方法，通过观测表单代码和逆向工程来填写表单以获取网页信息，以及通过提交Cookie信息来模拟登录网站。本节设计的主要知识点如下：表单交互：利用Requests库的POST方法进行表单交互 Cookie：了解Cookie的基本概念模拟登录：学会利用Cookie...

2021-09-14 20:34:55 923

原创 Python爬虫8-异步加载

9.1异步加载技术与爬虫方法9.1.1异步加载技术概述传统的网页如果需要更新内容，必须重新加载整个网页页面，网页加载速度慢，用户体验差，而且数据传输少，会造成宽带浪费。异步加载技术（AJAX），即异步JavaScript和XML，是指一种创建交互式网页应用的网页开发技术。通过在后台与服务器进行少量数据交换，AJAX可以是网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。9.1.2异步加载网页示例上节讲到的简书网“首页投稿”热评...

2021-09-14 20:31:29 1339

原创 Python爬虫7-多进程爬虫

当数据的爬虫量越来越大的时候，除了要考虑存储的方式外，还需要考虑爬虫的速度问题。前面的爬虫都是串行爬取，只有当一次爬取完之后才进行下一次爬取，这样极大的限制了爬取的速度和效率。本章主要讲解多线程和多进程的概念，并通过案例对串行爬虫和多进程爬虫的性能进行对比，最后通过综合案例，讲解多进程爬取得方法和技巧。8.1多线程与多进程8.1.1多线程和多进程概述当计算机运行程序时，就会创建包含代码和状态得进程。这些进程会通过计算机的一个和多个CPU执行。不过，同一时刻每个CP...

2021-09-14 20:30:14 1649 2

原创 Python爬虫6-数据库存储

6.1MongoDB数据库6.1.1MongoDB的使用import pymongoclient = pymongo.MongoClient('localhost',27017) #连接MongoDBmydb = client['mydb'] #连接数据库test = mydb['test'] #连接表test.insert_one({'name':'Jan','sex':'男

2021-09-14 20:02:04 317

原创 Python数据分析2-pandas入门和实战

2.1pandans数据结构 pandas又两个基本得数据结构:Series和Dataframe2.1.1创建Series数据 Series数据结构类似于一维数组,但它是由一组数据(各种Numpy数据类型)和一组对应得索引组成。通过一组列表数据即可产生最简单得Series数据,如图 Series数据:索引在左边，值在右边。可以看出，如果没有指定一组数据作为索引的话，Series数据会以0到N-1（N为数据的长度）作为索引，也可以通过指定索引的...

2021-09-14 10:44:57 1548

原创 Python爬虫5-API和爬虫

a

2021-09-13 18:58:16 985

原创第3章Hadoop基本命令和Java API

目录3.1Hadoop中HDFS的常用命令3.1.1基于Shell的操作 1.创建目录命令 2.上传文件到HDFS 3.列出HDFS上的文件 4.查看HDFS下某个文件的内容 5.将HDFS中的文件复制到本地系统中 6.删除HDFS下的文档3.2基于JavaAPI的操作3.2.1前期准备（1）windows安装hadoop （2）IDEA创...

2021-09-10 16:24:18 241

原创 Python数据分析1-NumPy入门和实战

Numpy库是用于科学计算的一个开源Python托充程序库，是其他数据分析包的基础包，他为Python提供了高性能数组与矩阵运算处理能力。本节将讲解多维数组的创建及其基本属性、数组的切片和索引方法、数组的运算与存取等内容。最后还有案例。1.1ndarry数组 Numpy库为Python带来了真正的ndarry多维数组功能。ndarray对象是一个快速而灵活的数据集容器。本节主要学习ndarray多维数组的创建方法、数组的属性和数组中的简单操作等内容。1.1.1创建n...

2021-09-06 17:49:25 588

原创第2章-Hadoop集群搭建

我这里准备了三台虚拟机（hadoop4,hadoop5,hadoop6）来搭建集群，全部打开然后用xshell连接上。其中1.1搭配前的准备1.1.1下载并安装VIM脚本编辑（3台虚拟机） vim脚本编辑有助于我们去看命令行，其中它有很多高光设置什么的yum install -y vim #使用yum安装vim -y意思时弹出问题直接默认yesyum install vim #也行1.1.2关闭防火墙（3台虚拟机）在我们配置好虚...

2021-09-06 15:44:07 123

原创 Python爬虫4-Lxml库与Xpath语法

5.1综合案例-爬取豆瓣图书TOP250的数据利用request和Lxml第三方库，爬取豆瓣图书top250数据，并存储到CSV格式的文件中。5.1.1将数据存储到CSV文件中import csvfp = open("test.csv",'w+')writer = csv.writer(fp)writer.writerow(('id','name'))writer.writerow(('1','xiaoming'))writer.writerow(('2','...

2021-08-30 10:46:12 232

原创 Python爬虫3--正则表达式

4.1正则表达式常用符号4.1.1一般字符正则表达式的一般字符有3个如下表字符含义 . 匹配任意单个字符 \ 转义字符（把有特殊含义的字符转换成字面意思） [...] 字符集。对应字符集中的任意字符说明：（1）“.”字符为匹配任意单个字符。例如，a.c可以的匹配结果为abc、aic、a&c等，但不包括换行符。（2）“\”字符为转移字符，可以把字符改变为原来的意思。听上去不是...

2021-08-30 10:44:58 275

2.9.2_wintuils_hadoop.dll.zip

Python爬虫UnicodeEncodeError: 'latin-1' codec can't encode

ubuntu18.04（华硕飞行堡垒）散热问题

虚拟机搭建所有的datenode全部启动成功，但是WEB页面只显示了一个master节点，过了一会儿又有两个了·