门前一头牛-CSDN博客

原创词频统计【java、mappereduce、hadoop】

import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.ap

2021-12-15 17:19:38 567

原创如何连接HADOOP文件的上传和下载并输出文件

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pat

2021-12-14 17:33:00 461

原创 Hbase创建表插入数据和获得数据 java代码【hadoop】

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException;public class ExampleForHBase { public static Configuration

2021-12-14 16:32:50 829

原创 Python---数据合并(pd.merge()\pd.concat()\combine_fist())

Pandas 中有一些内置的合并数据集函数，具体如下：pandas.merge()：依据一个或多个键将多个DataFrame连接起来，类似于数据库连接；pandas.concat()：可以沿着一个轴将多个对象堆叠起来；combine_first()：可以将重复数据编制在一起，用以填充另一个对象的缺失值。df1.combine_first(df2)pandas.concat()Pandas.concat(objs, axis=0, join=‘outer’, join_axes=None, ig

2021-12-07 20:44:19 1113

原创操作系统-----进程的同步

进程的同步本章要点121、进程的同步与互斥2、经典的进程同步与互斥问题3、AND信号量–4、管程5、进程通信（一）进程间的同步在多道程序设计系统中，进程的并发执行提高了系统的资源利用率。但是也打破了程序执行结果的再现性。在相同的情况下，两次执行结果可能不同。所以在这种前提之下，我们的进程的互斥与同步的主要任务是使在并发执行的多进程之间能有效地共享资源和相互合作，从而使程序地执行重新具有可再现性。同步的概念多个相互合作地进

2021-12-07 20:22:16 1896

原创操作系统-----线程

线程其实线程是打算与上一章的进程写在一起的，但是一天事情太多，写得太晚了。就只好把线程单独分一章出来。

2021-11-10 21:37:51 606

原创操作系统-----进程

进程|本章要点重点进程的引入进程与程序的区别、进程的并发条件进程的状态及组成进程的不同状态及其转换、进程控制块进程控制进程的创建、撤销、阻塞、唤醒、挂起、激活（一）进程的引入程序：是在一个时间上严格有序的指令集合。一个程序通常由若干个程序段组成，她们必须按照某种先后次序来执行。这类计算过程就是程序的顺序执行过程。说到进程，大家是否接触过？window系统Ctrl+Alt+Delete打开任务管理器，分为应用程序和进程。应用程序：是我们打开的一个个

2021-11-08 21:31:43 257

原创操作系统-----操作系统的引述

操作系统引述本章要点意义操作系统的定义操作系统是什么操作系统的形成为什么要操作系统操作系统的特征操作系统是怎样的操作系统的功能操作系统能干什么操作系统的分类操作系统有哪些（一）操作系统的定义资源管理的观点操作系统是控制和管理计算机的软硬资源，合理地组织计算机地工作流程，以及方便用户地程序集合。用户的观点操作系统是配置在计算机硬见上地第一层软件，是对硬件系统地第一次扩充。用户观点相对人员应用软件应用用户

2021-11-07 14:45:45 124

原创 pandas基础知识一遍过

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。Seriesimport pandas as pdpd.Series(list('hello'))import numpy as.

2021-09-09 17:24:06 114

原创 numpy基础知识一遍过！

1,创建ndarray数组1.1 ndarray 支持的数据类型1.2 快速生成ndarray1.2.1 ones所有成员都为1的数组1.2.2 zreos所有成员都为0的数组1.2.3 random 随机数组1.2.4 arange 顺序数组1.2.5 linspace 均匀分布的数组1.3 改变ndarray的形状2 ndarray 的算术运算3 简单绘图4 数组的访问和切片5 数组的合并和切片6 unique 去重numpy提供了跑一趟鸿对多维数组对象的支持：ndarray

2021-09-08 16:24:19 173

原创使用crawlspider实现页面的提取+案例

CrawlSpider是Scrapy提供的一个通用Spider。在Spider里，我们可以指定一些爬取规则来实现页面的提取，这些爬取规则由一个专门的数据结构Rule表示。Rule里包含提取和跟进页面的配置，Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要用哪个方法解析等。1.CrawlSpider的基本工作原理CrawlSpider的基本工作原理和BasicSpider雷同。不同点在于获取响应对象后，通过链接提取器LinkExtractor获取请求链接，如果提取

2021-06-04 21:20:32 475 4

原创 Scrapy + 案例

学了 scrapy却不会用？？？那我们就直接来一个案例来仔细讲解一下，步骤是怎么样的。这个例子是前不久一个学妹的作业。我拿来写写博客哈哈哈哈哈。对了我用的Pycharm例子是爬取人邮教育区里面的书籍。老步骤一、创建爬虫项目打开终端书写 scrapy startproject book1spider要是创建文件之后，忘记了下一步时不要慌，终端会给我们一个提示，按照提示来，接下来一步切换刀爬虫项目的目录下，然后再创建一个爬虫文件。二、创建爬虫文件还是在终端输入scrapy gen

2021-06-04 17:55:10 531 1

原创 scrapy入门

为什么要用Scrapy ？？？有selenium还不够吗？不够！我们知道无论是静态网页的爬取还是动态网页的爬取。大致思路都是获取网页的html代码、解析、保存输出。在我们编写这些代码的时候虽然都是已经封装成函数了。但是难免有一些些懒惰的同学不想写（绝对不是我 ????）。所以我们使用scrapy就可以很好的解决这些问题了。让我们陶醉于解析的过程当中。减少我们的工作量，缓解我们的焦虑，拯救我们的头发哈哈哈哈。scrapy的基本使用方法一、创建爬虫项目在终端输入scrapy startproj

2021-06-01 20:06:47 359 2

原创 Scrapy安装（windows）

你以为只要学了selenium就可以了？ scrapy简直神来之笔好吗！用一句y总的话：安装ScrapyScrapy是一个python爬虫的一个框架。使用框架写爬虫可以减少代码的编写，提升爬取的效率。由于pip安装会自动安装scrapy爬虫框架依赖的各种包，安装速度较慢，出错概率较大，建议增加-i参数，使用清华镜像安装。pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple在prompt中输入scrapy即可验证是否安装成功。

2021-06-01 16:26:23 154

原创动态网页 —— 案例：爬取qq邮箱

其实在前一张博客动态网页——selenium+案例中已经简单的爬过一遍qq邮箱了。本次呢是在上一次的代码上再完善一下啊。其实我们很多习惯是养成了的，比如说我们很多人都是打开电脑后会立即登录自己的qq或者微信。反正我是这样???? 甚至很多都是设置了的自动登录。我没有！我怕忘记密码???? 。所以这次的爬取QQ邮箱，我们会考虑到，如果我们已经登录了qq。因为如果已经登录了，就不会自动跳转到输入账号和密码的界面,而是这个所以我们就来改动一下吧！通常出现已有账号登录的情况，我们是直接点击我们的头像

2021-05-19 16:50:35 10013 2

原创动态网页 —— selenium+案例

在上一次博客动态网页——selenium基础中我们在最后有提到frame的窗口切换，但是并没有细讲，所以今天就是用selenium来爬取一个qq邮箱，详细讲解selenium库@中frame的运用。1、使用selenium总是出现定位错误？很多人在动态网页爬取的时候使用selenium库的时候会遇到这种错误，可是反复检查网页源代码，发现元素明明就在那里，用firebug也可以看到，但是就是不可以去定位它，这个时候我们就要考虑一下我们的窗口有没有切换了！因为webDriver只能在一个页面上对元

2021-05-18 20:16:27 920 1

原创动态网页 -- selenium基础

对于一些简单的动态网页，可以使用我们之前提起过的逆向分析法之前写过动态网页的逆向分析法。但是有一些网站非常复杂，如天猫产品评论，使用逆向分析法很难找到请求的url地址。除此之外，有些网站对爬虫非常不友好，会对地址和数据进行加密，分析起来异常困难，如QQ邮箱、百度登录等。因此，这里介绍另一种方法，即使用浏览器渲染引擎。这个方法在爬取过程中会打开一个浏览器加载该网页，自动操作浏览器浏览各个网页。用一句简单而通俗的话说，就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页。我们可以用Python的Selen

2021-05-14 18:07:52 7729 18

原创动态网页 —— 逆向分析法 + 案例

引入：本章主要讲解的是动态网页爬取的相关技术。动态网页的爬取呢，主要有逆向分析法和模拟法。我们今天主要介绍逆向分析法，后面会重点介绍模拟法中selenium库的使用。动态网页一、动态网页概述1.1 什么是动态网页动态网页是基本的html语法规范与Python、Java、C#等高级程序设计语言、数据库编程等多种技术的融合，以期实现对网站内容和风格的高效、动态和交互式的管理。因此，从这个意义上来讲，凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页

2021-05-10 17:45:32 12026 16

原创爬取豆瓣网新书传递信息，关系型数据库的储存

爬取豆瓣网新书传递信息，数据保存到数据库中。爬取信息包括书名、评分、作者、出版社、出版时间、图书介绍。豆瓣图书新书速递的网址为需要爬取的网页地址–点击一、实例首先我们要做的事情，是打开网页，用F12观察结构发现该该网页没有分页，只有左右两个div盒子，但是按照以前的爬取方法，我们只能爬取一个div，那么这次的解决方法是什么呢？是要分开爬取？还是有其他的解决方法，就接着往下看吧！这次解析网页是使用的xpath。1，得到网页 ——get_htmldef get_html(url,heade

2021-04-23 18:19:10 554 3

原创 PYTHON : 二进制、八进制、十六进制的转换和输出

PYTHON : 二进制、八进制、十六进制的转换和输出十进制转换成其他进制保存为文本串二进制 bIn（）八进制 oct（）十六进制 hex（）不输出前缀使用format函数如果不想输出进制前面的前缀符号，这时我们就要使用format函数在这里我们要注意，二进制和八进制的再format里的符号是‘b’，‘o’ 而十六进制format 里的符号就不再是‘h’ 而是**‘x’**。当然如果是要输入的是负数，输出结果前也是会返回一个负号的。如果要产生一个

2021-04-11 15:21:04 15028 1

原创数据库的创建与管理

第八章表数据的创建与维护 •6.3数据库的管理（1）查看数据库我们查看已存在且命名了的数据库用“SHOW DATABASES”(2) 查看表我们使用“use 数据库名 show tables”通过本章学习，掌握数据库的创建以及数据表的基本操作，了解数据完整性的概念和作用，能够实现完整性约束。MySQL 表结构的管理查看表结构的语句包括‘describe’ 和“show create table”通过这两个语句可以看到表的字段名字段的数据类型，完整性约束条件。【1】查看表基本结构

2021-03-26 18:01:48 205 1

原创快速排序

快速排序#快速排序def quick_sort(alist , first=0 ,last=None): if last is None: last = len(alist) - 1 if first >= last: return mid_val = alist[first] low=first high = last while low < high: while low < hig

2021-03-22 21:51:09 62 1

原创 JAVA 程序设计基础过关题库(50道)

程序设计基础过关题库(50道)<说明>难易程度依次为：易（7道）、较易（14道）、较难（13道）、难（9道）、很难（7道）一、顺序结构1、编程实现两个整数交换位置，例如：int x = 6,y = 9，交换后 x = 9，y = 6。（易）2、将华氏温度转化成摄氏温度。公式为：C=（5/9）*(F-32)，其中F为华氏温度，C为摄氏温度。请根据给定的华氏温度输出对应的摄氏温度。（易）package javaFirst_1;public class JavaFirst_1

2021-03-21 17:03:15 5503 3

原创动态网页的爬取

动态抓取在开始爬取动态网页之前吗，我们还需要了解一种更新的技术——AJAX（Asynchronous Javascript And XML，异步JavaScript和XML）。它的价值在于通过再后台与服务器进行少量数据交换就可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。一方面减少了网页重复内容的下载，另一方面节省了流量，因此它得到了广泛的应用。如果使用AJAX加载的动态网页，怎么爬取里面动态加载的内容呢？有两种方法：（1）通过浏览器审查元素解析地址（2）通过

2021-02-13 13:28:02 298 1

空空如也

空空如也