自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 词频统计【java、mappereduce、hadoop】

import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.ap

2021-12-15 17:19:38 567

原创 如何连接HADOOP文件的上传和下载 并输出文件

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pat

2021-12-14 17:33:00 461

原创 Hbase创建表 插入数据和获得数据 java代码 【hadoop】

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes; import java.io.IOException;public class ExampleForHBase { public static Configuration

2021-12-14 16:32:50 829

原创 Python---数据合并(pd.merge()\pd.concat()\combine_fist())

Pandas 中有一些内置的合并数据集函数,具体如下:pandas.merge():依据一个或多个键将多个DataFrame连接起来,类似于数据库连接;pandas.concat():可以沿着一个轴将多个对象堆叠起来;combine_first():可以将重复数据编制在一起,用以填充另一个对象的缺失值。df1.combine_first(df2)pandas.concat()Pandas.concat(objs, axis=0, join=‘outer’, join_axes=None, ig

2021-12-07 20:44:19 1113

原创 操作系统-----进程的同步

进程的同步本章要点121、进程的同步与互斥2、经典的进程同步与互斥问题3、AND信号量–4、管程5、进程通信(一) 进程间的同步在多道程序设计系统中,进程的并发执行提高了系统的资源利用率。但是也打破了程序执行结果的再现性。在相同的情况下,两次执行结果可能不同。所以在这种前提之下,我们的进程的互斥与同步的主要任务是使在并发执行的多进程之间能有效地共享资源和相互合作,从而使程序地执行重新具有可再现性。同步的概念多个相互合作地进

2021-12-07 20:22:16 1896

原创 操作系统-----线程

线程其实线程是打算与上一章的进程写在一起的,但是一天事情太多,写得太晚了。就只好把线程单独分一章出来。

2021-11-10 21:37:51 606

原创 操作系统-----进程

进程|本章要点重点进程的引入进程与程序的区别、进程的并发条件进程的状态及组成进程的不同状态及其转换、进程控制块进程控制进程的创建、撤销、阻塞、唤醒、挂起、激活(一)进程的引入程序:是在一个时间上严格有序的指令集合 。一个程序通常由若干个程序段组成,她们必须按照某种先后次序来执行。这类计算过程就是程序的顺序执行过程。说到进程,大家是否接触过?window系统Ctrl+Alt+Delete打开任务管理器,分为应用程序和进程。应用程序 :是我们打开的一个个

2021-11-08 21:31:43 257

原创 操作系统-----操作系统 的引述

操作系统引述本章要点意义操作系统的定义操作系统是什么操作系统的形成为什么要操作系统操作系统的特征操作系统是怎样的操作系统的功能操作系统能干什么操作系统的分类操作系统有哪些(一)操作系统的定义资源管理的观点操作系统是控制和管理计算机的软硬资源,合理地组织计算机地工作流程,以及方便用户地程序集合。用户 的观点操作系统是配置在计算机硬见上地第一层软件,是对硬件系统地第一次扩充。用户观点相对人员应用软件应用用户

2021-11-07 14:45:45 124

原创 pandas基础知识一遍过

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。Seriesimport pandas as pdpd.Series(list('hello'))import numpy as.

2021-09-09 17:24:06 114

原创 numpy基础知识一遍过!

1,创建ndarray数组1.1 ndarray 支持的数据类型1.2 快速生成ndarray1.2.1 ones所有成员都为1的数组1.2.2 zreos所有成员都为0的数组1.2.3 random 随机数组1.2.4 arange 顺序数组1.2.5 linspace 均匀分布的数组1.3 改变ndarray的形状2 ndarray 的算术运算3 简单绘图4 数组的访问和切片5 数组的合并和切片6 unique 去重numpy提供了跑一趟鸿对多维数组对象的支持:ndarray

2021-09-08 16:24:19 173

原创 使用crawlspider实现页面的提取+案例

CrawlSpider是Scrapy提供的一个通用Spider。在Spider里,我们可以指定一些爬取规则来实现页面的提取,这些爬取规则由一个专门的数据结构Rule表示。Rule里包含提取和跟进页面的配置,Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要用哪个方法解析等。1.CrawlSpider的基本工作原理CrawlSpider的基本工作原理和BasicSpider雷同。不同点在于获取响应对象后,通过链接提取器LinkExtractor获取请求链接,如果提取

2021-06-04 21:20:32 475 4

原创 Scrapy + 案例

学了 scrapy却不会用???那我们就直接来一个案例来仔细讲解一下,步骤是怎么样的。这个例子是前不久一个学妹的作业。我拿来写写博客哈哈哈哈哈。对了 我用的Pycharm例子是爬取人邮教育区里面的书籍。老步骤一、创建爬虫项目打开终端书写 scrapy startproject book1spider要是创建文件之后,忘记了下一步 时不要慌,终端会给我们一个提示,按照提示来,接下来一步 切换刀爬虫项目的目录下,然后再创建一个爬虫文件。二、创建爬虫文件还是在终端输入scrapy gen

2021-06-04 17:55:10 531 1

原创 scrapy入门

为什么要用Scrapy ???有selenium还不够吗? 不够!我们知道无论是静态网页的爬取还是动态网页的爬取。大致思路都是 获取网页的html代码、解析、保存输出。在我们编写这些代码的时候虽然都是已经封装成函数了。但是难免有一些些懒惰的同学不想写(绝对不是我 ????)。所以我们使用scrapy就可以很好的解决这些问题了。让我们陶醉于解析的过程当中。减少我们的工作量,缓解我们的焦虑,拯救我们的头发哈哈哈哈。scrapy的基本使用方法一、创建爬虫项目在终端输入scrapy startproj

2021-06-01 20:06:47 359 2

原创 Scrapy安装(windows)

你以为只要学了selenium就可以了? scrapy简直神来之笔好吗!用一句y总的话:安装ScrapyScrapy是一个python爬虫的一个框架。使用框架写爬虫可以减少代码的编写,提升爬取的效率。由于pip安装会自动安装scrapy爬虫框架依赖的各种包,安装速度较慢,出错概率较大,建议增加-i参数,使用清华镜像安装。pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple在prompt中输入scrapy即可验证是否安装成功。

2021-06-01 16:26:23 154

原创 动态网页 —— 案例: 爬取qq邮箱

其实在前一张博客动态网页——selenium+案例 中已经简单的爬过一遍qq邮箱了。本次呢是在上一次的代码上再完善一下啊。其实我们很多习惯是养成了的,比如说我们很多人都是打开电脑后会立即登录自己的qq或者微信。反正我是这样???? 甚至很多都是设置了的自动登录。我没有!我怕忘记密码???? 。所以这次的爬取QQ邮箱,我们会考虑到,如果我们已经登录了qq。因为如果已经登录了,就不会自动跳转到输入账号和密码的界面,而是这个所以我们就来改动一下吧!通常出现已有账号登录的情况,我们是直接点击我们的头像

2021-05-19 16:50:35 10013 2

原创 动态网页 —— selenium+案例

在上一次博客动态网页——selenium基础中我们在最后有提到frame的窗口切换,但是并没有细讲,所以今天就是用selenium来爬取一个qq邮箱,详细讲解selenium库@中frame的运用。1、使用selenium总是出现定位错误?很多人在动态网页爬取的时候使用selenium库的时候会遇到这种错误,可是反复检查网页源代码,发现元素明明就在那里,用firebug也可以看到 ,但是就是不可以去定位它,这个时候我们就要考虑一下我们的窗口有没有切换了!因为webDriver只能在一个页面上对元

2021-05-18 20:16:27 920 1

原创 动态网页 -- selenium基础

对于一些简单的动态网页,可以使用我们之前提起过的逆向分析法之前写过动态网页的逆向分析法。但是有一些网站非常复杂,如天猫产品评论,使用逆向分析法很难找到请求的url地址。除此之外,有些网站对爬虫非常不友好,会对地址和数据进行加密,分析起来异常困难,如QQ邮箱、百度登录等。因此,这里介绍另一种方法,即使用浏览器渲染引擎。这个方法在爬取过程中会打开一个浏览器加载该网页,自动操作浏览器浏览各个网页。用一句简单而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页。我们可以用Python的Selen

2021-05-14 18:07:52 7729 18

原创 动态网页 —— 逆向分析法 + 案例

引入 : 本章主要讲解的是动态网页爬取的相关技术。动态网页的爬取呢,主要有逆向分析法和模拟法。我们今天主要介绍逆向分析法,后面会重点介绍模拟法中selenium库的使用。动态网页一、动态网页概述1.1 什么是动态网页动态网页是基本的html语法规范与Python、Java、C#等高级程序设计语言、数据库编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因此,从这个意义上来讲,凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页

2021-05-10 17:45:32 12026 16

原创 爬取豆瓣网新书传递信息,关系型数据库的储存

爬取豆瓣网新书传递信息,数据保存到数据库中。爬取信息包括书名、评分、作者、出版社、出版时间、图书介绍。豆瓣图书新书速递的网址为需要爬取的网页地址–点击一、实例首先我们要做的事情,是打开网页,用F12观察结构发现该该网页没有分页,只有左右两个div盒子,但是按照以前的爬取方法,我们只能爬取一个div,那么这次的解决方法是什么呢?是要分开爬取?还是有其他的解决方法,就接着往下看吧!这次解析网页是使用的xpath。1,得到网页 ——get_htmldef get_html(url,heade

2021-04-23 18:19:10 554 3

原创 PYTHON : 二进制 、 八进制 、十六进制的转换和输出

PYTHON : 二进制 、 八进制 、十六进制的转换和输出十进制转换成其他进制保存为文本串二进制 bIn()八进制 oct()十六进制 hex()不输出前缀 使用format函数如果不想输出进制前面的 前缀符号 , 这时我们就要使用format函数在这里我们要注意 , 二进制和八进制 的再format里的 符号是‘b’,‘o’ 而十六进制format 里的符号就不再是‘h’ 而是**‘x’**。当然如果是要输入的是负数,输出结果前也是会返回一个负号的。如果要产生一个

2021-04-11 15:21:04 15028 1

原创 数据库的创建与管理

第八章 表数据的创建与维护 •6.3数据库的管理(1)查看数据库我们查看已存在且命名了的数据库用“SHOW DATABASES”(2) 查看表 我们使用“use 数据库名 show tables”通过本章学习,掌握数据库的创建以及数据表的基本操作,了解数据完整性的概念和作用,能够实现完整性约束 。MySQL 表结构的管理查看表结构的语句包括‘describe’ 和“show create table”通过这两个语句可以看到 表的字段名 字段的数据类型 ,完整性约束条件。【1】查看表基本结构

2021-03-26 18:01:48 205 1

原创 快速排序

快速排序#快速排序def quick_sort(alist , first=0 ,last=None): if last is None: last = len(alist) - 1 if first >= last: return mid_val = alist[first] low=first high = last while low < high: while low < hig

2021-03-22 21:51:09 62 1

原创 JAVA 程序设计基础过关题库(50道)

程序设计基础过关题库(50道)<说明>难易程度依次为:易(7道)、较易(14道)、较难(13道)、难(9道)、很难(7道)一、顺序结构1、 编程实现两个整数交换位置,例如:int x = 6,y = 9,交换后 x = 9,y = 6。(易)2、 将华氏温度转化成摄氏温度。公式为:C=(5/9)*(F-32),其中F为华氏温度,C为摄氏温度。请根据给定的华氏温度输出对应的摄氏温度。(易)package javaFirst_1;public class JavaFirst_1

2021-03-21 17:03:15 5503 3

原创 动态网页的爬取

动态抓取在开始爬取动态网页之前吗,我们还需要了解一种更新的技术——AJAX(Asynchronous Javascript And XML,异步JavaScript和XML)。它的价值在于通过再后台与服务器进行少量数据交换就可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。一方面减少了网页重复内容的下载,另一方面节省了流量,因此它得到了广泛的应用。如果使用AJAX加载的动态网页,怎么爬取里面动态加载的内容呢?有两种方法:(1)通过浏览器审查元素解析地址(2)通过

2021-02-13 13:28:02 298 1

原创 爬虫——requests(Requests爬虫实践:TOP250电影数据)

简单的爬取import requestsr=requests.get("http://www.baidu.com")r.status_coder.encoding="utf-8"r.textstatus_code : 响应状态码,若是200 则表示链接成功,返回的是4xx则表示是客户端错误,返回的是5XX则表示服务器错误补充说明:所以呢,普通 的网页爬取 就是这么个代码 ,但是要关键字提交或是图片的爬取,归属地的自动查询都是要在reuqests的使用基础上,在添加其他的代码,后面我们会

2021-02-12 21:39:05 258 2

原创 学生管理系统链接mysql

学生管理系统链接mysql:import jsonmenu = "================================学生管理系统==========================================\n" \ "================================1.添加学生信息========================================\n" \ "================================2

2021-02-12 20:27:04 274

原创 三国演义词云

2020-12-19 10:37:23 323 4

原创 dw 案例

效果图代码

2020-12-15 21:03:12 446

原创 盒子模型

关于盒子模型的案例以下有关于它的边框 和一些其他的改变的也有关于阴影的设置

2020-12-15 20:25:03 115

原创 用户注册代码dw

我们来开始写一个简单版再来看稍微精致一点的版本

2020-12-14 15:47:34 2317 2

原创 表格的应用

然后 我们加上一些表格的属性它的效果图ok 我们来做一个受业员业务统计表要求的要过图 如下为了使图片更加明确 所以我使用的颜色可能比较有对比性

2020-12-14 14:53:38 60

原创 div 简单应用

效果图

2020-12-14 12:21:15 424

原创 制作一个浏览器导航

ok我们来把这几个简单的加上超链接 这里我们没有用到链接本站点的其他html

2020-12-14 11:46:55 194

原创 CSS的布局与定位----盒子模型

CSS的布局与定位----盒子模型描述格式宽width边框border圆角border-radius高height内边距padding外边距margin为了更够直观的观察到盒子模型的属性值,我们画出了一下图来描述这些属性苏哟表达的意思。更加直观的知道margin是外边距,而padding是描述内边距的也是,content是文本内容。height和width就更不用说了一眼望去就是指的高和宽。这样也帮助了我们的记忆。我们所了解的这些

2020-11-09 11:38:34 132

原创 CSS的基本属性

CSS的基本属性颜色文本属性背景属性列表属性超链接属性表格属性前几天我们也了解了一些Dreamweaver 的一些文本,列表等一些相关代码,可以建立一些大体框架,那么我们今天就来普及一下相关的属性知识。1、颜色颜色描述red,blue,green直接输入对应颜色的英文名,当然局限性就是可用颜色略微有点少rgb(x,x,x)rgb值,每个颜色分量取值0-255,其中红色rgb(255,0,0)灰色rgb(66,66,66)ragb(x%,x%,x%)

2020-10-30 02:11:07 207

原创 如何用dw编写一个网页注册:

如何用dw编写一个网页注册:代码:<!doctype html><html><head><meta charset="utf-8"><title>无标题文档</title><style type="text/css"> ul li{ text-indent: 3em; line-height:2em; } ul li{ list-style-type: none; list-style

2020-10-28 00:01:55 4894

原创 CSS选择器

CSS选择器????,朋友们,前几天咱们学了如和改变字体颜色等一些标签属性操作,可是当我们有很多代码的时候岂不是需要一点点的增加没一个的属性,这样不仅会增加我们的工作量,且错误率高,出错后还不易修改,那要如何减小工作量,增大效益呢,今天咱们就来学学CSS选择器。1,标签选择器格式:在这里插入代码片<head> <style type="text/scc"> //标签名+{属性内容} p{ color:red; } </style>&l

2020-10-27 23:57:45 575

原创 ## CSS的引用方法及应用

CSS的引用方法及应用主要分为一下三种样式:内联样式外部样式导入样式其实多种样式可以层叠,可以覆盖,样式的优先级遵循‘就近原则’;行内样式>内嵌样式>外联样式>浏览器默认样式ok,接下来我们依次介绍各种样式。一,内联样式格式:<p style="color.red">请输入内容</p>运行结果:对,可以知道style=“color:red” 是对我们所输入内容的颜色改变,当然接下来我们会学习修改大小,字体等其他操作。这里的主要内容是

2020-10-19 14:28:34 248

原创 表单的应用

表单的应用表单元素有 :文本框,按钮,单选,复选,下拉列表,文本域目录input的应用文本域textarea的应用下拉列表(select)+拉下选项(option)的应用<form action='数据处理网页' name="名称" method="数据传递方式"> 表单元素</form>action属性:用于设定表单独数据处理程序url的地址。如:http://localhost/test.aspmethod属性:用来定义数据传递到服务器的方式。有四种

2020-10-18 21:58:19 985

原创 SQL通用查询

SQL通用查询格式select [all|distinct][from 表名 [,表名]...][where 子句][group by 子句][having 子句][order by 子句][limit 子句][where 子句]:这里表示要查询的条件,没有where则表示查询全部。主要应用有[between a and b]/[a like ‘b’]/[a is b]。group by 子句]:用于对查询结果分组order by 子句]:用于对查询结果排序,后面跟属性名,指定排序的依据。

2020-10-18 00:30:20 457

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除