自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 阿里云服务器搭建Hadoop环境以及Hive搭建

其他参见大数据开发系列(一)----Hadoop集群环境配置1、配置阿里云服务器时,需要将所有的节点的内网、外网添加至linux的hosts文件中:172.22.234.35 xiaoye11123.57.76.16 xiaoye11172.46.54.58 xiaoye12101.20.27.135 xiaoye12172.30.31.16 xiaoye1539.15.24.124 xiaoye152、配置阿里云服务器,只需要修改worke...

2021-09-06 00:43:34 622 1

原创 大数据开发系列(五)----yarn 生产环境核心参数配置

yarn 生产环境核心参数配置,yarn作为hadoop的资源分配和调度的基础组件,组件基础:1、ResourceManager相关yarn.resourcemanager.scheduler.class #配置调度器,apache yarn默认容量调度器,CDH默认公平调度器yarn.resourcemanager.scheduler.client.thread-count # ResourceManager处理调度器请求的现场数量,默认502、NodeManager相关y...

2021-08-20 14:15:55 1306

原创 大数据开发系列(六)----Hive3.0.0安装配置以及Mysql5.7安装配置

一、Hive3.0.0安装配置: (Hive3.1.2有BUG)hadoop3.1.2Hive各个版本下载地址: http://archive.apache.org/dist/hive/,这里我们下载hive 3.0.01、解压:tar -xzvf apache-hive-3.0.0-bin.tar.gz -C /usr/lib/JDK_2021cd /usr/lib/JDK_20212.改名称.将解压以后的文件夹改名称命令: mv apa...

2021-08-20 14:12:30 508

原创 大数据开发系列(四)----HDFS的增删改查代码

package com.xiaoye.hdfsTest;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Before;import org.junit.Test;import java.io.IO.

2021-08-14 21:59:18 176

原创 大数据开发系列(三)----HDFS的Intellij IDEA(API)配置,以及Maven项目创建流程

hadoop路径:cd /usr/lib/JDK_2021/hadoop-3.1.2/hadoop下载链接:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz配置Windows的hadoop环境存放路径 F:\hadoop_2021\Windows_Hadoop_API\hadoop-3.1.2一、在win10系统的本地进行hadoop3.1.2环境配置:1.下载hadoop-3.

2021-08-14 20:36:59 266

原创 大数据开发系列(二)----HDFS的Shell相关操作

在hadoop创建文件夹:查看命令:hadoop fs在hadoop上创建文件夹命令:hadoop fs -mkdir /sanguohadoop fs -mkdir /File_Save查看hadoop目录文件文件命令:hadoop fs -ls /hadoop fs -ls /File_Save把本地文件上传到hadoop(已存在的文件不会覆盖)hadoop fs -put ./weiguo.txt /sanguo把本地文件复制到hadoo...

2021-08-14 20:26:56 109

原创 大数据开发系列(一)----Hadoop集群环境配置

http://www.bubuko.com/infodetail-3137033.htmlcd 1、/ 代表根目录2、. 当前目录3、.. 上级目录4、~ 当前用户的默认工作目录/.. /. 直接返回根目录安装Linux教程:参考: https://www.cnblogs.com/frankdeng/p/9027037.html VMnet1对应仅主机模式 VMnet8对应NAT模式以 VMnet8的IP作为基础进入root模式才能修改进入root命令...

2021-08-09 23:10:31 281

原创 JS逆向基础教程(一):某道词典JS解密(扣全部JS代码最新2020年8月12日)

一、先试着英汉翻译一波:1.按F12打开调试台,再点击Network,再点击Headers,可以找到i=good,这就是我们刚才输入需要翻译的词语good,from Data中的就是请求的参数,分别为:i: good from: AUTOto: AUTOsmartresult: dictclient: fanyideskwebsalt: 15972332870677sign: 3a078c10344e67f95822ae9389e1363flts: 15972332...

2020-08-12 23:21:16 989

转载 某道词典最新JS解密(一)(2020年8月)

絮叨一下前个爬了boss直聘,感觉这些大网站的反爬总是有办法安排的,不要望而生畏,又想到即将面临毕业,论文是个大问题,便想到一招进行翻译,然后实现将重的功能,于是今个就安排了有道翻译一波。分析有道主页打开F12进行抓包就会发现http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule这个才是真正的请求地址既然是post请求看一下发送了什么数据然后刷新,输入新的内容对比一下发现这四...

2020-08-12 19:44:42 361

原创 PIP库下载主要网站

https://www.lfd.uci.edu/~gohlke/pythonlibs/https://pypi.org

2020-07-16 18:01:31 1882

原创 1.3数据分析之----Pandas

import pandas as pd from numpy import nan as NA # 导入惯例#注意axis和how参数的用法。df = pd.DataFrame([[1, 6.5, 3],[1, NA, NA],[NA, NA, NA],[NA, 6.5,3]],index=[10,20,30,40],columns=['a','b','c'])df ...

2020-05-01 01:04:40 187

原创 1.2数据分析之---pandas

data={ 'num':[10,11,12,13,14,15,16], 'name':['lili','wangyi','xiaoxiao','xiaoye','yangyang','zhouyang','wangli'], 'age':[25,20,28,23,25,30,32], 'address':['北京','上海','北京','上海','北京','上海'...

2020-04-30 20:59:58 167

原创 1.1数据分析之------pandas

import pandas as pda=[1,4,7,9]s=pd.Series(a)s0 11 42 73 9dtype: int64s.dtypesdtype('int64')s.valuesarray([1, 4, 7, 9], dtype=int64)#修改索引a=[1,4,7,9]index=['a','b','c...

2020-04-30 20:53:17 231

原创 Anaconda更改为国内更新源

conda更改为国内更新源conda安装好之后,默认的镜像是官方的。由于官网的镜像在境外,访问太慢或者不能访问,为了能够加快访问的速度,更改为国内镜像源。终端中运行命令:(1)清华源(TUNA)conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config -...

2020-02-15 15:41:18 1024

原创 (七)Python爬虫------有道翻译JS(JavaScript)参数分析,实现在线实时翻译(2020年1月16日)

最近工作有点忙,也就没有太多时间去学习Python爬虫,感觉身体好累,可能是想偷懒了吧!不说那么多了,回归本源,学习,搞起!!今天爬取有道翻译词典数据,实现一个小小的在线实时翻译功能,那就开始干!有道翻译官方网站:http://fanyi.youdao.com/一、抓包分析,有道翻译是否是通过JS文件加载的数据1.在有道中不输入任何关键字时,打开谷歌浏览器的开发者工具(按F12),...

2020-01-16 06:38:14 1547 1

原创 (六)Python爬虫------使用Scrapy库简单爬取天气网城市天气预报信息,并使用MySQL数据库保存数据

一、使用Scrapy库做爬虫项目,前提是已经安装好了Scrapy库,没有没有安装,请查看我前几天的Scrapy库pip离线安装方法。1.在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目:scrapy startproject PythonScrapyWeather (PythonScrapyWea...

2020-01-13 04:22:45 2533

原创 windows下使用pip离线安装Scrapy库(只能这样做)

Scrapy库不能直接使用 pip install 库名 安装,我们只能选择离线方式安装Scrapy一、先windows环境下永久修改pip镜像源,加速下载安装速度,因为下载的依赖库数量较多,需要网速保障,但是国外的网站响应速度实在不敢恭维。已经修改pip镜像源的,可忽略(1):在windows文件管理器中,输入%APPDATA%(2):会定位到一个新的目录下,在该目录下新建pi...

2020-01-13 03:02:41 2434 1

转载 20个正则表达式,能让你少写1,000行代码

正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码:var reg = /^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/; ...

2020-01-12 12:13:42 144

原创 (五)基于Python面向对象使用自动化工具Selenium+Xpath爬取京东商品(手机)列表

一、准备工作1.安装selenium类库:2种方法可供选择(1)提前条件是已经安装好了Python,直接进入cmd命令行,输入python -m pip install selenium指令,就可以自动安装selenium(2)或者已经安装好了pip,直接进入cmd命令行,输入pip install selenium,就可以自动安装selenium2.检查Selenium是否安装成...

2020-01-07 03:25:30 635

原创 (四)基于Python面向对象简单爬虫Ajax数据爬取---今日头条图片数据

一、Ajax简介Ajax = 异步JavaScript和 XML 或者是 HTML(标准通用标记语言的子集)。Ajax 是一种用于创建快速动态网页的技术。Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。二,基本库import requests#构...

2020-01-05 08:55:04 524

原创 (三)python(基于面向对象)使用Requests+Xpath提取HTML内容(妹子网MM图片)

xpath获取标签对本身含内容, 获取html内容 之前一直使用BeautifulSoup(bs4)HTML标签内容,但是后面通过使用对比,当我们使用 html.parser 作为解析器时,BeautifulSoup 解析的耗时平均是 Xpath 的 1.8 倍+;当我们使用 lxml 作为解析器时,BeautifulSoup 解析的耗时虽有减少,但平均仍是 Xpath 的 1.5...

2019-12-28 03:09:58 699

原创 windows环境下永久修改pip镜像或者easy_install源的方法

(1):在windows文件管理器中,输入%APPDATA%(2):会定位到一个新的目录下,在该目录下新建pip文件夹,然后到pip文件夹里面去新建个pip.ini文件(3):在新建的pip.ini文件中输入以下内容:(http://pypi.douban.com/simple为pip豆瓣镜像更新源)[global]timeout = 6000index-url = http...

2019-12-25 05:34:13 887

翻译 Windows下Mysql 8.0.17忘记root密码(重置密码)方法

Windows下Mysql 8.0.17忘记root密码(重置密码)方法1.打开第一个命令窗口cmd,输入命令 net stop mysql,停止MySQL服务,再输入命令mysqld --console --skip-grant-tables --shared-memory,开启跳过密码验证登录的MySQL服务 2.再打开另一个命令窗口cmd,输入登录命令 mys...

2019-12-24 01:58:28 1261 2

原创 (二)python基于面向对象爬取开车吧的秀人模块MM图片

爬取图片网站:http://www.kckckc.net/秀人网需要用到的库有:import requestsfrom bs4 import BeautifulSoupimport reimport stringfrom urllib.parse import quoteimport sys编写python代码实现爬取import requestsfrom...

2019-12-23 08:01:52 14549

转载 Pycharm配置环境及安装第三方库

对于学习Python的新手小白来说,Pycharm的基本配置还是有点难度的,特别是配置Python环境和安装第三方库。这里给出一些我个人的配置习惯和心得,对Pycharm不熟悉的小白同学可以作为参考,快速完成自己的配置,早点撸代码。需要说明的是,我这里使用的Pycharm没有进行汉化,建议大家也不要进行汉化,让自己慢慢熟悉英文环境,也不是一件坏事。一、配置Python环境配置Py...

2019-12-09 02:19:21 796

原创 windows下pip的安装

前提是得先安装了python噢一、首先安装setuptool:https://pypi.org/project/setuptools/#files 从该网址下载zip,并解压;打开cmd,cd到解压目录,运行命令:python setup.py install二、接下来安装pip:https://pypi.org/project/pip/#files该网址下载tar文...

2019-12-09 02:16:09 129

hadoop配置.txt

hadoop详细配置

2021-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除