• 等级
  • 76613 访问
  • 137 原创
  • 15 转发
  • 26266 排名
  • 20 评论
  • 72 获赞

Linux用户管理和文件权限

Linux是一个多用户多任务的系统,可以支持多个用户接入使用,如果给你一个Linux系统,你创建了很多用户,意义并不大,一般是一些文件需要给几个用户使用,但其他用户无法使用的时候会创建多个用户,然后给用户赋予不同的访问次文件的权限。 任何权限在root用户面前都是形同虚设的。 煮个栗子: 公司有一台服务器供两个部门使用,这两个部门的资料肯定是相互隔离的,所以在这台服务器上给两个部门分别创建一个用户...

2019-01-16 23:37:24

Python爬虫之(九)数据提取-XPath

介绍 之前 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath w3c http://www.w3school.com.cn/xpath/index.asp 安装 pip install lxml XPa...

2019-01-13 15:47:02

Python爬虫之(八)数据提取-Beautiful Soup

Beautiful Soup的简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,...

2019-01-13 11:35:32

Python爬虫之(七)数据提取-正则表达式

提取数据 在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样...

2019-01-13 10:41:53

Python爬虫之(六)requests库的用法

介绍 对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 安装 pip install requests 基本请求 req = requests.get("http://www.baidu.com") req = requests.post("http://www.bai...

2019-01-11 21:51:44

Python爬虫之(五)Cookie和URLError

Cookie 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了 煮个栗子: from urllib.request import Re...

2019-01-11 21:18:10

Python爬虫之(四)urllib库的高级用法

伪装自己 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作 设置请求头 其中User-Agent代表用的哪个请求的浏览器 from urllib.request import urlopen from urllib.request import Request url = 'http://www.server.com/login...

2018-12-30 16:17:20

Python爬虫之(三)urllib库

第一个爬虫程序 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来 from urllib.request imp...

2018-12-30 00:15:18

Python爬虫之(二)工具的使用

常用的工具 python pycharm 浏览器 chrome 火狐 fiddler fiddler的使用 操作界面 界面含义 请求 (Request) 部分详解 名称 含义 Headers 显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等 Textview 显示 POST 请求...

2018-12-29 21:11:17

Python爬虫之(一):爬虫简介

什么是爬虫 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。 作用 通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的...

2018-12-29 20:03:56

Shell脚本编程之(七)Shell脚本的追踪与debug

scripts 在执行之前,最怕的就是出现语法错误的问题了!那么我们如何 debug 呢?有没有办法不需要透过直接执行该 scripts 就可以来判断是否有问题呢?呵呵!当然是有的!我们就直接以 bash 的相关参数来进行判断吧! [root@node01 ~]$ sh [- - nvx] scripts.sh 选项与参数: -n :不要执行 script,仅查询语法的问题; -v :再执行 s...

2018-12-23 22:03:19

Shell脚本编程之(六)循环

while do done, until do done ( 不定循环) 一般来说,不定循环最常见的就是底下这两种状态了: while [ condition ] <==中括号内的状态就是判断式 do <==do 是循环的开始! 程序段落 done <==done 是循环的结束 while 的中文是『当…时』,所以,这种方式说的是『当 condition 条件成立时,就进行循...

2018-12-23 21:58:35

Shell脚本编程之(五)条件判断式

利用 if … then 单层、简单条件判断式 if [ 条件判断式 ]; then 当条件判断式成立时,可以进行的指令工作内容; fi <==将 if 反过来写,就成为 fi 啦!结束 if 之意! 注意:[]的使用注意事项 可以有多个中括号来隔开喔!而括号与括号之间,则以 && 或 || 来隔开,他们的意义是: && 代表 AND || 代表 or ...

2018-12-23 21:38:45

Shell脚本编程之(四)善用判断式

前言 在了解判断式之前,先简单的了解几个数据流重定向(今后会详细整理这一块的知识)的命令执行判断依据 ; cmd ; cmd ( 不考虑指令相关性的连续指令下达) 在指令与指令中间利用分号 (;)来隔开,这样一来,分号前的指令执行完后就会立刻接着执行后面的指令了 && cmd1 && cmd2 1. 若 cmd1 执行完毕且正确执行($?=0)...

2018-12-23 17:57:03

Shell脚本编程之(三)执行方式差异(source, sh script, ./script)

利用直接方式或bash执行 该 脚本 都会使用一个新的 bash 环境来执行脚本内的指令!也就是说,使用这种执行方式时, 其实 script 是在子程序的 bash 内执行的 知识点 当子程序完成后,在子程序内的各项变量或动作将会结束而不会传回到父程序中 这句话是啥意思呢?煮个栗子 我们前面提到过的 showname.sh这个脚本来说明好了,这个脚本可以让用户自行设定两个变量,分别是 firs...

2018-12-23 15:49:10

Shell脚本编程之(二)简单的Shell脚本练习

练习题1:交互式脚本(用户决定变量内容) 代码 [root@node01 bin]$ vim showname.sh #!/bin/bash # Program: # User inputs his first name and last name. Program shows his full name. # History: # 2018/22/23 Rivers First re...

2018-12-23 12:11:12

Shell脚本编程之(一)Shell脚本简介

什么是Shell脚本 shell script 是利用 shell 的功能所写的一个『程序 (program)』,这个程序是使用纯文本文件,将一些 shell 的语法与指令(含外部指令)写在里面, 搭配正则表达式、管线命令与数据流重导向等功能,以达到我们所想要的处理目的 shell script 可以简单的被看成是批处理文件, 也可以被说成是一个程序语言,且这个程序语言由于都是利用 shell ...

2018-12-22 18:19:40

Spark On Hive配置

查看Spark集群的搭建 Spark On Hive 配置步骤 在Spark客户端安装包下的conf目录中创建文件hive-site.xml,配置hive的metastore路径 <configuration> <property> <name>hive.metastore.uris</name> <v...

2018-12-21 10:16:07

PyCharm中导入数据分析库

虽然安装完Anaconda后,就可以直接使用数据分析库进行代码编写以及数据分析,但是有时候我还是习惯用PyCharm开发(毕竟有很多年的Android Studio 和IDEA的使用经验),如何在PyCharm中导入常用的数据分析库呢? (1)打开PyCharm,选择左下角的Terminal,更新pip python -m pip install -U pip (2)安装各种库命令 python...

2018-12-16 21:00:51

重要的Python数据分析库

NumPy NumPy(Numerical Python的简称)是Python科学计算的基础包。它提供了以下功能(不限于此): (1)快速有效的多维数组对象ndarray。 (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数。 (3)用于读写硬盘上基于数组的数据集的工具。 (4)线性代数运算、傅里叶变换,以及随机数生成。 (5)成熟的C API, 用于Python插件和原生C、C++、...

2018-12-16 20:37:18

RxWorld

专注研究IT行业中
关注
  • 计算机软件/IT
  • 中国 北京 西城区
奖章
  • 持之以恒