自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 CDH环境搭建遇到问题

问题描述:启动agent时失败,检查日志文件,发现如下 /opt/cloudera-manager/cm-5.3.8/lib64/cmf/agent/build/env/bin/python: error while loading shared libraries: libpython2.4.so.1.0: cannot open shared object file: No such f...

2018-07-11 16:02:42 894

原创 Kafka篇

Kafka介绍 百度介绍   Kafka是一种高吞吐量的分布式发布订阅消息系统,它可>以处理消费者规模的网站中的所有动作流数据。自我理解 kafka 消息中间件 mq 消息队列:一种应用程序对应用程序的通信方法。核心思想 publish&subscribe(发行和订阅:即生产消费者模式)重...

2018-03-26 17:26:36 231

原创 网络爬虫及scrapy爬虫框架介绍

爬虫介绍 爬虫介绍 无人值守的自动下载网页内容的手段,只要支持TCP网络编程的所有语言都可以实现爬虫 python爬虫火的原因 代码少。框架丰富,语法简洁 爬虫在技术上怎么实现 1:tcp能够连接–http 2:以流的形式读取并保存 产生爬虫框架的原因 tcp能够连接 问题1.由于有些服务端设置了请求头部的校验 问题2.有些页面的...

2018-03-26 17:24:57 342

原创 flume篇

flume介绍 日志数据收集器flume使用步骤 定义source,channel(通道),sink(转存的位置) 启动agent 如果有数据,就已经开始接受转存了 flume运行机理flume type介绍 source type Avro, Exec, Jms, Spooling directory, Ne...

2018-02-27 16:34:19 192

原创 Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、SparkSQL

spark中起到driver和worker之间的桥梁的是?SparkContext sc 组织rdd之间依赖关系划分stage的是 DAGSchedule 管理taskSet的是? TaskSchedule 说出rdd中多台机上(worker)上执行的懒算子(变换) map flatMap join(两个rdd数据加一起) groupByKey redu...

2017-12-23 16:15:53 595

原创 PySpark统计字母出现次数的平均值,及利用IPython (Jupyter) Notebook统计datas.csv数据

spark: 步骤: 1.start-dfs.sh 2.pyspark 3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('d',9),('c',7),('d',6)] 4.求出每个字母后面数字出现的平均值

2017-12-23 16:02:14 4614

原创 Spark简介及其生态圈及Spark-core运行机理

hdfs:hadoop分布式系统 spark主要使用了hadoop中hdfs1 spark 用什么语言实现的? Spark使用Scala语言进行实现,Scala 建立在JAVA之上 scala:是一个多范式编程语言,学习难度大于Java、python.语法灵活简单 pyspark:使用python语言进行实现。python的函数库非常丰富,后期便于学习ML(机器学习)。2.

2017-12-23 15:14:10 378

原创 使用scala,python完成统计数据demo

环境变量修改为: export JAVA_HOME=/home/hadoop/opt/jdk1.8.0_152export PATH=PATH:PATH:JAVA_HOME/binexport HADOOP_HOME=/home/hadoop/opt/hadoop-2.9.0export HADOOP_CONF_DIR=/home/hadoop/opt/hadoop-2.9.0/etc/hadoo

2017-12-16 15:17:28 521

原创 CentOs7搭建hadoop集群(伪分布式)下

在yarn-site.xml新增 ` <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> ` 开启服务:`start-yarn

2017-12-15 20:13:04 302

原创 CentOs7搭建hadoop集群(伪分布式)上

运行环境:CentOs7 所需工具:VMWare12,XShell(连接虚拟机),XFtp(文件传输) 所需Jar包:jdk-9.0.1_linux-x64_bin.tar.gz,hadoop-2.9.0.tar.gz,spark-2.2.1-bin-hadoop2.7.tgz 略过CentOs7安装,注意!虚拟机ip需要和VMnet8处在同一网关,网络建议为:NAT连接 ———将以上工作完

2017-12-15 20:00:31 421 1

原创 简述大数据

大数据:学术解释:满足以下四个特征的数据: Volume(大量) Velocity(高速) Variety(多样) Veracity(价值)自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE相应的实现技术:HDFS、MapReduce HDFS:解决大文件如何存储?如何快速的读写?如何容错

2017-12-15 19:35:44 586

原创 简单操作play框架

play简介: play framework是一个full-stack(全栈的)Java Web的应用框架,包括一个简单的无状态MVC模型,具有Hibernate的对象持续,一个基于Groovy的模板引擎,以及建立一个现代Web应用所需的所有东西。play安装及使用我们将已经下载的play框架的安装包解压在D:\Play框架 进入解压好的文件夹D:\Play框架\play-1.4.5,

2017-12-04 11:51:27 718

原创 Django中使用easyui

---Django中使用easyui1.我们在上一篇的demo基础上,新建easyui目录,并将easyui的有关支持(locale包、themes包、jquery.easyui.min.js、jquery.min.js)放该目录下2.修改goods.html先引用easyui目录下所需的js、css(注意!jquery.min.js需在jquery.easyui.

2017-11-16 17:26:02 1777

原创 Django访问静态资源及连接mysql数据库(反向生成表)

---Django项目中一般不允许存在静态资源,我们为了演示。特做了一个小demo---demo结构为:其中static为静态资源存放的目录,goods为新生成的application(点击Tools中的run manager.py,输入startapp goods)-----Django访问静态资源首先我们在static中建一个goods.html---set

2017-11-16 16:09:05 528 1

原创 Nginx+Redis+Tomcat7

------Nginx的介绍Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。反向代理:在计算机世界里,由于单个服务器的处理客户端(用户)请求能力有一个极限,当用户的接入请求蜂拥而入时,会造成服务器忙不过来的局面,可以使用多个服务器来共同分担成千上万的用户请求,这些服务器提供相同的服务,对于用户来说,根本感觉不

2017-11-11 21:05:21 339

原创 Django

----认识Django:                   Django是一个开放源代码的webMVC框架                   M:entity framework                   V:view.py                   C:urls.py                  -------一览Django结构:

2017-11-05 23:01:07 248

原创 正则

正则对数据处理,数据分析,数据校验方面十分有用。让我们来学习下python中的正则模块吧---------------------分割线---------------------python中正则模块re(regex的意思)常用的模式:      .匹配任意字符,除了换行符     \s一个空格    \S一个非空格    \d表示一个数字    \D表

2017-11-05 22:31:19 185

原创 Python Mysql

我们来学习一下python如何操作Mysql数据库首先,我们需要下载PyMySQL模块,利用PIP命令:pip install PyMySQLok..,让我们开始操作数据库吧-----------------------华丽的分割线-----------------------------操作grade表(新增,删除)-----impor

2017-11-03 12:58:53 220

原创 Scoket网络编程(python/Java版)

'''网络:计算机与计算机之间的通信      协议:          TCP:可靠,有状态,长连接的协议(具有应答机制)              主叫方     被叫方                         服务套接字(socket)              客户套接字       ==           客户套接字          UDP

2017-11-02 21:03:38 418

原创 Python3中有关TK模块

GUI中Tkinter详细介绍Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。由于 Tkinter 是内置到 python 的安装包中、只要安装好 Python 之后就能 import Tkinter 库、而且 IDLE 也是用 Tkinter 编写而成、对于简单的图形界面 Tkinter 还是

2017-10-30 23:18:20 6500

原创 Redis及如何在Java中使用Redis

Redis 简介Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key – value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,

2017-10-30 23:05:06 1886 1

原创 python多线程

学习Python线程:Python3 线程中常用的两个模块为: _thread threading(推荐使用) thread 模块已被废弃。用户可以使用 threading 模块代替。所以,在 Python3 中不能再使用”thread” 模块。为了兼容性,Python3 将 thread 重命名为 “_thread”。Python中使用线程有两种方式:函数或者用类来包

2017-10-11 21:12:18 213

原创 迭代器与生成器

迭代器(iterator)iterator: 迭代器对象,也属于python的名词,只能迭代一次。需要满足如下的迭代器协议定义了__iter__方法,但是必须返回自身定义了next方法,在python3.x是__next__。用来返回下一个值,并且当没有数据了,抛出StopIteration可以保持当前的状态自定义iterator 与数据分离说到这里,迭

2017-10-09 12:58:52 198

原创 mycmd Demo

import osimport shutilimport timecurrPath=os.path.dirname(os.path.abspath(__file__))#动态获取当前路径n=currPathdef help(cmd=None): if cmd is None or len(cmd)==0: with open(n+'\help

2017-10-05 10:26:57 332

原创 自定义异常(Java/python版)

自定义异常为什么要使用自定义异常,有什么好处?1.我们在工作的时候,项目是分模块或者分功能开发的 ,基本不会你一个人开发一整个项目,使用自定义异常类就统一了对外异常展示的方式。2.有时候我们遇到某些校验或者问题时,需要直接结束掉当前的请求,这时便可以通过抛出自定义异常来结束,如果你项目中使用了SpringMVC比较新的版本的话有控制器增强,可以通过@Contro

2017-09-25 21:07:56 368

原创 IO(JAVA/python版)

Java IO流学习总结Java流操作有关的类或接口:Java流类图结构: 流的概念和作用流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输特性将流抽象为各种类,方便更直观的进行数据操作。 IO流的分类根据处理数据类型的不同分为:字符流和字节流根据数据流向

2017-09-25 20:57:17 220

原创 python字符串排序(按输入顺序/按字符出现次数/按字符)

'''abcccab 控制台输入abcccab  第一版按照控制台输入进行排版,第二版按字符出现次数,第三版按字符顺序(a.b.c..的顺序)排版a=2b=2c=3c=3b=2a=2c=3a=2b=2'''''法一利用类+列表 进行排序操作'''class charAndCount:    def __init

2017-09-23 08:13:41 12688

原创 继承、多态及排序(python/java版)

继承:  (1)Java:继承实质为多态,多态解决继承的尴尬      单继承,对象实例化过程很简单      对象实例化的过程:从祖父到自己的第一个构造方法实例化的过程   A    B extend A    C extendBnew     C() Object--A--B--C   (2)Python:继承代码的复用多继承:默认子类不会调用父类的构造

2017-09-20 21:17:23 320

原创 二叉树、list单向链表的实现( python版 Java版)-17-9-18

Java版:二叉树:myBtree类:public class myBtree {    private Node root;    class Node{        private  int data;        private  Node left;        private  Node right;        public

2017-09-20 21:01:21 573

原创 python类方法、静态方法、实例方法-17.9.17

python类方法、静态方法、实例方法-17.9.18.实例方法:只能通过实例调用,实例方法定义的第一个参数是实例参数只能是实例本身的引用(self).(实例就是对象.)eg:class m: def foo(self):  print(id(self)) #打印第一个参数self的内存地址a=m(); #创建实例aprint(id(a)) #_1  打

2017-09-18 17:47:43 408

原创 python_test_2

1.描述元组和列表的区别2. 请代码实现:利用下划线将列表的每一个元素拼接成字符串,li = ['alex','eric','rain']3.写代码,有如下列表,按照要求实现每一个功能li = ['alex','eric','rain']    a.计算列表长度并输出b.列表中追加元素"seven",并输出添加后的列表c.请在列表的第1个位置插入元素"Tony",并输出

2017-09-15 13:50:52 700

原创 python_test_1

Python之基础练习题1、简述位、字节的关系 bit :位   : 一个二进制数据0或1,是1bit;  byte:字节 : 存储空间的基本计量单位,如:MySQL中定义 VARCHAR(45)  即是指 45个字节;    1 byte = 8 bit2、Python单行注释和多行注释分别用什么? 单行注释:# 多行注释:''' 或者 '''

2017-09-15 13:42:46 1347

转载 python有关的知识

1 Python的函数参数传递看两个例子:Python 12345a = 1def fun(a):    a = 2fun(a)print a  # 1Python 12345a = []def fun(a):    a.append(1)

2017-09-15 13:29:10 258

原创 python装饰、类(构造,私有化字段,封装方法)

#装饰import typesdef shucai(n): print("蔬菜:7") if type(n) == types.FunctionType: return n()+7 return n + 7def yangrou(n): print("羊肉:38") if type(n) == types.FunctionT

2017-09-15 13:16:43 886

原创 python笔记_3

--------------------------------3''' %3(num人) Game 实现思路 利用循环遍历 将%3==0的永久删除,将%3!=0的暂时删除,并将它追加到列表最后 num = int(input("请输入一个整数:")) mylist=[] for i in range(1,num+1): mylist. appen

2017-09-13 18:22:10 65

原创 python笔记_2

--------------------------------2''' 字符串操作 ccc = "我爱中国爱我" ccc[0:2]:截取 ccc.replace("old","new",count):替换 print("ai" in ccc):判断是否包含 print(ccc.endswith("中",2,4)):判断[2,4)中是否以"中"结尾

2017-09-13 18:20:38 68

原创 python笔记_1

#倒序输出for i in reversed(range (1,10)):    print(i)#99乘法表for i in range(1,10):    for j in range(1,i+1):        print(i,"*",j,"=",i*j,"\t",end="")    print()#猜随机数gameimport ran

2017-09-07 22:07:04 189

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除