3 来一块提拉米苏

尚未进行身份认证

弱鸡

等级
TA的排名 2w+

最大间隔问题

最大间隙问题。给定n个实数,求这n个实数在数轴上相邻2个数之间的最大差值,设计解最大间隙问题的线性时间算法。网上有很多代码,但没有图解,自己画了几张图帮助理解。代码:#include<stdio.h>#defineINF1<<30structnode{ doubleleft,right; do

2019-02-07 21:07:31

flume对接kafka,模拟生产者实时生产数据

flume对接kafka,模拟生产者实时生产数据引言flume可以实时的监控日志,日志每增加一条,flume都会感知到,然后可以将这条新的数据传到kafka上,实际生产中,用户的每个行为,生成一条数据,存到日志或数据库中,然后使用flume来从日志中拉起数据。任务:用shell脚本模拟用户行为每秒十条生成的数据存入到日志中,flume拉起日志中的数据传入kafka已有数据:cmcc.jso...

2018-12-22 20:51:22

zookeeper是如何进行维护offset

zookeeper是如何进行维护offset引言:​ SparkStreaming消费kafka有两种方式,分别是Receiver方式和Direct方式,Receiver可以自己去维护偏移量offset,Direct方式是Executer直接对接kafka进行消费数据,即用即读即丢,sparkStream会产生和topic中partition相同多的RDD,提高了效率,节省了资源,需要手动去维...

2018-12-22 20:29:02

Scala的引用

普通数据类型无引用varx=1vary=xy=2println(x,"hashCode值:",x.hashCode())println(y,"hashCode值:",y.hashCode())//结果(1,hashCode值:,1)(2,hashCode值:,2)List和Seq无引用varx:mutable.S...

2018-12-12 22:06:36

ybc_art打印艺术字

引言学python的时候有点无聊,找了有意思的,并简单的python小程序玩一玩,就找的了ybc_art,网上关于ybc_art的博客并不多,就随便写了写。准备工作:有python3的朋友可以使用pipinstallybc_art下载没有的去官网去下载相关库代码importybc_artasarttext="01"words=art.text2art(text,...

2018-11-21 16:03:11

SparkMLlib实现K-means

SparkMLlib实现K-means引言之前写过一篇关于kmeans的博客,里面详细的介绍了关于***K-means***的的详细描述,用python是实现的,并且在最后附带数据,了解更改关于K-means的内容详看https://blog.csdn.net/jklcl/article/details/76153430今天用scala语言中的spark,使用MLlib库来实现依赖&lt...

2018-11-15 11:57:17

spark的rdd算子

spark的rdd算子文章目录spark的rdd算子mapPartitionsmapWith和flatMapWithaggregateaggregateByKeycountByKeyfilterByRangeflatMapValuesfoldByKeyforeachPartitionkeyBykeysvaluescollectAsMaprepartition,coalesce,partit...

2018-11-01 15:59:52

scala常用操作符和Iterable、Seq特质方法

用于添加和移除元素的操作符操作符:coll:+elem或elem+:coll集合类型:Seqvarcoll=List(1,2,3)valelem=4print(coll:+elem)//运行结果List(1,2,3,4)操作符:coll+elem或coll+(e1,e2,...)集合类型:Set&Mapvarcoll1=...

2018-10-30 21:56:27

批量爬取某图片网站的图片

批量爬取某图片网站的图片声明:仅用于爬虫学习,禁止用于商业用途谋取利益1、网页解析(1)打开veer首页,F12(谷歌浏览器),输入关键字,点击搜索,点击查看如图画圈位置(2)查看search中的Headers,找到请求的URL和请求的payload,URL是请求的网址,payload是发送请求时的参数对于各个详细的参数在代码部分会详细讲(3)查看响应(请求发出后的返回...

2018-09-27 17:26:44

配置Hadoop的高可用

配置Hadoop的高可用一、准备1、配置好Hadoop、JDK等2、规划三台虚拟机(hadoop01,hadoop02,hadoop03)active/standbynamenode与zkfc:hadoop01和hadoop02JN集群:三台虚拟机都参与zk集群:三台虚拟机都参与datanode与nodemanager:三台虚拟机都参与resourcemanager...

2018-09-19 21:41:57

配置zookeeper

配置zookeeper一、准备工作1、压缩包zookeeper,版本一般是2.4.7,也有使用2.4.5的,最好不要使用最新版本2、JDK1.7以上版本3、规划主机名(hostname)安装软件运行进程mini1zookeeper-3.4.7QuorumPeerMainmini2zookeeper-3.4.7QuorumPeerMain...

2018-09-18 21:39:49

Linux设置时间同步

时间同步:1、设置时间date-s"2018-9-1012:12:12"2、配置时间服务器集群的其他机器都跟namenode所在机器同步时间NTP服务器【NetworkTimeProtocol(NTP)】是用来使计算机时间同步化的一种协议检查ntp是否安装,如果未安装,则安装服务器上需要安装ntp服务同步机器上只需要安装ntpdatey...

2018-09-14 21:41:03

爬虫 代理IP

爬虫获取代理IP之前说过,因为某些原因,IP被封了,所以回过头排查了一下关于代理IP的问题。代理IP的作用代理IP简单的来说,就是代替你访问网站的IP,每台电脑都有自己的IP,在从事爬虫的时候,如果你直接使用自己的IP,被爬的网站检测到,会很快的封掉你的IP,从事违法工作的,甚至定位到你的位置。那么我们在使用爬虫的时候,怎么能不使用自己的IP呢,那么就用代理的IP。这里用的代...

2018-09-12 20:28:08

Hadoop集群的搭建

Hadoop集群的搭建1、准备工作:(1)、三台Linux机器(我的三台是hadoop01,hadoop02,hadoop03),可以相互通信,设置了ssh(2)、设置了时间同步(3)、关闭了防火墙(4)、Hadoop和JDK(我用的是Hadoop-2.7.1和jdk1.7.0_79)(5)、在home下创建用户hadoop2、安装JDK和Hadoop(1)将...

2018-09-11 09:59:37

爬虫 requests.post

爬虫requests.post可以模拟网页向服务器发送消息,获取想要的内容1.无返回值打开并登陆豆瓣模拟豆瓣登陆importrequestspostUrl='https://www.douban.com/accounts/login'id='******'#账户passwd='*****'#密码headers={'Re...

2018-09-08 11:41:49

SSH免密登陆

SSH免密登陆什么是sshssh:一种协议标准,与其他协议telnet,ftp等,ssh的优势在于安全远程登陆登陆(约定)openssh:是ssh远程安全登陆的开源实现(软件)ssh远程安全登录的工作原理(基于口令)1.客户端发起远程登录请求2.服务端接收请求,将自己的主机公钥发送给客户端注:公钥(加密)3.客户端将主机发送过来的公钥进行hash算法,得出主机...

2018-09-08 10:44:19

配置本地yum源和局域网yum源

配置本地yum源和局域网yum源引言:为什么要写这段引言呢,是因为在做配置局域网yum源的时候遇到了太多的疑问,于是把就这些问题记录下来,和大家分享一下。1、局域网yum源适用条件?举个例子,在公司里,某天断网了,有几百台电脑要使用yum源,我们不能使用网络yum源,那么怎么办,给几百台机器配置本地的yum源太浪费时间了,那么就可以在一台服务器上配置本地yum源,在整个局域...

2018-09-08 10:22:34

爬虫:BeautifulSoup(6)--select

BeautifulSoup中的selectBeautifulSoup中的select也是过滤器的一种,个人认为要比find_all()好用一点find_all()的返回方式是列表,以CSDN的主页为例,探究一下select#coding=utf-8frombs4importBeautifulSoupimportrequestsurl='https://w...

2018-09-03 20:41:08

爬虫:BeautifulSoup(5)--find_all

过滤器find_allfind_all(name,css,recursive,text,keyword)find_all是BeautifulSoup中比较重要的过滤器,主要的作用是对HTML进行解析,提取关键的标签,关键的属性,关键的文字,name和css又是find_all中相对重要的两个参数,掌握了这两个参数find_all使用也就手到擒来了。fromb...

2018-08-31 19:56:57

统计csdn博客的访问量+评论数

两周前,ip被封了,所以爬虫有风险,访问需谨慎,还好有代理IP#coding=utf-8importrequestsfrombs4importBeautifulSoup#总的访问量+评论数sum=0#20是页数,自己设foriinrange(20):print("第",i+1,"页")url="https://blog.csdn.net/...

2018-08-29 21:30:29

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!