自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 如何将现有的系统嵌入到大数据平台

现在有个需求,需要将之前的系统平台,做到大数据平台上,具体如何实现呢

2020-06-09 14:02:06 345

原创 【Hbase】之 热点问题及调优

Hbase的热点问题热点问题的产生当大量的客户端访问定向到集群中的一个节点或者几个节点时,就会导致热点问题。此访问操作可能是写入,也可能是读取。大量的访问使得管理该region的计算机不堪重负,从而导致性能下降,并可能导致region的不可用。这也可能对同一RegionServer管理的其他region产生不利影响。热点问题的解决采用预分区的方式,解决热点问题每一个region都维...

2020-03-09 12:49:52 378

原创 【Hbase】知识总结

Hbase的简介Hbase的来源1、数据量越来越大,传统的关系型数据库,不能满足存储和查询功能的需求。而hive虽然能够满足存储的要求,但是hive的本质也是利用底层的mr,所以读写速度不快,而且hive不能满足非结构化,半结构化的存储,hive主要的作用是分析和统计,hive用于存储是毫无意义的。2、起源于Google在2006发表的一篇论文《bigtable》,是对bigtable的开...

2020-03-08 20:14:12 918

原创 【MapReduce】之 调优

MapReduce的调优MR优化之资源相关参数mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Reduce Task实际使用...

2020-03-08 15:57:25 228

原创 【MapReduce】之 流程叙述

MapReduce之MapMapTask执行流程:执行流程文字表述:1、maptask调用FileInputFormat的createRecordReader读取分片数据。2、每行数据读取一次,返回一个<k,v>,其中k是offset,v是这一行的内容。3、将<k,v>交给maptask处理。4、每对<k,v>调用一次map<k,v,cont...

2020-03-07 14:29:20 250

原创 【MapReducer】

MapReducerMapReducer简介MapReduce是对google提出的分布式并行编程模型MapReduce论文的开源实现,以可靠,容错的方式运行在反不是文件系统HDFS上的并行处理数据的编程模型。MapReduce的优势在于处理大规模数据集。MapReduce框架由单个主ResourceManager,每个集群节点一个nodeManager和每个应用程序的MRAppMaster...

2020-03-06 22:36:20 533

原创 【Hadoop】之 HDFS

HadoopHadoop的组成成分Hadoop Common:Hadoop模块的通用模块Hadoop Distributed File System:分布式文件系统Hadoop Yarn:作业调度和资源管理框架Hadoop MapReduce:基于Yarn的大型数据集,并行计算处理框架Hadoop Ozone:Hadoop的对象存储机制Hadoop Submarine:Hadoop的...

2020-03-03 19:56:58 478

原创 【Hive】

HiveHive的简介hive是构建再hadoop上的数据仓库工具,可以将结构化的数据映射成一张数据表,并可以使用类sql的方式,来对这样的数据文件进行读写,以及管理(包括元数据),这套HIVE SQL 简称HQL。hive的执行引擎可以是MR、spark、tez。hive的优点1、hive的学习成本低提供类sql的从查询语言HQL,避免了直接写MapReduce,减少开发人员的学习成本...

2020-03-02 23:42:57 600

原创 【LogStash】---- 初学

LogStash1、LogStash的简介LogStash能够动态的采集,转换和传输数据,不受格式和复杂度的影响。利用Grok从非结构化的数据中派生出结构,从IP地址解码出地理坐标,匿名化或者排除敏感字段,并简化整体处理过程。LogStash分为Input、Filter、Output三个组件:input:采集各种样式、大小和来源的数据数据往往以各种各样的形式,或分散或集中地存在于很多系统...

2020-02-29 22:00:26 247

原创 反爬虫项目Day4

Lua集成Kafka实现------ Generated by EmmyLua(https://github.com/EmmyLua)--- Created by User.--- DateTime: 2020/2/27 10:00-----[[脚本对接kafka]]-- 指定数据采集脚本运行线程的阈值,若超过这个阈值,则不再采集数据local DEFAULT_THREADS ...

2020-02-27 22:28:44 318

原创 反爬虫项目Day3

lua脚本的基础操作-- 1、赋值运算a,b = 10,20print('a=',a,'b=',b)-- 结果: a=10,b=20c,d,e = 1,2print('c=',c,'d=',d,'e=',e)-- 结果: c=1,d=2,e=nil 注意不赋值默认为nilx,y,z = 4,5,6print("x=",x,"y=",y) -- 结果 x= 4 y=...

2020-02-26 21:03:28 599 1

原创 反爬虫项目Day2

主要功能用例对项目实现模块的说明数据管理模块数据管理模块分为数据采集和数据处理模块,对于数据采集使用lua脚本,对于数据处理,来自前端页面的不同类型的数据要进行相应的处理,如json格式、xml格式、From格式的数据等。实时监控模块实时监控模块分为系统监控、规则监控、性能监控。系统监控:监控流量和爬虫。规则监控:制定相应的规则,防爬。性能监控:主要关注数据分析的速度...

2020-02-25 20:59:57 608

原创 反爬虫项目Day1

反爬虫项目项目实现的背景很多订票网站的官网在互联网提供查询、预订等服务,如:各种航空公司的官网、去哪网、携程等,有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。通过系统日志分析等,发现官网访问中存在大量爬虫,且通过大量的 IP 进行伪装。项目的概述数据源(网页上的点击日志信息)的获取,...

2020-02-24 22:59:49 326

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除