望隐少年-CSDN博客

原创 chrome自动代理检测（这玩意并没什么用，还会影响你访问某些网页）

啊，正常情况下，浏览一个网站是直接连上就行了。IE的代理自动检测就是每次都帮你找到一个代理服务器去上这个网站。如果你浏览的网站支持这种机制，有链接速度超快的代理服务器提供给你让你用，那网页加载的速度也会变快。然而目测好像这个IE的机制并没有什么卵用，它找不到好的代理服务器。 ...

2019-04-23 14:39:42 4727 1

原创日记---2019.3.11

上午经历了短暂的情绪低潮和一些工作之后下午可以继续学习了。打算把学习部署和平安的事情拖到明天上午再解决，下午我只想好好学习。

2019-03-11 14:35:34 856

原创 14场分析

核心思路：永远别想占到狗庄的便宜。。。1.切尔西 vs 狼队切尔西最近状态大勇，最近4个主场均完成零封。最近5场比赛4胜1平，状态极其稳定。错误点：分析错了热门方，切尔西实力更强/状态更好/坐镇主场，天时地利人和，很容易受热。忽略点：狼队的实力，就他妈擅长防反，防守体系吊的一B，而且经常是直接赢豪门。狼队状态有所下滑，四轮比赛仅胜加的夫，且几乎场场都有丢球。切尔西稳...

2019-03-11 11:19:09 1921

原创物理机ping不通虚拟机

两边的防火墙都关了，在Linux下输入ifconfig，此时查看不到IP。接下来执行vi/etc/sysconfig/network-scripts/ifcfg-eth0，在初始配置的基础上加了：DEVICE=eth0ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.80.129NETMASK=255.255.255.0GATEWAY=19...

2019-03-06 17:13:30 3014

转载解决Linux系统下，出现“不在sudoers文件中，此事将被报告”的问题

解决Linux系统下，出现“不在sudoers文件中，此事将被报告”的问题2018年12月28日 16:00:39 sinat_39589027 阅读数：230我在安装VMware Tools工具时，会提示：不在sudoers文件中，此事将被报告。是因为当前操作用户的权限不足，而root用户只有在权限分配及系统设置时才会使用，而root用户的密码也不可能公开。普通用户执行到系统程序时，需要...

2019-02-24 11:27:29 1705 1

转载 org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;

org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;2017年09月20日 16:29:27 pan_haufei 阅读数：5765恭喜老铁，跟我遇到了一样的问题，接下来是解决方法：遇到的问题：org.apache.spark.sql...

2019-02-13 17:45:18 1802 1

转载 E: Unable to lock the administration directory (/var/lib/dpkg/), is another process using it?

E: Unable to lock the administration directory (/var/lib/dpkg/), is another process using it?刚开始试了如下两个：sudo rm /var/cache/apt/archives/locksudo rm /var/lib/dpkg/lock发现没效果，然后有试了下面这组命令：sudo rm...

2019-01-09 16:50:31 370

原创 spark RDD内容总结（适用于复杂的结构）

1.RDD Checkpointing和RDD cache/persist的区别？相同点：都需要手动调用方法来保存结果，为了避免前面所做的计算工作丢失，需要把RDD存到缓存或者checkpoint里。存放目录的区别是否自动清除？Checkpointing:自己设置目录，目录下面的文件我们自己来决定是否删除。cache/persist：只在程序运行时，存在临...

2019-01-05 16:24:04 612

原创 spark基础

查看hdfs文件分块hdfs dfs -mkdir -p /events/datahdfs dfs -put /xxx/xx/3.csv(本地目录) /events/data（hdfs目录）hdfs fsck /events/data/events.csv -files -blocks //查看文件有多少个物理分块128M一块，所以1.17G被分成9个物理块，这个文件...

2018-12-27 17:49:01 250

原创面试时如何从一篇文章里找到正好出现100次的那个单词？

找到大于100的单词更简单，加一个filter，x._2表示第二个元素大于5，即出现超过5次的。scala> val wc = sc.textFile("file:///home/liugen/3.txt").flatMap(line=>line.split(",")).map(w=>(w,1)).reduceByKey(_+_).filter(x=>x._2>5...

2018-12-24 17:14:27 279

原创 spark启动报错排查！！！（花了三个小时终于解决，解决之后感觉很爽很有成就感）

今天午饭推迟了半个小时才去吃，就搞这个来着，搞完了轻松了，吃饭都香。spark的目录有一个问题，忘记说了，spark里面的用户莫名其妙叫什么500，权限根本不属于我，报错里没看出来这一点。我得把整个spark目录的拥有者先变成我自己sudo chown -R liugen:liugen /work/spark核心问题是出在这里！！！tmd，终于成功了。重启了下spark，可...

2018-12-21 12:22:40 7207

转载 scala中Array、List、Tuple异同

2018-12-11 11:12:22 272

原创 scala中的object 和java的class有什么区别？

用自己的话简单说就是：scala没有静态方法和静态字段，通过object来实现对象名直接调用方法。形如Array.toString 眼见为实，在网上看到一个例子，动手操作之后我是这么理解的。ApplyExample.main(null) 运行主类Class和Object同名的话，则这个Class是Object的伴生类，Object可以静态的调用方法。两者都可以定义appl...

2018-12-11 06:09:34 1290

转载 Java代码通过API操作HBase的最佳实践

https://www.cnblogs.com/sixiweb/p/3669069.html Java代码通过API操作HBase的最佳实践HBase提供了丰富的API。这使得用Java连接HBase非常方便。有时候大家会使用HTable table=new HTable(config,tablename);的方式来实例化一个HTable对象，实际上这并不是最好的实例化...

2018-12-08 14:48:08 220

转载 HBase重要练习（二）通过HBase API进行开发

逻辑我看了，很简单，但是要熟练，至少每个粒子要从头到尾做3遍确认自己清楚每个细节。这个后面再做。原文地址：https://www.cnblogs.com/netbloomy/p/6683509.html 通过HBase API进行开发一、将HBase的jar包及hbase-site.xml添加到IDE1、到安装HBase集群的任意一台机器上找到HBase...

2018-12-08 14:46:51 369

原创 HBase shell练习

首先初始化hadoop namenode，namenode负责管理集群的命名空间和元数据。hadoop namenode -format初始化主要完成如下事情：1.初始化各个重要成员变量（包括rpc服务器等），初始化FSNamesystem（加载FMImage文件）2.创建和启动HTTP服务器；3.启动RPC服务器；4.启动回收站线程。然后在hadoop的sbi...

2018-12-08 12:14:51 367

原创 hbase环境变量配置及启动

之前配置环境变量一直出问题是因为，我总把$HBASE_HOME/bin写在其他$HIVE_HOME/bin的后面，原来它是单独写一行才会生效。设置环境变量1. 使用sudo vi /etc/profile命令修改系统环境变量export HBASE_HOME=/app/hbase-0.96.2export PATH=$PATH:$HBASE_HOME/bin ...

2018-12-07 17:23:17 12205 1

原创 hbase启动后HMaster迅速挂掉的问题（遇到问题学会看日志，发那些表面的报错纯属耽误时间）

首先打开hbase/logs目录下的xxxx.xxxx. master.log的日志拉到最后是最新一次的报错。如下异常java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but t...

2018-12-07 16:38:15 2559

原创 Hive面试题思路总结（一）

几个hive面试题，总是写不上来，看过两遍还是不会，还是写不出来，进一步说明了，写代码真的需要很疯狂的写才可能比较熟悉。不过好在，现在基本都有思路了，简单总结一下。https://www.cnblogs.com/qingyunzong/p/8747656.html#_label0_0 这种题有了思路，把它形成套路，自然就熟能生巧了，但是光看懂思路真的写还是各种错误，所以说写出...

2018-12-07 15:02:48 896

转载 MapReduce排查错误日志方法

初学者运行MapReduce作业时，经常会遇到各种错误，由于缺乏经验，往往不知所云，一般直接将终端打印的错误贴到搜索引擎上查找，以借鉴前人的经验。然而，对于hadoop而言，当遇到错误时，第一时间应是查看日志，日志里通产会有详细的错误原因提示，本文将总结Hadoop MapReduce日志存放位置，帮助初学者定位自己遇到的错误。 Hadoop MapReduce日志分为两部分，一部分是服务...

2018-12-06 15:39:17 3542

原创前两天hive那几个面试题做一下，都看了答案，自己第二遍做，你也未必能去全会

RT。

2018-12-04 18:19:51 564

转载 Hive面试题干货（亲自跟着做了好几遍，会了的话对面试大有好处）

原文地址 http://www.cnblogs.com/qingyunzong/p/8747656.html Hive学习之路（十一）Hive的5个面试题讨论QQ：1586558083目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析二、学生课程成绩 1、说明 2、需求三、求每一年最大气...

2018-12-04 18:18:12 2099 1

转载 hive常用函数及数据结构介绍

https://blog.csdn.net/xiaolang85/article/details/51330634 Hive 中的复合数据结构简介以及一些函数的用法说明2016年05月06日 12:30:31 小狼_百度阅读数：7329目录[-]一、map、struct、array 这3种的用法： 1、Array的使用 2、Map 的使用 3、Struct 的使用 4...

2018-12-04 18:14:09 684

转载 Hive执行job时return code 2排查

2018-12-04 16:31:50 6062

转载 Hive创建table报错：Permission denied: user=lenovo, access=WRITE, inode="":suh:supergroup:rwxr-xr-x

2018-12-03 21:54:51 917

转载 hive 字符集问题报错 Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaExcept

Latin1是ISO-8859-1的别名（mysql默认的字符集），有些环境下写作Latin-1 学习hive 使用mysql作为元数据 hive创建数据库和切换数据库都是可以的但是创建表就是出问题百度之后发现是编码问题特别记录一下~~~1.报错前如图: 2.在mysql数据库中执行如下:1 ALTER DATABASE hive CHARACTER S...

2018-12-03 21:43:16 486

原创 Hive语句是如何转化成MapReduce任务的

假如面试时给你一个这样的问题，你怎么解决。你要知道mapper和reducer工作的原理，从文件里按照key-value，一条一条记录读的，然后对数据做分解处理。首先通过key-value传进来，每个value就是上图的一条记录，然后根据逗号我来分解他。获得这个字符串数组，如果第2个元素等于bee，那我就把它写出去。因为你sql语句，select的是id，所以我把第...

2018-11-29 14:41:18 1315

原创 Sqoop import进阶

1.学会打包成JSON数组传进去2.从mysql的一个viewe导入，其实和table没有本质区别 CONCAT就是拼接一下拼接成json数组 [{ "A":a , "B",b} , { }] 导入时可以从一个mysql的view导入为什么采用JSON数组，因为一个Order对应一个Product，我们可以这么做。但是他现在mysq...

2018-11-29 12:08:25 240

原创 Mysql到HBase的迁移

Hive可是远重要于HBase sqoop import --connect jdbc:mysql://localhost/retail_db--username root --password hadoop--table products // mysql的products表--columns "customernum,customername" ...

2018-11-28 17:53:16 1302

原创 Sqoop往Hive导入数据实战

分为append和last-modified两种模式，前者会删除已有数据，后者会更新已有数据和添加新数据。先创建Hive外部表，然后再导入Hive。sqoop import--connect jdbc:mysql://localhost/hr 指定mysql的数据库--table orders 指定是mysql中的什么表--username root--...

2018-11-28 16:43:51 770

原创 Apache Sqoop-----hdfs迁移工具

开源免费的数据迁移工具，可以从RDBMS导入HDFS，也可以从HDFS导出到RDBMS（这种场景现在spark什么的需要写代码）。Hive可以基于SQL读取HDFS、HBASE、MongoDB的数据，Hive本质就是对已有数据源做一个包装所以说你从Hive中迁移就等于从hdfs中迁移，hbase也是一样的道理。 sqoop用起来非常简单把整个表迁移过来...

2018-11-27 18:22:42 306

原创 HBase----Region Server架构

可以看到Region Server里面分很多HRegion的，也包括HLog（WAL）。我们写数据是先往hdfs里面写WAL来合并（临时凑合用，未排序），然后真实的数据根据Column Family分为多个Hstore，每个CF都有自己的HStore。Hstore里面又分为Memstore和HFile，在Memstore里进行排序，然后写满了再flush到HFile，最终把排序后的数据写到...

2018-11-27 14:42:00 220

原创 Hbase进阶

Namespace：其实就是database，但是Hbase其实没有数据库这种概念的，为了区分就叫namespace。安全上做的比较粗糙，用grant来授权给表或者列族（这里做的还挺细）R 织入W 可写 C 创建A 管理如grant 'liugen' ,'RWCA' ,'my_hbase_table' revoke 去掉权限反向操作很简单...

2018-11-27 14:35:02 130

原创 MemStore作用及flush过程

自己总结提示：要理解Metastore是什么，需要了解下HBASE写入数据的过程。1. 当RegionServer收到写请求，他会把数据丢到相应的Region里。2. 每个Region里面的结构是这样的，Region中每个Column Family对应一个HStore。Hstore里面又分为MemStore和HFile，MemStore的作用就是先把数据写到这里，这是一个内存级的...

2018-11-27 13:39:51 1138

转载 hbase架构原理之region、memstore、hfile、hlog、columm-family、colum、cell（有时间看）

2018-11-27 13:21:26 591

转载 Hive连接Hbase操作数据

2018-11-27 11:39:13 342

原创 Hive操作Hbase

Hive操作Hbase有三种方式：1. Hive把Hbase当数据源，以hive方式读取数据（hbase本身不好操作）2. hive向hbase中存放数据，利用hbase读取快的特性3.数据双向交换，结合1、2 你只需要desc formatted customer; 查看下详细的表信息，你就知道为什么要定义这些属性了。你比如说StorageHandler这个类型怎...

2018-11-27 11:21:07 376

转载 hive的三板斧：内部表和外部表、分区和分桶以及序列化/反序列化(SerDe)

hive的三板斧：内部表和外部表、分区和分桶以及序列化/反序列化(SerDe) Hive是Hadoop生态圈中实现数据仓库的一项技术。虽然Hadoop和HDFS的设计局限了Hive所能胜任的工作，但是Hive仍然是目前互联网中最适合数据仓库的应用技术。不论从“品相还是举止”，Hive都像一个关系型数据库。用户对数据库、表和列这类术语比较熟悉的话，那么掌握Hive的查询语言HQL也轻而易举...

2018-11-27 11:09:42 1056 1

原创解决HMaster启动后几秒之内马上挂掉的问题

爱上看Hbase日志，身为小白白的我，一开始日志在哪我都不知道！路径：cat $HBASE_HOME/logs/hbase-hadoop-master-Master.log(也就是安装hbase下的logs文件夹中)）。日志白茫茫一片怎么看呢，其实Info什么的都不用管，直奔ERROR就可以。如下：2018-11-25 19:42:52,179 ERROR [Thread-14] m...

2018-11-26 12:11:50 4306 3

原创 Hbase很不稳定，输入hb无法联想出hbase，好像环境变量没生效是的。

在/etc/profile中添加Hbase环境变量，source /etc/profile还是没生效 jps一下，发现hmaster和HRegionServer节点又掉了，这东西怎么这么不稳定。重启了一下又好了但是 echo $HBASE_HOME，还是没有任何反应。所以个人感觉是因为没有装在/usr/local目录下，之前mysql没装在这个目录下也出了问题。...

2018-11-26 11:34:25 343

C家家程序设计100例

Secondary namenode工作原理提问！~

输入命令为:hdfs dfs -ls / ，什么也没返回，HFDS根目录下一片空白