狂暴棕熊-CSDN博客

原创编程语言基础练习题

1.输出1~100之间能被6整除的数2.创建两个整型变量：x,y，通过代码求这两个变量的最大公约数和最小公倍数，并打印到控制台上。例如：x = 12, y = 56 结果：最大公约数是4，最小公倍数是1683.给一个变量x赋值为整数，将整数中的数字进行反转。例如: x = 123 输出: 3214.给一个变量x赋值为整数，判断这个整数是否是回文数。回文数是指正序（从左向右...

2018-06-04 22:27:34 3258

原创 Python数据分析

（一）异常值分析箱型图分析plt.figure()plt.rc('font', size=13)p = plt.boxplot(words_series.head(10),whis=1.5)plt.show()结合describe()函数查看数据的基本情况words_series.head(10).describe()以上两条结合起来过滤数据集中的无效数据。（...

2018-03-21 17:30:36 317

原创 Linux下matpoltlib中文的乱码问题

①从Windows的D:\Windows\Fonts文件夹下把msyh.ttf拷贝到matplotlib的ttf文件夹下，我的文件夹目录是：/home/hadoop/app/anaconda3/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/ttf②编辑matplotlibrc文件，此文件可以通过以下代码获得impor...

2018-03-16 18:20:28 276

原创 Linux上配置Jupyter Notebook

①生成配置文件jupyter notebook --generate-config②生成秘钥使用python3进入python开发环境from notebook.auth import passwd passwd()会生成sha1密文 ③修改配置文件 vim ~/.jupyter/jupyter_notebook_config.pyc.NotebookA...

2018-03-15 20:30:27 3283 1

原创 Windows下使用Python

1.不需要单独下载Python，直接安装anaconda就可以了（Win10的系统需要以管理员模式运行安装软件，否则会出现权限问题），通过anaconda可以下载安装全部的Python组件 2.在anaconda中下载组件 ①打开Anaconda Prompt（Win10的系统需要以管理员模式运行安装软件，否则会出现权限问题） ②下载scrapy:conda install scrapy ...

2018-03-02 18:35:36 389

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（五）——购物篮分析

这个购物篮分析要先理解他在算什么，我的理解是通过购物小票上的购物信息，在指定规则下穷举全部的购物关联性。 1.模型解释 ①数据源 a、b、c、d分别代表一种商品，超市的购物小票数据如下（为了简单起见，取4条小票数据），每个小票中的商品必须按照一定的顺序进行排列，否则会出现重复计算的情况： a,b,c a,b,d b,c b,c ②定义模式长度为3，即最多只考虑3种商品的购买管理关系...

2018-02-05 18:42:00 1136

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（四）——移动平均

移动平均：对时序序列按周期取其值的平均值，这种运算被称为移动平均。典型例子是求股票的n天内的平均值。移动平均的关键是如何求这个平均值，可以使用Queue来实现。public class MovingAverageDriver { public static void main(String[] args){ SparkConf conf = new SparkC

2018-02-01 17:04:26 1677

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（三）——Order Inverse

这章的名称叫反转排序，应该说让人非常的迷惑。这里我觉得一篇Blog对Order Inverse的解释更合理一些（http://blog.csdn.net/hadoop_mapreduce/article/details/39802287），根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则，来保证框架在Shuffle的时候能够按照期望将会被一起处理的数

2018-01-30 14:36:54 376

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（二）——TopN列表

大数据计算力经常要面对TopN的问题，也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce：在Map中使用SortedMap完成每个节点的TopN操作，然后所有节点将数据汇聚到Reduce节点，再次使用SortedMap完成TopN操作，其中setup()中做初始化工作，map()中构造SortedMap，在cleanup()中将生成的SortedMap输出给r

2018-01-29 14:33:15 529

原创《数据算法-Hadoop/Spark大数据处理技巧》读书笔记（一）——二次排序

写在前面：在做直播的时候有同学问Spark不是用Scala语言作为开发语言么，的确是的，从网上查资料的话也会看到大把大把的用Scala编写的Spark程序，但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容，最常见的就是某一个API是怎么用的，很多都是拷贝粘贴的重复内容，真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的，《数据算法-Hadoop/

2018-01-26 16:03:45 2402

原创 Spark学习阶段总结

学习Spark一段时间后，实际上是有些困惑的如果说只针对数据操作的话，大部分算子都用过了，学习的成本并不高，因为之前是做Android开发的，所以感觉api方面好少，没有那么多东西需要掌握。但是实际上自己很清楚自己的水平，但是后续如何提升大概有几点想法。 1.相关的配置和使用，spark里面有大量的属性配置，好的配置可以提高运行效率。 2.spark里要完成同一件事，可以使用不同的算子组合

2018-01-25 15:26:23 279

原创 Spark开发中遇到的问题及解决方法

1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常解决方法： 1.下载winutils的windows版本　　GitHub上，有人提供了winutils的windows的版本，项目地址是：https://github.com/srccodes/hadoop-co

2018-01-16 15:38:16 2041

原创招聘网站技术类词频分析_第二版

目标：大数据项目练习需求：从招聘网站上（暂定智联招聘）爬取招聘信息，通过词频统计，分析企业对IT人才需求使用框架：平台：阿里云爬虫：scrapy https://docs.scrapy.org/en/latest/index.html 中文分词：HanLP中文分词 https://github.com/hankcs/HanLP 日志收集：Flume 数据计算平台：

2018-01-15 17:36:28 540

原创大数据学习笔记（十八）-MRUnit

MapReduce是跑在集群上的，这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看，但是这样效率很低，也很难定位问题，因为要每次打包，上传，执行jar包。所以本地Debug单步调试非常的重要，调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId

2018-01-05 15:47:40 246

原创大数据学习笔记（十七）-MapReduce

1.在MapReduce中被分成了两类，map操作和reduce操作，1个job是由若干次map操作和1次reduce操作组成的。在MapReduce中，最重要的就是理解数据在处理时都是以Key/Value形式输入输出的（在数据初始读入时，也是以Key/Value形式读入的） 2.对map、reduce操作的理解 ①map是映射：简单理解的话可以理解成遍历原有数据集中的所有数据，针对每一条

2018-01-04 18:25:56 455

原创招聘网站技术类词频分析_第一版

目标：大数据项目练习需求：从招聘网站上（暂定智联招聘）爬取招聘信息，通过词频统计，分析企业对IT人才需求使用框架：平台：阿里云爬虫：scrapy https://docs.scrapy.org/en/latest/index.html 中文分词：结巴中文分词 https://github.com/fxsjy/jieba 日志收集：Flume 数据计算平台：Hado

2017-12-28 17:42:13 554

1.安装Hue的依赖sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel make mvn mysql mysql-devel openldap-devel python-devel sqlite-devel

2017-12-27 15:47:04 490

原创大数据学习笔记（十五）-大数据调度框架

1.常用框架 crontab 存在的问题：单机的 Azkaban 开源的工作流框架，批处理 https://azkaban.github.io/ Oozie http://oozie.apache.org/

2017-12-27 14:11:48 1872

原创需要用到的Linux命令

1.默认级别转换为3(文本模式) ln -sf /lib/systemd/system/multi-user.target /etc/systemd/system/default.target2.或者默认级别转换为5(图形模式) ln -sf /lib/systemd/system/graphical.target /etc/systemd/system/default.target3

2017-12-25 15:48:33 294

原创我用到的vi命令

vi命令： 1. i 进入输入模式，光标停留在当前位置 2. o 进入输入模式，插入新一行，光标位于新行行首 3. a 进入输入模式，光标位置向后移一位 4. nyy 拷贝从光标开始的n行 5. p 将复制的内容粘贴到光标下一行的位置 6. 输入模式下，:x保存退出 7. 输入模式下，:q不保存退出 8. 输入模式下，！表示强制执行 9. 查找一个字符串一个

2017-12-25 15:43:39 164

原创大数据学习笔记（十四）-Sqoop

1.版本 sqoop1为1.4.6以前的版本（包括） sqoop2为1.4.6以后的版本（不包括） sqoop1与sqoop2的构架是不同的 2.sqoop配置 conf/sqoop-env.sh#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/home/hadoop/app/hadoop-2.6.0

2017-12-25 15:26:56 194

原创大数据学习笔记（十三）-Hive高级

1.Hive的元数据表 TBLS：TBL_ID、DB_ID、SD_ID、TBL_NAME、TBL_TYPE TABLE_PARAMS：存储表/视图的属性信息 TBL_PRIVS：存储表/视图的权限信息，一般不用HIVE的权限，而是用sentry来进行权限控制 SDS：保存文件存储的基本信息，比如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩 COLUMNS_V2：存储表对应

2017-12-20 17:25:49 197

原创大数据学习笔记（十三）-SparkStreaming

1.概念数据处理的基本单位：离散流（discretized stream或DStream）支持容错支持状态处理支持窗口操作 2.DStream的基本操作转化操作窗口操作输出操作 3.DStream特有API 参考：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.str

2017-12-19 16:51:11 170

原创大数据学习笔记（十二）-SparkSQL

1.数据的分类 ①非结构化数据:文本、多媒体 ②结构化数据：数据库、格式化文本 ③半结构化数据：key-value、xml、tag 2.DataFrame和RDD的区别 DataFrame是带Schema的RDD 创建DataFrame的方法：scala>val ssc = new org.apache.spark.sql.SQLContext(sc)scala>val df = ss

2017-12-18 23:20:53 1710

原创大数据学习笔记（十一）-Hive进阶

1.Hive的访问方式 ①Hive shell ②HiveServer&beeline ③HUE、Zepplin等WebUI的访问方式2.hiveserver2 ①启动: hiveserver2 ②使用beeline连接hive：beeline -u jdbc:hive2://hadoop000:10000/default -n hadoop 在运行的过程中我遇到了这样的问题，百度

2017-12-15 17:58:38 1033

原创大数据学习笔记（十）-Hive中的Storage format

1.Storage format 行存储：SEQUENCEFILE、TEXTFILE 列存储：RCFILE、ORC、PARQUET、AVRO 2.行存储VS列存储行式存储： ①一行数据一定在一个block里 ②一行数据类型混杂，不容易获得很好的压缩比 ③不能支持快速查询列式存储： ①一行数据不一定在一个block里 ②查询时能够避免读取不必要的列 ③每一列存储数据类型相同，可以

2017-12-13 21:29:03 1334

原创大数据学习笔记（九）-大数据中的压缩

1.常见压缩格式： gzip，bizp2，LZO，Snappy 2.压缩技术使用原则：缩小体积则需要更多的CPU计算量，存储数据倾向于大压缩比的压缩技术，根据实际情况选择合适的压缩技术。 3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割（split） bzip2支持，LZO创建索引后支持 4.要让Hadoop支持压缩，需要对Hadoop源码进行编译

2017-12-13 14:59:09 2300

原创大数据学习笔记（八）-Hive（基础）

1.下载Hive： http://archive.cloudera.com/cdh5/cdh/5/ 2.安装MySQL 参考：https://www.cnblogs.com/starof/p/4680083.html 其中关于my.cnf的设置是错误的，应改成： character-set-server=utf8 3./conf/hive-site.xml<?xml version=

2017-12-11 17:56:36 239

原创大数据学习笔记（七）-Spark的图形化工具的使用

启动Spark集群：start-all.sh 进入集群的spark-shell: spark-shell –master=spark://hadoop000:7077 进入集群的WebUI管理界面：hadoop000:8080 打开EventLog： conf下的spark-defaults.conf开启配置：spark.eventLog.enabled truespa

2017-12-01 10:18:01 1966

原创大数据学习笔记（六）-Spark的RDD

创建 RDD是Spark中的数据集，是只读的 RDD可以从集合，普通文件系统，HDFS文件系统中创建 scala创建RDD的方法val lines1 = sc.parallelize(List("aa","bb"))val lines2 = sc.textFile("file:///opt/spark/README.md")val lines3 = sc.textFile("hd

2017-11-28 20:32:44 259

原创大数据学习笔记（六）-Spark环境配置

Spark版本:1.6.3 for hadoop2.6 下载地址：https://spark.apache.org/downloads.htmlScala版本：2.11.8 下载地址：http://www.scala-lang.org/download/2.11.8.htmlSpark配置： spark-env配置：export SPARK_MASTER_IP=hadoop0

2017-11-27 17:28:54 409

原创大数据学习笔记（五）-HBase

参考文档： http://hbase.apache.org/book.html#faq HBase下载地址： http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz配置： 1.hbase-env.sh 配置JAVA_HOME export HBASE_MANAGES_ZK=false2.hbase-site.x

2017-11-21 09:54:29 207

原创大数据学习笔记（四）-ZooKeeper

http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz

2017-11-19 20:53:00 266

原创大数据学习笔记（三）-Yarn

简单来说Yarn就是一个资源调度管理器配置Yarn 参考文档：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html1.etc/hadoop/mapred-site.xml:cp mapred-site.xml.template mapred-site.xml<propert

2017-11-19 14:02:04 264

原创大数据学习笔记-（二）启动集群&配置IDE环境

1.启动集群，格式化文件系统 bin/hdfsnamenode−format2.启动 bin/hdfs namenode -format 2.启动 sbin/start-dfs.sh 3.验证集群是否启动成功 1)jps 2)浏览器访问：hadoop000:50070hdfs shell 1.文件操作 hadoop fs搭建maven开发环境下载maven3.3.9:h

2017-11-06 15:31:14 381

原创大数据学习笔记-（一）准备

视频课程位置： http://www.kgc.cn/job/oe/24809.shtml 虚拟机VMware14： https://www.52pojie.cn/thread-648896-1-1.html CentOS版本选择CentOS7： http://mirrors.cn99.com/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1

2017-11-03 16:52:02 421

原创 Google官方刷题资源-基础题-第四题~第八题

这几道题都是一个编程测试网站（http://codingbat.com）上的题。这个网站不具备代码提示功能，编译后成功后，会给出测试数据。有点像ACM刷题网站，不过更适合Java Beginer。不过由于这网站是英文的，理解题意反而是个问题。第四题（http://codingbat.com/prob/p117334）： Given a non-empty string like “Code”

2017-09-08 22:33:51 610

翻译 Google官方刷题资源-基础题-第一题

题目：从字典中找出给给定字符串的最长子串考察目的：测试优化代码的数据结构与算法能力题干：有一个字符串S和单词集合D，从D中找出一个符合条件的单词，这个单词是字符串S的最长子串。单词是W是字符串S的子串的条件是，从字符串S中删除不定数量的字母（删除数可以为0）且不改变原有字母的顺序，能够将字符串S变成单词W。注意：集合D可是一任何形式的集合（list，hash table, prefix tr

2017-09-07 21:57:53 1044

原创遇到Kotlin使用中的问题，及解决办法

1.使用Activity的this对象。在Activity中经常要用到Context，在Java中这很容易，假如当前Activity是MainActivity。那么在这个Activity的任何地方，都可以使用MainActivity.this获得Activity的对象。但是在使用Kotlin时，网上能够查到的代码都是这样获取Activity对象的MainActivity@this在一般情况下

2017-09-07 18:52:53 1548

原创 Google官方刷题资源

恩，Google也有官方刷题资源了，通过这个网站（https://techdevguide.withgoogle.com/）可以看看对于Google来说作为一个程序员你需要掌握哪些东西。不过这个网站是英文的，昨晚看了一下，鉴于自己的英语水平和数据结构水平，第一题就没做出来。。。Google 针对不同受众还提供了三条学习路线：Foundations Path：面向比较喜欢基础内容的开发者。 Ad

2017-09-07 11:01:03 744

Google ARCore Sample APK

空空如也