Zoin-CSDN博客

原创四非计算机推免

四非计算机推免我个人背景为什么要写这个？夏令营北大软微北大叉院复旦大数据浙大计算机院预推免中科院国防科技大学浙江大学中山大学北大软微北大叉院复旦大数据厦门大学四川大学重庆大学同济大学天津大学南京大学东南大学中南大学武汉大学华中科技大学华东师范大学总结我个人背景本人杭州的一所四非学校，计算机金融专业，绩点4.19，学院排名1/307，拿了省政府奖学金、校十佳大学生等等荣誉。3项国奖、4项省奖、...

2018-09-29 15:44:52 2793 11

原创博物馆AR虚拟合影

一、项目概述该项目是将博物馆中的文物虚拟化，利用AR增强现实技术与到访的游客进行合影，让文物不再只可远观，带来别样体验。有APP和服务端，APP进行AR合影后将图片上传到服务器，游客通过扫描合影图片右下角的二维码从服务器上下载图片保存。二、开发环境 win10 jdk 1.8 android studio三、项目体会其实做AR的sdk还是非常多的，一开始用的是artoolki...

2018-07-29 09:26:41 4410

原创大数据技术之sqoop（二）

四、Sqoop 的简单使用案例4.1、导入数据在 Sqoop 中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用 import 关键字。4.1.1、RDBMS 到 HDFS1) 确定 Mysql 服务开启正常2) 在 Mysql 中新建一张表并插入一些数据mysql> create ...

2018-07-17 13:49:09 446

原创大数据技术之sqoop（一）

一、Sqoop 简介Apache Sqoop(TM)是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来，现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。Sqoop2 的最新版本是 1.99.7。请注意，1.99.7 与 1.4.6 不兼容，且没有特征不完整，它并...

2018-07-17 13:19:49 871

原创大数据技术之Hive实战——Youtube项目（二）

三、项目原始数据youtube在此下载：https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ3.1、数据结构3.1.1、视频表 3.1.2、用户表 3.2 原始数据存放地HDFS 目录：视频数据集：/youtube/video/2008用户数据集：/youtube/users/20083.3、技术...

2018-07-16 23:08:07 4068 1

原创大数据技术之Hive实战——Youtube项目（一）

一、需求描述统计 Youtube 视频网站的常规指标，各种 TopN 指标：–统计视频观看数 Top10–统计视频类别热度 Top10–统计视频观看数 Top20 所属类别包含这 Top20 视频的个数–统计视频观看数 Top50 所关联视频的所属类别 Rank–统计每个类别中的视频热度 Top10–统计每个类别中视频流量 Top10–统计上传视频最多的用户 Top...

2018-07-16 21:29:50 6571 1

原创大数据技术之Hive（七）

十一、数据仓库11.1 什么是数据仓库数据仓库，英文名称为 Data Warehouse，可简写为 DW 或 DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。11.2 数据仓库能干什么？1）年度销售目标的指定，需要根据以往的历...

2018-07-15 11:16:54 422

原创大数据技术之Hive（六）

九、企业级调优9.1 Fetch 抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetc...

2018-07-15 10:51:54 438

原创大数据技术之Hive（五）

七、函数7.1 系统自带的函数1）查看系统自带的函数hive> show functions;2）显示自带的函数的用法hive> desc function upper;3）详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数1）Hive 自带了一些函数，比如：max/m...

2018-07-15 10:17:39 390

原创大数据技术之Hive（四）

五 DML 数据操作5.1 数据导入5.1.1 向表中装载数据（Load）1）语法hive&gt;load data [local] inpath ‘/opt/module/datas/student.txt’ [overwrite] into table student [partition (partcol1=val1,…)];（1）load data:表示加载数据（2...

2018-07-14 17:11:09 605

原创大数据技术之Hive（三）

三、Hive 数据类型 3.1 基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。3.2 集合数据类型 Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Arra...

2018-07-14 16:36:01 594

原创大数据技术之Hive（二）

二 Hive 安装环境准备2.1 Hive 安装地址1）Hive 官网地址：http://hive.apache.org/2）文档查看地址：https://cwiki.apache.org/confluence/display/Hive/GettingStarted3）下载地址：http://archive.apache.org/dist/hive/4）github...

2018-07-14 16:00:24 1069

原创大数据技术之Hive（一）

一、Hive 基本概念1.1 什么是 Hive　　Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。　　Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。　　本质是：将 HQL 转化成 MapReduce 程序　　1）Hive 处理的数据存储在 HDFS　　2）Hive 分析数据底层的实...

2018-07-14 15:35:02 2056 1

原创大数据技术之HDFS文件系统（三）

四 HDFS 的数据流4.1 HDFS 写数据流程4.1.1 剖析文件写入 1）客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件，namenode 检查目标文件是否已存在，父目录是否存在。2）namenode 返回是否可以上传。3）客户端请求第一个 block 上传到哪几个 datanode 服务器上。4）namenod...

2018-07-04 10:34:19 482

原创大数据技术之HDFS文件系统（二）

三 HDFS 客户端操作3.1 HDFS 客户端环境准备3.1.1 jar 包准备1）解压 hadoop-2.7.2.tar.gz 到非中文目录2）进入 share 文件夹，查找所有 jar 包，并把 jar 包拷贝到_lib 文件夹下3）在全部 jar 包中查找 sources.jar，并剪切到_source 文件夹。4）在全部 jar 包中查找 tests.jar，并剪...

2018-07-04 10:02:45 335

原创大数据技术之HDFS文件系统（一）

一 HDFS 概述1.1 HDFS 产生背景　　随着数据量越来越大，在一个操作系统管辖的范围内存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。1.2 HDFS 概念　　HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分...

2018-07-04 09:45:27 1037

原创大数据技术之Hadoop（四）

4.3 完全分布式部署 Hadoop分析：1）准备 3 台客户机（关闭防火墙、静态 ip、主机名称） 2）安装 jdk 3）配置环境变量 4）安装 hadoop 5）配置环境变量 6）安装 ssh 7）配置集群 8）启动测试集群4.3.1 虚拟机准备详见 3.2-3.3 章。4.3.2 主机名设置详见 3.4 章。4.3.3 scp1）scp 可以实现...

2018-06-21 19:38:51 683

原创大数据技术之Hadoop（三）

四、Hadoop 运行模式1）官方网址（1）官方网站：　　　　http://hadoop.apache.org/（2）各个版本归档库地址　　　　https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/ （3）hadoop2.7.2 版本详情介绍　　　　http://hadoop.apache.org/doc...

2018-06-21 19:05:00 594

原创大数据技术之Hadoop（二）

三、Hadoop 运行环境搭建3.1 虚拟机网络模式设置为 NAT 最后，重新启动系统。[root@hadoop101 ~]# sync[root@hadoop101 ~]# reboot3.2 克隆虚拟机 1）克隆虚拟机 2）启动虚拟机3.3 修改为静态 ip 1）在终端命令窗口中输入[root@hadoop101 /]#vim...

2018-06-17 21:26:58 948

原创大数据技术之Hadoop（一）

一大数据概论1.1 大数据概念　　大数据（big data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。　　主要解决，海量数据的存储和海量数据的分析计算问题。　　按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、...

2018-06-17 20:57:43 1050

原创大数据技术之Linux基础（五）

八、VI/VIM 编辑器8.1 概述　　所有的 Unix Like 系统都会内建 vi 文书编辑器，其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。　　Vim 具有程序编辑的能力，可以主动的以字体颜色辨别语法的正确性，方便程序设计。　　Vim 是从 vi 发展出来的一个文本编辑器。代码补完、编译及错误跳转等方便编程的功能特别丰富，在程序员中被广泛...

2018-06-17 16:41:39 280

原创大数据技术之Linux基础（四）

七、常用基本命令7.1 帮助命令7.1.1 man 获得帮助信息 1）基本语法：　　man [命令或配置文件] （功能描述：获得帮助信息）（1）显示说明 NAME 命令的名称和单行描述SYNOPSIS 怎样使用命令DESCRIPTION 命令功能的深入讨论EXAMPLES 怎样使用命令的例子SEE ALSO 相关主题（通常是手册页）（...

2018-06-14 20:39:59 236

原创大数据技术之Linux基础（三）

五、远程登录5.1 SecureCRT && XShell 　　Linux 远程登录及相关工具介绍　　Linux 一般作为服务器使用，而服务器一般放在机房，你不可能在机房操作你的 Linux 服务器。这时我们就需要远程登录到 Linux 服务器来管理维护系统。　　Linux 系统中是通过 SSH 服务实现的远程登录功能，默认 ssh 服务端口号为 22。Windo...

2018-06-14 19:34:45 215

原创大数据技术之Linux基础（二）

三、Linux 目录结构3.1 概览 3.2 树状目录结构 /bin：是Binary的缩写，这个目录存放着系统必备执行命令 /boot：这里存放的是启动Linux时使用的一些核心文件，包括一些连接文件以及镜像文件，自己的安装别放这里 /dev：Device(设备)的缩写，该目录下存放的是Linux的外部设备，在Linux中访问设备的方式和访问文件的方式是相同的。 /e...

2018-06-14 16:45:20 411

原创大数据技术之Linux基础（一）

一、Linux入门概述1.1 概述　　Linux 内核最初只是由芬兰人林纳斯·托瓦兹（Linus Torvalds）在赫尔辛基大学上学时出于个人爱好而编写的。　　Linux 是一套免费使用和自由传播的类 Unix 操作系统，是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。Linux 能运行主要的 UNIX 工具软件、应用程序和...

2018-06-14 16:09:13 323

原创 2018年浙江省第十五届程序设计省赛总结

2018年4月29日浙江省程序设计竞赛热身赛上午试机前跑到2楼看了下哪种颜色气球多【青蓝紫黑粉】，试机时看了下热身赛题目，好像就是浙大校赛原来的热身赛题没多大差别啊。。。试机的时候调了一下环境，不过之后问了下监考的小哥哥，居然说下午位置应该是会换的。。。心里一惊，试完机就去吃饭了【虽然最后下午没换】正式赛比赛前10分钟左右进场，我又去二楼看了眼气球，差不多还是那些颜色【青蓝紫黑粉】...

2018-04-29 22:14:08 2008

原创自动化构建工具——maven学习（四）

15.依赖[高级] 　　①依赖的传递性　　　[1]好处：可以传递的依赖不必在每个模块工程中都重复声明，在“最下面”的工程中依赖一次即可。　　　[2]注意：非compile范围的依赖不能传递。所以在各个工程模块中，如果有需要就得重复声明依赖。　　②依赖的排除　　　[1]需要设置依赖排除的场合　　　[2]依赖排除的设置方式　　③依赖的原则　　　[1]作用：解决

2018-02-02 11:09:07 921

原创自动化构建工具——maven学习（三）

11.仓库　　①仓库的分类　　　[1]本地仓库：当前电脑上部署的仓库目录，为当前电脑上所有Maven工程服务　　　[2]远程仓库　　　　（1）私服：搭建在局域网环境中，为局域网范围内的所有Maven工程服务　　　　（2）中央仓库：架设在Internet上，为全世界所有Maven工程服务　　　　（3）中央仓库镜像：为了分担中央仓库的流量，提升用户访问速度　　②仓库中保存的

2018-02-02 10:48:24 222

原创自动化构建工具——maven学习（二）

5.Maven的核心概念　　①约定的目录结构　　②POM 　　③坐标　　④依赖　　⑤仓库　　⑥生命周期/插件/目标　　⑦继承　　⑧聚合 6.第一个Maven工程　　①创建约定的目录结构　　　[1]根目录：工程名　　　[2]src目录：源码　　　[3]pom.xml文件：Maven工程的核心配置文件　　　[4]main目录：存放主程序　　　[5

2018-02-01 22:28:30 186

原创自动化构建工具——maven学习（一）

1.系统的层次结构及对应的技术 2.目前的技术在开发中存在的问题【Why】　　①一个项目就是一个工程　　　如果项目非常庞大，就不适合继续使用package来划分模块，最好是每一个模块对应一个工程，利于分工协作。　　　借助Maven就可以将一个项目拆分成多个工程。　　②项目中需要的jar包必须手动“复制”、“粘贴”到WEB-INF/lib目录下　　　带来的问题是：同样的ja

2018-02-01 21:52:28 304

原创安卓开发学习——第十四天

1. 理解 2. 操作图片　　1). 保存和读取图片: 　　2). 自定义图形　　3). 定义多状态图形图片　　 a. selector+shape 　　　　 //按下时的图形图片　　　　　 //没有操作时图形图片　　　　　　　b. selector+draw

2018-01-22 11:06:50 217

原创基于python的scikit-learn库实现决策树、贝叶斯、K近邻

1.决策树　　1.1.对于有连续数据的决策树实现（调用包中自带的iris数据）from sklearn.datasets import load_irisfrom sklearn import treeiris = load_iris()clf = tree.DecisionTreeClassifier()clf = clf.fit(iris.data, iris.target)

2018-01-21 22:47:17 1055

原创 python基础学习——第四天（决策树）

1.列表生成式：res=[x*x for x in range(5)] 2.匿名函数：与普通函数的区别#普通函数1. def func(x,y): return x+y#匿名函数2. lambda x,y: x+y3.决策树：　　1.基本算法是贪心（也就是每次取局部最优）　　2.在其生成过程中，分割方法即属性选择度量是关键。通过属性选择度量，选择出最好的将

2018-01-20 20:44:41 302

原创 python基础学习——第三天

1.函数　　1.eval函数：执行一段python的语句　　2.函数的定义：def functionName> (): return variable　　　　深入理解：为什么python中不需要返回类型？　　　　　　python是动态语言，变量的类型是可变的，所以返回类型就无意义　　3.调用函数: functionName(parameter) 　　4.pyt

2018-01-19 19:23:45 317

原创安卓开发学习——第十三天

1. 理解 2. 使用动画　　1). View动画的分类　　2). View动画的使用　　　1. 公用功能　　　 2. 如何指定坐标(中心点, 起始点, 目标点) 　　　　a. 坐标系的原点: 视图的左上角　　　　b. 代码 n 　　　　　绝对 : n px 　　　　　相对于自己 : viewWidth

2018-01-19 12:27:59 212

原创 python基础学习——第二天

1.文件操作　　读文件：　　　　使用方法:open(file, mode=’r’, buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) 　　　　最简单直接的方式是input=open(file)进行使用，file指文件对象，可以是绝对路径，也可以是相对路径，默认读取方式是只读

2018-01-18 18:47:41 255

原创安卓开发学习——第十二天

1. 理解　　1). 为什么要有ContentProvider? 　　2). ContentProvider是什么? 2. 相关API:　　1). ContentProvider: 内容提供者类　　2). ContentResolver: 内容解析器类 : 　　4). Uri: 包含一个具有一定格式的字符串所对应资源的类　　5). U

2018-01-18 11:47:58 218

原创 python基础学习——第一天

1.python环境部署　　1.安装了anaconda环境，在 jupyter notebook上运行python程序　　2.采用的python版本—> python 3.62.python语言特点　　1.“人生苦短，我用python”—> 实现相同功能的代码相对其他语言较短　　2. 动态性语言：变量使用时不用声明类型

2018-01-17 18:43:31 324 2

原创安卓开发学习——第十一天

1. 理论概述1). 特点和作用 2). 相关API 3). 常见广播: 2. 发送广播 3. 注册广播接收器

2018-01-16 15:54:18 190

原创安卓开发学习——第十天

1. Service的理解: 　　1). 区别Service与Activity? 　　2). 区别Service与Thread? 2. Service的定义 3. Service的启动与停止 4. Service的生命周期　　注意:每次startService都会调用Servic

2018-01-16 12:16:08 191

空空如也

空空如也