TNGAI-CSDN博客

原创数据湖架构—读书笔记[2]--数据的生命周期

今天的学习主要内容是关于数据湖想要具备分析操作的能力，还需要把数据分解为几个数据池：

2017-10-31 08:32:18 1005 1

原创数据湖架构—读书笔记[1]

“数据仓库”之父Bill Lnmon最新力作，设计数据湖以避免垃圾存储最近剁手选购了一篇新书，大都是之前未接触过得，有些纯技术，有些也纯是扫盲的概念书，为了不浪费，通过每天写笔记的形式读完：

2017-10-27 09:20:32 2566 2

翻译机器学习的十个误区

原文：https://medium.com/@pedromdd/ten-myths-about-machine-learning-d888b48334a3 作者：Pedro Domingos 翻译：AI梦蝶译者注：在本文中，主要介绍了机器学习人员10种可能的认识误区。

2017-05-31 17:04:22 1674

翻译参数与非参的机器学习算法

原文：http://machinelearningmastery.com/parametric-and-nonparametric-machine-learning-algorithms/ 作者：Jason Brownlee 翻译：AI梦蝶译者注：这篇文章中主要介绍了参数和非参的一些机器学习模型的区别。一个参数机器学习算法是什么，与非参的机器学习算法又有什么不同呢？在这篇文章中

2017-05-26 18:34:07 6572 2

原创数据预处理：AMiner to JSON

1、处理需求主要处理的数据来自己Extraction and Mining of Academic Social Networks官网链接的数据集，本文以“AMiner-Paper.txt”为例。原始数据如下：处理之后的结果如下：2、处理代码如下#AMiner数据转换成JSON数据格式#待处理和处理后数据的文件路径inputPath = u"D:/DataSets/AMiner/AMine

2017-05-16 17:47:12 1918

原创 Win10：基于Anaconda 4.2.0安转tensorflow 1.0.0（CPU版）

1、安转必备软件：Anaconda 4.2.0 截止到本文写出前，最新Anaconda的windows版本是4.3.1，这个版本是集成了Python 3.6，但是TensorFlow 官网上显示的是安转要求是Python 3.5.x: 所以我们直接下载Anaconda 4.2.0，在国内的话，建议去清华镜像（清华镜像地址）下载比较快。2、详细的安转过程这一步很轻松，但是也要注意一些细节，我们

2017-05-15 12:00:45 2101

原创 R：Shiny-优雅的数据分析交互Web框架

漫不经心，发现了R语言中的RStudio IDE中可以创建一个优雅的Web数据分析简单框架，这就是Shiny package。

2017-04-25 17:15:07 3389

翻译吴恩达—渴望机器学习（卷一）

AI 工程师在深度学习时代的技术战略1、为什么是机器学习战略机器学习是无数重要的应用程序的基础，包括网络搜索、电子邮件反垃圾邮件、语音识别和产品推荐等等。我假设你或者你的团队正在开发一个机器学习应用，并且想要获得一个快速进展。这本书将会帮你这样做。例子：建立一家猫图片的初创公司假设说你正在准备建立一个家创业公司，给猫爱好者提供无尽的猫图片。你使用一个神经网络建立了一个计算机视觉系统，用于识别

2017-03-28 09:41:20 877

原创 Java入门基础_学习笔记[5]_接口与内部类

Java基础—接口（Interface）1、接口（1）接口不是类，是一组对类的需求描述。所以更不能使用new，不能构造接口的对象，但是可以声明接口变量。这个变量引用实现了接口的对象。与抽象类类似。（2）定义：public interface inclass<T>{ int compare(T other);}泛型是SE5.0之后开始改进的，接口中的所有的方法自动是public，可以不需要

2016-09-09 17:27:36 324

原创 Impala基础—学习笔记[5]

1、Impala的理论基础Dremel 　　（1）Dremel：基于GFS、MR和bigTable的分析引擎。在论文中，1PB数据3秒可以处理完。2、Impala的架构　　（1）Impala Daemon：包括Query Planner、Query Coordinator、Execution和HDFS和HBase。也就如下图：　　（2）Impala Daemo

2016-09-07 20:55:04 939

原创 Tableau10.0学习笔记—入门[1]

Tableau-初始1、Tableau介绍 Tableau集数据导入、分析和发布一体的数据可视化分析平台，目前提供了Tableau 公共版、专业版和服务器版。除了公用版，其他版本是收费。不过对于一个数据分析师解放很多苦力工作，能有更多的时间放在业务分析上。目前版本到了tableau10.0，如下图：　　　　　　　　1、Tableau初次使用　　（1）怎样下载和安转之类的就不累

2016-08-23 11:59:36 949

原创 Hive性能与调优—学习笔记[4]

1、Hive SQL的基本实现（Join、Group by、Distinct）（1）Join实现：Hive不支持关联字查询。例如：select t1.name,t2.name from t1 join t2 on t1.id=t2.id; （2）Group by实现：select tab.feature1,tab.feature2,count(*) from tab group by

2016-08-18 17:29:36 376

原创 Hive与ETL基础—学习笔记[3]

Hive与ETL基础1、日志收集 2、Hive数据类型 3、Hive表与分区 4、Hive基本操作 5、Hive常用函数 6、HDFS文件格式 7、Hive表压缩存储 8、ORCFile 9、Hive SerDe1、Flume：日志收集常见的收集日志的工具有两种：（1）最早收集日志的是Facebook开发的 Scribe。开源。（2）Flume更加完善如上图所示。HDFS批处

2016-08-18 11:43:03 7347

原创 MapReduce编程基础—学习笔记[2]

1、MapReduce编程模型　　（1）Record reader：读取hdfs文件；　　（2）Map：把hdfs的结果映射成另一种结果，比如WordCount这个例子而言，就是把读进来的文本，映射成一个这样逻辑；　　（3）Combiner：很重要的一个功能，很多MR可以没有，但是性能会下降。实现数据减少的操作，在MAP端做一个局部的Reduce；　　（4）Par

2016-08-17 14:29:16 390

原创 DataWarehouseBasedOnSQLHadoop—学习笔记[1]

1、Hadoop Ecosystem 　　（1）结构化、非结构化数据统一存储平台：结构化数据是通常所说的行数据（如数字、符号等信息），存储在关系数据库中，可用二维表来表示。半结构化数据通常指的是一个实例的字段（特征/属性）数目是不固定。比如HTML文档，比如树、图数据。非结构数据是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据（全文文本、图象、声音、影视、超媒体

2016-08-16 14:24:12 290

原创 Linux-必须熟悉的常用命令集

0、Linux的目录结构 /: 根目录　　/bin: binary的简写，存放一些系统的必要命令，例如cp、cat、chmod、mkdir等；　　/boot：存放系统的内核集启动文件　　/dev：存放设备文件　　/etc：存放系统配置文件　　/home：普通用户的宿主目录，存放其相关数据　　/mnt ：存放临时的映射文件系统。

2016-08-12 14:17:40 311

原创 Imbalance Dataset ->Unsupervised learning

1、写在前面　　话题不知从何起？本不该在这个环境公开自己一些不太成熟的Ideas。但好的总结对自己的认识也会提高一些，同时也刚好清楚自己正需要解决一个什么问题（研究领域）？在此，简单地介绍一下自己的研究方向。2、研究基础（1）入门论文：文本挖掘是大方向，入门级论文，包括LDA、HDP和PYP。这是导师建议的精度论文，仅仅只是进入这个研究领域。学会一种思想，概率生成模型的思维去解释这个世

2016-08-11 22:12:30 635 2

原创 CentOS7：常用命令-笔记

1、[root@localhost ~]: 表示root用户登入到主机localhost上，~表示当前的目录是root的home 目录。2、yum： Yellow dog Updater, Modified。Fedora和RedHat以及CentOS中的Shell前端软件包管理器，从指定的服务器自动下载RPM包并且安装，自动处理依赖性关系，一次安装所有依赖的软件包。例如：yum -y inst

2016-08-11 21:02:29 496

原创 Java入门—学习笔记[3]

1、类: 构造对象的模板。我的理解是某一些具有共性的事物的归纳。比如说，小张、小钟和小夏，是一个特定的对象，但是可以归并一个更抽象的概念中，人。 2、对象: 具体特定一个实例，是人有很多，但是叫小钟（名字唯一）只有一个。包括行为、状态和标识符。 3、实例: 我们把一个是人的对象可以确定为一个为具体的人的过程。 4、封装: 针对于对象而言，把数据和行为封装在一起。提供重用

2016-08-09 16:00:04 319

原创 Java入门—学习笔记[2]

1、数据类型：　　（1）Java中有8中基本类型，4种整型，2种浮点类型，1种表示Unicode编码的字符类型char和1种表示真值的boolean类型。　　（2）Java中的“big number”，表示任意精度的算术包，但不是一种新的Java类型，而是一个Java对象。　　（3）在Java中，所有的数值类型所占据的字节数量与平台无关，也没有任何无符号类型。这在C和C++中

2016-08-01 10:40:31 233

原创 Java入门—学习笔记[1]

写在前面：最近忙着找工作，希望可以就职的岗位是“数据分析师”。发现自己的程序编程能力确实很Low。决定趁这段时间强化复习一遍。1、一个简单java应用程序引发的故事public class SimpleSample{ public class static void main(String args[]) { System.out.println("We will

2016-07-30 18:09:04 214

原创 R语言常用命令集

1、Window+RStudio更新Ｒ版本载入installR包: library(installr)执行更行语句: updateR()2、中断R语言程序运行Ctrl+C3、RStudio中安转Github上的包（1）安转包“devtools”：install.packages("devtools") (2)安转github上的包：install_github("*****")4、查看实例

2016-07-29 17:16:28 2887

原创如何写好自己的Paper？

学习做研究差不多有两年多了，第一次尝试过是领域内的一个二区会议（SDM）。毋庸置疑，是以流产告终，但是也得到同行三位评审的详细意见。指出了很多一个刚踏入研究领域的我来说，犯了很多通常的错误。当下可能是要解决的是“如何构思一篇可以表达自己想法的Paper？” 　　后来也去买了一些书籍，学习他人是怎么写好一篇Paper的？所以把一些关键的知识点摘录了下来。 1. 学会列提纲：

2016-07-29 15:58:37 1038

多数机器学习应用的目标是在给定一个输入特征的向量 x⃗ \vec{x} 下，预测一个向量c⃗ \vec{c}。在分类问题上，c⃗ \vec{c}代表一个离散的类别标签；然而在回归问题上，c⃗ \vec{c}表示一个或者多个连续变量。从概率的角度，我们的目标是找到条件分p(c⃗ |x⃗ )p(\vec{c}|\vec{x})。这个问题的大多数常用的解决方法是通过一个参数模型描述这个条件分布，然后使用一

2016-07-26 21:43:35 219

原创 DataScientist— 须知知识（1）

年初的早些时候，偶然在网上，看到一篇关于“20个数据科学家必知的面试题”。这篇帖子中，例举了20个面试问题，有很多问题，一时也无法给出一个自己觉得可说的所以然。所以回去翻了翻书籍和网上的一些理解，重新去回顾和整理了这些相关的基础知识。　　这篇日志总结的是第一个问题基本认识：“解释什么是正则化，以及有哪些用途？” 　　参考来源：（1）维基百科；（2）Coursera公开课笔记；（3）

2016-07-25 15:36:12 362

原创 PaperWriting——LaTeX编辑小技巧积累[1]

Latex

2016-07-25 15:26:00 1045

原创 MLAPP学习笔记-KNN与K-means引发的思考

MLAPP学习笔记-KNN与K-means引发的思考　　依稀记得在一次组内的学习交流中，老师给大家分享“机器学习”的课程时。正当老师提到了“KNN”这个分类模型，在黑板上写出“K”这个字母，自己下意识地随口蹦出“K-means”这个模型了。老师停顿了一下，把KNN写完了。其实那时讲的就是监督学习类型，所以说出“K-means”实属不该的。可是看到“K”这个字母，让自己联想的模型，自然就是最近一

2016-07-25 15:12:38 1312 2

原创 MLAPP学习笔记-Data Mining和Machine Learning的区别及延伸

MLAPP学习笔记-Data Mining和Machine Learning的区别及延伸一、写在前面　　从上学开始，都习惯把笔记记录在纸张上，大多数是觉得可以偶尔练练字什么的。但问题是时间一长的笔记就很容易遗失，不管是纸张老化还是自己不知道扔哪了。另一个是，自己本身也是从事数据分析这个方向，看得最多还是电子版的资料。所以，决定试着把笔记也通过写博客的方式来积累。二

2016-07-25 14:49:00 4264 1

好了~接下来