gao8658-CSDN博客

原创推荐几个值得关注的技术公众号

排名不分先后：（1）ABC技术研习社为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。（2）布洛卡区自然语言处理技术相关技术介绍。（3）计算广告计算广告行业及技术介绍。（4）云技术实践云计算技术汇总及社群。...

2018-03-25 09:49:55 4980

原创深度学习-问题模型优化

技术是随着问题而产生的，如果不从要解决问题的角度出发应用技术，最终会演化为技术堆砌，并由于每个技术点的副作用进而引起新的问题。以问题驱动的方式总结常用的模型训练方法和这些训练方法要解决的问题。这些训练方法一般在论文中都能找到这些较为常用的配置，将分为两个部分，一个部分是CNN，一个部分是RNN。共性的部分一般放在CNN部分.1 CNN1.1 weight decay解决问题：...

2018-08-17 17:00:45 1561

原创机器学习-决策树算法

1 决策树决策树是一种能解决分类或回归问题的机器学习算法。其有良好的扩展性，可以产生多种变种。并且结合模型融合方法扩展新的算法AdaBoost，GBDT等算法。参考文章：C4.5算法详解（非常仔细）:https://blog.csdn.net/zjsghww/article/details/51638126解释很详细：http://www.saedsayad.com/...

2018-08-10 10:45:46 2507

原创机器学习-Python自然语言处理库

自然语言处理的库非常多，下面列举一些对Python友好，简单易用，轻量，功能又全的库。1 中文中文自然语言处理工具评测：https://github.com/mylovelybaby/chinese-nlp-toolkit-testawesome: https://github.com/crownpku/Awesome-Chinese-NLPHanlp地址：https://git...

2018-08-06 17:31:54 911

原创 NLP-词和文档向量化方法

0 为什么要向量化？向量化文本就可以将一些文本处理问题转换为机器学习问题：0.1 机器学习问题：文本分类，文本聚类，情感分析等，输入到seq2seq等模型需要数字化的词的表示形式。0.2 文本、关键词检索问题(算相似度)：关键词搜索，文档检索等计算机去理解文本的语义核心在于通过词和上下文统计词的分布去表示文本，或通过几何的视角通过词上下文去找到词在空间中的几何表示（深度学习方法）。...

2018-08-06 17:25:02 5801

原创机器学习-向量检索+存储格式技术

(1) 向量相似性检索算向量相似度在很多算法中都有应用，对大规模服务来说，如何加速向量检索与相似度计算是非常有价值的。应用场景：1 机器学习算法内部步骤：KNN, K-means2 向量相似搜索：图像检索，word关键词检索下面列出了其中的一些方式和方法：两个问题：- 1 检索-相似向量检索：引用自：http://www.flickering.cn/a...

2018-08-03 12:06:52 4335

原创机器学习-Bias-Variance

对Bias和Variance的来源的解释Bias：来源于训练集中没有的，测试集中存在的data产生的。Variance：来源于训练集里有的，但是测试集里没有的，且不应该属于ground truth的data（这里其实有个假设：就是test data认为是没有噪音的，完全是ground truth）。三个值h相当于模型对训练集不含有variance的数据进行拟合产生的最...

2018-08-01 17:30:29 740

原创工程细节-上手一门语言-并制作一个服务-需要考虑哪些方面？

开源越来越流行，所接触的语言也越来越多，如何快速上手一门语言与能够工程化的解决问题是很有必要的。1 基本语法项目包类函数循环IF/ELSE基本运算变量2 常用特性以资源视角看待这个问题：CPU：并发与锁（同步协议）内存：容器磁盘：IO文件系统 / DB网络：网络IO（同步与异步等）集群：分布式系统问题 : HA-共识协议 / Part...

2018-07-20 17:09:31 300

原创深度学习-增强学习概览

(1) DQN与DDPG离散状态：DQN是一个面向离散控制的算法，即输出的动作是离散的。对应到Atari 游戏中，只需要几个离散的键盘或手柄按键进行控制。然而在实际中，控制问题则是连续的，高维的，比如一个具有6个关节的机械臂，每个关节的角度输出是连续值，假设范围是0°~360°，归一化后为（-1，1）。若把每个关节角取值范围离散化，比如精度到0.01，则一个关节有200个取值，那么6个...

2018-07-20 11:06:48 1339

原创深度学习-物体检测概览

1 物体检测任务输入：图像输出：Bounding Box（回归任务）：矩形边界框框出物体位置物体类别（分类任务）：判断矩形框内的物体类别2 物体检测评测指标2.1 Top1%和Top5%正确率参考：https://stats.stackexchange.com/questions/156471/imagenet-what-is-top-1-and-top-5-error...

2018-07-19 18:03:20 2823 3

原创机器学习-机器学习常见算法时间复杂度

有了算法复杂度的估计，才有了整个算法更好的优化头绪和方向。1. KNN时间复杂度o(n*k)：n为样本数量，k为单个样本特征的维度。如果不考虑特征维度的粒度为o(n)空间复杂度o(n*k)：n为样本数量，k为单个样本特征的维度。如果不考虑特征维度的粒度为o(n)参考：https://blog.csdn.net/saltriver/article/details/52502253...

2018-07-18 17:08:51 21237 2

原创深度学习-End to End自动驾驶

下面内容从端到端的自动驾驶的方案看相关技术脉络： 1988年，ALVINN: An Autonomous Land Vehicle In a Neural Network 已经有人开始尝试使用End-to-End。但局限于30×32像素，还没有CNN，这样也能在简单道路上实现自动驾驶。方案：采用全连接神经网络，输入viedo和laser range finder作为输入。...

2018-07-18 13:51:12 3815

原创深度学习-深度学习集群管理方案

相比之前如火如荼的大数据作业和负载以及集群硬件情况。深度学习平台的作业和硬件环境有了一些新的不同和趋势：作业：相比大数据作业，工作流workflow相比之前的大数据workflow来看相对简化，而将复杂DAG计算图推到了单独的深度模型中。 Training 和 Serving的需求逐步分离。训练过程类似之前大数据批处理作业。深度学习集群更多的解决训练问题。serving相比Tr...

2018-07-17 16:46:28 8091

原创机器学习-KNN算法

(1) KNN算法解决什么问题？KNN是一种机器学习算法，可以解决下面问题：分类问题回归问题离群点检测 (2) KNN算法流程计算测试数据与每个训练数据之间的距离；按照距离的由小到大进行排序；选取距离最小的K个点；确定前K个点所在类别的出现频率；（回归问题求K个点的均值）返回前K个点中出现频率最高的类别作为测试数据的预测分类。(3) KNN算法实现...

2018-07-16 17:07:10 602

原创深度学习-玩转GPU

随着深度学习不断渗透到各个AI应用场景，越来越多的研发人员开始依赖GPU算力加速深度学习模型的训练。也有人戏称GPU为深度学习领域的核武器，虽然很多芯片公司都提供了相应的芯片解决方案，但是较为主流的方式还是选用英伟达的GPU并使用上层的CUDA和cuDNN驱动生态进行深度学习应用的开发。由于英伟达新品不断推出，我们列举特定型号的GPU没有太大意义，所以结合选型的不同场景和需求，根据场景进而...

2018-03-28 18:37:41 3996

原创深度学习-在线推断（Inference）技术

深度学习一般分为训练和在线推断两个部分，大家平时经常关注的多为训练阶段，也就是搜索和求解模型最优参数的阶段。而当模型参数已经求解出来，如何使用模型，以及在在线环境中部署模型，也是非常重要的。一般会比较关注其中的一些技术点：访问延迟吞吐量模型版本管理 DevOps 大公司较为倾向自己造轮子，而小公司更倾向于用开源方案。 1 软件层： 1....

2018-03-28 18:15:04 25920

随着深度学习如火如荼的发展，越来越多的深度学习框架开始涌现出来，群雄逐鹿，鹿死谁手还未确定，基于现有团队的技术沉淀和应用场景的需求，进行框架选择是较为稳妥的方案。1. TensorFlowTensorFlow是Google推出的深度学习框架，Tensorflow让用户可以快速设计深度学习网络，将底层细节进行抽象，而不用耗费大量时间编写底层CUDA或C++代码。官网链接：https://www.te...

2018-03-28 18:03:28 1804

原创深度学习-经典CNN网络

以下是经典的卷积神经网络结构的总结，从中我们可以了解到整个CNN的发展趋势和进化方向。LeNet：较早的深度神经网络结构。 AlexNet：相比LeNet，网络更深。使用了堆叠卷积层来做特征提取，通常是一个卷积层之后连接一个MaxPooling层，形成网络结构。 GoogLeNet：减少参数数量，最后一层用Max Pooling层代替了全连接层，同时引入Inception-v4模块的使用。...

2018-03-28 17:51:23 2292

原创笔试面试-算法刷题

国外大部分互联网公司在笔试面试环节会考察白板或白纸写算法题，国内的很多互联网公司的开发职位也会考相应的算法题目。这里指的算法是类似“数据结构与算法”中类似的题目或一些智力题类似的题目。为什么会考？面试官出于短时间检验面试者Coding能力，以及目前缺乏又快又经济的检验面试者的考察形式，所以刷题逐步成为很多开发岗位的必考环节。无论是应届生还是社招，花费一定的时间进行...

2014-11-18 22:51:40 1430

原创大数据系统-SQL on Hadoop构建OLAP的基石

SQL on Hadoop是泛指大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库或数据仓库类似，接受SQL，返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。系统设计者和用户比较关注其中一些技术点：接口层：是否兼容以往SQL标准，迁移以往工作负载以及平滑过渡甲方历史遗留作业。查询优化器层：能否将SQL转换为优化的分布式执行作业，深挖分布...

2014-06-21 23:53:07 1135

原创大数据系统-系统优化与算法优化方向

大数据系统面临的问题一般是有以下几个问题造成的：数据分布变化产生新的挑战。计算环境为分布式集群。针对系统执行过程中的作业，参考开源系统与研究论文可以看到大家比较关注的一些优化方向：1. 存储层：列存储和文件排布：Major Technical Advancements in Apache Hive压缩：Choosing a Data Compression Form...

2014-02-22 22:50:52 2664 1

原创笔试面试-白板写算法的思路

在准备算法题的过程中，除了基本的典型的解决方法之外，也可以发现一些通用的思考点和解决方法。这样对一般较为通用的问题，能较快的给出一个不太完美的方案或者渐进的逐步进行优化。1. 约束的转换：时间复杂度和空间复杂度往往可以通过5中的额外存储，记录之前的计算结果或重复运算达到拿空间换时间的目的，进而Trade Off时间复杂度与空间复杂度。2. 预处理排序，目的能用二分查找，加速搜索。3. 搜...

2014-02-09 20:24:05 1770

原创大数据系统-SparkSQL基于内存的大数据分析引擎

[1]参考文章：高彦杰，陈冠诚 Spark SQL : 基于内存的大数据分析引擎《程序员》2014 . 8AMPLab将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等类型的查询需求，也需要提供SQL接口来兼容原有数据库用户的使用习惯，同时也需要SQL能够进行关系模式...

2013-11-30 22:55:47 2605

转载大数据系统-Hive的3种数据存储格式

关系数据库里有表（table），分区，hive里也有这些东西，这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型，数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。　　首先我要讲讲hive的数据类型。　　Hive支持两种数据类型，一类叫原子数据类型，一类叫复杂数据类型。　　原子数据类型包括数值型、布尔型和字符串类型，具体如下表所示：基本数据类型...

2013-11-21 20:02:24 13574

原创大数据系统-Spark生态系统

目前，Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈（BDAS）。其核心框架是Spark，同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL，提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib，并行图计算框架GraphX，流计算框架SparkStreaming，近似查询引擎BlinkDB，内存分布式文件系...

2013-11-17 16:03:11 1699

原创机器学习-损失函数

1似然函数(参数取值可能性最大)em算法中，估计参数的可能性大小2误差平方和（表征整体误差最小）线性回归的最小二乘法中，参数估计3准确率（返回结果的正确率，占的比例），召回率（返回正确结果的数量大小）查询返回的正确信息中4置信度（规则的在前置条件下的条件概率），支持度（项集占总体的大小，是否频繁）统计频繁项和关联规则5信息熵(描述整个信息集合需要的信息量大小，越大越占空间)决策树，进行划分的评判6...

2013-11-17 15:39:09 1262

原创大数据系统-图数据分析

图数据分析技术流派：用于联机事务图的持久化技术（通常直接实时地从应用程序中访问）。这类技术被称为图数据库，它们和“通常的”关系型数据库世界中的联机事务处理（Online Transactional Processing，OLTP）数据库是一样的。（Traversal Based Online Queries）用于离线图分析的技术（通常都是按照一系列步骤执行）。也就是常见的图机器学习技术。...

2013-11-17 15:23:16 2291

原创大数据系统-流计算Spark Streaming

Spark Streaming是构建在Spark上的实时计算框架，扩展了Spark流式大数据处理能力。Spark Streaming将数据流以时间片为单位进行分割形成RDD，使用RDD操作处理每一块数据，每块数据（也就是RDD）都会生成一个Spark Job进行处理，最终以批处理的方式处理每个时间片的数据。Spark Streaming架构通过图3-11，读者可以对Spark Stream...

2013-11-17 15:10:57 1701

原创机器学习-Spark MLlib

MLlib是一些常用的机器学习算法和库在Spark平台上的实现。MLlib是AMPLab的在研机器学习项目MLBase的底层组件。MLBase是一个机器学习平台，MLI是一个接口层，提供很多结构，MLlib是底层算法实现层。 MLlib中包含分类与回归、聚类、协同过滤、数据降维组件以及底层的优化库。MLlib组件图通过这幅图读者可以对MLlib的整体组件和依赖库有一个宏观的把握。下面...

2013-11-17 12:18:32 1325

原创机器学习-相似度计算

在很多机器学习算法和任务中，经常需要度量两个样本或向量之间的距离或相似度，下面列出一些常见的度量方式及其应用：1.常见的距离算法　　　　1.1欧几里得距离（Euclidean Distance）基本上就是两个点的空间距离，下面这个图就能很明显的说明他和余弦相似度区别，欧式距离更多考虑的是空间中两条直线的距离，而余弦相似度关心的是空间夹角。　　　　1.2曼哈顿距离（Manhattan Dis...

2013-11-17 12:06:26 2266

原创深度学习-深度学习开源框架汇总

随着深度学习如火如荼的发展，越来越多的深度学习框架开始涌现出来，群雄逐鹿，鹿死谁手还未确定，基于现有团队的技术沉淀和应用场景的需求，进行框架选择是较为稳妥的方案。1. TensorFlowTensorFlow是Google推出的深度学习框架，Tensorflow让用户可以快速设计深度学习网络，将底层细节进行抽象，而不用耗费大量时间编写底层CUDA或C++代码。官网链接：https://www.te...

2013-08-17 07:55:22 1405

转载工程实践-Java内存泄漏的定位与分析

1、为什么会发生内存泄漏java 如何检测内在泄漏呢？我们需要一些工具进行检测，并发现内存泄漏问题，不然很容易发生down机问题。编写java程序最为方便的地方就是我们不需要管理内存的分配和释放，一切由jvm来进行处理，当java对象不再被应用时，等到堆内存不够用时，jvm会进行垃圾回收，清除这些对象占用的堆内存空间，如果对象一直被应用，jvm无法对其进行回收，创建新的对象时，无法从Heap中获...

2013-08-17 07:48:06 1095

原创大数据系统-图数据查询与存储

图数据管理即需要上层查询API的支持，也需要底层数据存储的支撑。图数据库查询语言Gremlin (Thinker pop, Titan)Cypher (Neo4j)SQL … 图查询Gremlin实例：图数据存储在处理图数据时，其内部存储结构往往采用邻接矩阵或邻接表的方式图分布式存储图数据分布式存储有两种分区形式，按vertex进行划分或者按edge进行划分。 ...

2013-07-07 10:16:47 2136

原创 Nosql与Sql矛盾的两个方向

1nosql以牺牲完整性约束来换取高可扩展性。2nosql本质为将sql中所有的表连接成一个表,这样产生了大量的null值小格，然后将所有相同类型的列合并成列族，然后将每个列族拆分成一个表，这样进而消除了null值小格3本质两个是一个不同的方向以牺牲一个获取另一个极端，所以每种技术都不会被取代，只是为了适用的情况不同。4nosql是灵活的极端，sql是完整性约束的极端，灵活与约束是一对矛盾，以后应...

2013-05-28 14:23:30 742

原创数据库

总结1 数据（范式），索引，元数据（词典）2完整性约束（一致性问题，有冗余数据引起）3查询（优化），增删改4 性能（并行，分布，流水--引起同步和互斥问题），安全性（又有意或无意的异常操作引起），可靠性（故障引起，恢复处理）...

2013-03-16 10:02:36 764

转载同步互斥发展历史算法

1、单标志法：P0进程： P1进程：while（turn ！= 0）； while（turn ！= 1）；critical section critical sectionturn = 1； turn = 0；remainder section remainder section缺点：必须交替运行掌握软件实现互斥同步的发展过程2、双标志法先检查：第二章进程管理Pi进程： Pj进程：while（fl...

2013-02-20 21:14:24 1328

转载 Java GC 算法总结

当一个对象不再被引用的时候，内存回收它占领的空间，以便空间被后来的新对象使用。除了释放没用的对象，垃圾收集也可以清除内存记录碎片。 1、引用计数法(Reference Counting Collector) 引用计数法是唯一没有使用根集的垃圾回收的法，该算法使用引用计数器来区分存活对象和不再使用的对象。一般来说，堆中的每个对象对应一个引用计数器。当每一次创建一个对象并赋给一个变量时...

2013-01-13 09:07:38 577

转载 SQL优化34条

我们要做到不但会写SQL,还要做到写出性能优良的SQL,以下为笔者学习、摘录、并汇总部分资料与大家分享！（1）选择最有效率的表名顺序(只在基于规则的优化器中有效)：ORACLE 的解析器按照从右到左的顺序处理FROM子句中的表名，FROM子句中写在最后的表(基础表 driving table)将被最先处理，在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的...

2011-09-12 17:02:05 484

数据挖掘：概念与技术.pdf

信息检索导论中文版.pdf

MS-DOS.6.0源代码].MS-DOS.6.0.Source.Code.zip

2011继续教育挂机自动学习助手（免费通用版）V3.6

com原理与应用潘爱民

编译原理陈意云pdf

masm611汇编

牛刀汇编教程

ollydbg汉化版v2.01

oracle9i pl/sql程序设计pdf

空空如也