一棵大树Atree-CSDN博客

原创高斯核函数

高斯核函数 (Gaussian kernel)，也称径向基 (RBF) 函数，就是某种沿径向对称的标量函数，用于将有限维数据映射到高维空间。通常定义为空间中任意一点到某一中心点之间的欧式距离的单调函数，可记作,其作用往往是局部的 , 即当远离时函数取值很小。定义为：为核函数中心，为向量和向量的欧式距离（L2范数）...

2019-10-24 19:22:23 42871 1

原创国内Hadoop开源项目

1、BC-Hadoop：中国移动Hadoop工具链打包https://github.com/cmri/bc-hadoop2.0孵化阶段，将成为一个通用的开源Hadoop平台2、BC-BSP：中国移动图计算平台https://github.com/cmri/BC-BSP孵化阶段，将成为通用的开源BSP平台3、小米Minos：部署和管理Hadoop生态链工具Mi...

2019-09-29 21:56:12 1878

转载结构化数据、半结构化数据和非结构化数据

结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。举一个例子：id name age gender1 lyh 12 male2 liangyh 13 female3 liang 18...

2019-08-20 15:36:41 611

转载缓存——Redis数据类型，应用场景

问题redis 都有哪些数据类型？分别在哪些场景下使用比较合适？分析除非是面试官感觉看你简历，是工作 3 年以内的比较初级的同学，可能对技术没有很深入的研究，面试官才会问这类问题。否则，在宝贵的面试时间里，面试官实在不想多问。其实问这个问题，主要有两个原因：看看你到底有没有全面的了解 redis 有哪些功能，一般怎么来用，啥场景用什么，就怕你别就会最简单的 KV 操作；看看...

2019-07-22 09:26:36 373

转载缓存——Redis

问题redis 和 memcached 有什么区别？redis 的线程模型是什么？为什么 redis 单线程却能支撑高并发？分析这个是问 redis 的时候，最基本的问题吧，redis 最基本的一个内部原理和特点，就是 redis 实际上是个单线程工作模型，你要是这个都不知道，那后面玩儿 redis 的时候，出了问题岂不是什么都不知道？还有可能面试官会问问你 redis 和 mem...

2019-07-22 09:16:53 238

转载缓存——项目中缓存是如何使用的？为什么要用缓存？缓存使用不当会造成什么后果？

问题项目中缓存是如何使用的？为什么要用缓存？缓存使用不当会造成什么后果？分析这个问题，互联网公司必问，要是一个人连缓存都不太清楚，那确实比较尴尬。只要问到缓存，上来第一个问题，肯定是先问问你项目哪里用了缓存？为啥要用？不用行不行？如果用了以后可能会有什么不良的后果？这就是看看你对缓存这个东西背后有没有思考，如果你就是傻乎乎的瞎用，没法给面试官一个合理的解答，那面试官对你印象肯定...

2019-07-19 10:25:02 8501 3

转载消息队列——如何进行架构设计？说明思路

问题如果让你写一个消息队列，该如何进行架构设计？说一下你的思路。分析其实聊到这个问题，一般面试官要考察两块：你有没有对某一个消息队列做过较为深入的原理的了解，或者从整体了解把握住一个消息队列的架构原理。看看你的设计能力，给你一个常见的系统，就是消息队列系统，看看你能不能从全局把握一下整体架构设计，给出一些关键点出来。说实话，问类似问题的时候，大部分人基本都会蒙，因为平时从来没...

2019-07-17 17:19:00 778

转载消息队列——延迟及过期失效问题？如何解决持续积压？

问题如何解决消息队列的延时以及过期失效问题？消息队列满了以后该怎么处理？有几百万消息持续积压几小时，说说怎么解决？分析你看这问法，其实本质针对的场景，都是说，可能你的消费端出了问题，不消费了；或者消费的速度极其慢。接着就坑爹了，可能你的消息队列集群的磁盘都快写满了，都没人消费，这个时候怎么办？或者是这整个就积压了几个小时，你这个时候怎么办？或者是你积压的时间太长了，导致比如 Rabbi...

2019-07-17 15:04:22 328

原创 windows下关于git本地仓库更新后再push到github报错问题

安装Git：http://msysgit.github.io/ git本地仓库的建立创建项目，新建文件夹，自定义名称。初始化仓库 git initgit status在git中，分支是项目的一个版本。我们一般位于分支mater上。接下来进行提交，提交是项目在特定时间点的快照。将文件加入到仓库中 git add .git status将项目...

2019-07-17 14:44:32 263

转载消息队列——如何保证消息的顺序性？

问题如何保证消息的顺序性？分析其实这个也是用 MQ 的时候必问的话题，第一看看你了不了解顺序这个事儿？第二看看你有没有办法保证消息是有顺序的？这是生产系统中常见的问题。面试题剖析我举个例子，我们以前做过一个 mysqlbinlog同步的系统，压力还是非常大的，日同步数据要达到上亿，就是说数据从一个 mysql 库原封不动地同步到另一个 mysql 库里面去（mysql -&...

2019-07-16 15:15:55 474

转载消息队列——如何保证消息的可靠性传输（处理消息丢失问题）

问题如何保证消息的可靠性传输？或者说，如何处理消息丢失的问题？分析这个是肯定的，用 MQ 有个基本原则，就是数据不能多一条，也不能少一条，不能多，就是前面说的重复消费和幂等性问题。不能少，就是说这数据别搞丢了。那这个问题你必须得考虑一下。如果说你这个是用 MQ 来传递非常核心的消息，比如说计费、扣费的一些消息，那必须确保这个 MQ 传递过程中绝对不会把计费消息给弄丢。面试题剖析...

2019-07-16 14:46:28 1067

转载消息队列——如何保持消息的幂等性（不被重复消费）

问题如何保证消息不被重复消费？或者说，如何保证消息消费的幂等性？分析其实这是很常见的一个问题，这俩问题基本可以连起来问。既然是消费消息，那肯定要考虑会不会重复消费？能不能避免重复消费？或者重复消费了也别造成系统异常可以吗？这个是 MQ 领域的基本问题，其实本质上还是问你使用消息队列如何保证幂等性，这个是你架构里要考虑的一个问题。面试题剖析回答这个问题，首先你别听到重复消息这个事...

2019-07-16 14:22:14 3333

转载消息队列——如何保证消息队列的高可用？

问题如何保证消息队列的高可用？分析如果有人问到你 MQ 的知识，高可用是必问的。上一讲提到，MQ 会导致系统可用性降低。所以只要你用了 MQ，接下来问的一些要点肯定就是围绕着 MQ 的那些缺点怎么来解决了。要是你傻乎乎的就干用了一个 MQ，各种问题从来没考虑过，那你就杯具了，面试官对你的感觉就是，只会简单使用一些技术，没任何思考，马上对你的印象就不太好了。这样的同学招进来要是做个 ...

2019-07-16 11:25:02 226

转载消息队列——为什么要使用消息队列？有什么优、缺点？

问题：为什么使用消息队列？消息队列有什么优点和缺点？ Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么区别，以及适合哪些场景？问题分析：第一，你知不知道你们系统里为什么要用消息队列这个东西？不少候选人，说自己项目里用了 Redis、MQ，但是其实他并不知道自己为什么要用这个东西。其实说白了，就是为了用而用，或者是别人设计的架构，他从头到尾都没思考过...

2019-07-16 11:17:44 708

AWS提供的服务和基础设施能够在云环境中建设可靠，容错和高可用的Web应用程序。在生产环境中，这些应用产生大量的日志信息。这些数据是任何公司运营web应用程序的重要知识来源，分析日志可以揭示信息，如交通模式，用户行为，市场资料等。然而，作为Web应用程序的增长和的访问者数量的增加，存储和分析网络日志变得越来越具有挑战性。下图展示了如何使用AWS构建一个可扩展且可靠的大规模日志分析平台。该架构的...

2019-07-02 14:39:56 453

原创 VMware下虚拟机和windows间文件的复制粘贴

在VMware下安装Ubuntu虚拟机有一个不方便就是，无法实现虚拟机和windows间文件的复制粘贴，这时需要我们安装安装VMware Tools（虚拟机选项下查看是否安装）如果未安装，点击，会在虚拟机页面自动弹出DVD文件夹窗口，我们只要解压其中的tar包就可以（可解压到任意文件夹，下面解压到/tmp目录下）：cp VMwareTools-10.1.6-5214329.tar.gz ...

2019-06-13 10:23:10 4167

原创配置yum软件仓库（RHEL7版本为例）

Yum仓库的作用是进一步简化RPM(redhat package manager) 管理软件的难度以及自动分析所需软件包及其依赖关系的技术。搭建并配置Yum软件仓库的大致步骤如下所示（RHEL7版本为例）：第1步：进入到/etc/yum.repos.d/目录（存放着Yum软件仓库的配置文件）。第2步：使用Vim编辑器创建一个名为rhel7.repo的新配置文件（文件名称可随意，但后缀必...

2019-06-13 09:50:09 1592

原创数据库和数据仓库

1、RDBMS（关系型）在小型和大型的组织机构中，大多数主要的运营信息主要是存储在关系型数据库管理系统（RDBMS）中。知道什么数据集被存储了以及它们被存储在何处，是大数据实施中的关键构件块。PostgreSQL是最广泛使用的开源数据库，其真正的能力在于它的扩展性。用户和数据库管理员可以添加新的功能，而不影响数据库的基本操作和可靠性。2、非关系型数据库（“不仅仅是SQL”Not Only ...

2019-06-11 21:07:15 1915 2

原创实例中看一个map、reduce过程

项目中有约9TB的数据（网络日志、图片），以及10个MapReduce服务器节点。第一步是使用简单的文件复制过程，为每个服务器节点分配一定量的数据（自己划分）。注意，这些数据须在MapReduce过程开始前被分配好。且文件的格式由自己决定，没有类似于关系型数据库中的标准格式。接下来，向调度程序提交两个程序：映射程序（map）和归约程序（reduce）。在这两步骤过程中，map在磁盘上找到数...

2019-06-10 11:41:40 221

翻译 Apache Hadoop 3.2.0 文档：概览

Apache Hadoop 3.2.0Apache Hadoop 3.2.0在之前的稳定次要版本（hadoop-3.1）中包含了许多重要的增强功能。这是3.2版本系列中的第一个版本，尚未普遍可用（GA）或生产就绪。概观建议用户阅读完整的发行说明。此页面提供了主要更改的概述。YARN中的节点属性支持节点属性有助于根据节点标记节点上的多个标签，并支持根据这些标签的表达式放置容器...

2019-06-10 11:27:41 484

原创 MapReduce浅谈

利用Hadoop MapReduce处理数据我们可以将MapReduce看作作一个引擎，你提供输入，其快速有效地将输入转化成输出。MapReduce是一种并行编程框架，用于处理不同系统中的大量数据。Hadoop Reduce包括几个阶段，每个阶段都有一组重要操作，帮助你从大数据中获取需要的答案。这个流程从用户请求运行MapReduce开始，到结果被写回HDFS结束。MapReduce既...

2019-06-08 21:11:52 211

原创 HDFS浅谈

用HDFS存储数据HDFS是一种实用、稳定的集群化文件存储和管理方法。补充：扇区是硬盘上可访问的最小单元，簇是用于组织和标识磁盘上文件的大一点儿的单元。在HDFS中，每个文件仅能写一次，也就是说，只在文件创建的时候写入。避免了将存储在一个集群机器上的数据复制到其他机器上可能导致的一致性问题。HDFS是有弹性的，随意这些数据块在集群中复制（冗余备份），以防服务器失效。HDFS使用文件...

2019-06-08 12:09:09 192

原创 Apache Spark RDD 论文de 简单梳理

1、RDD的提出是为了解决在大规模集群中以一种容错的方式进行内存计算这个问题；2、目前的框架对迭代式算法场景与交互数据挖掘场景的处理性能比较差（主要是对数据复用的不灵活，I/O开销大）；3、论文核心是提出一种分布式内存抽象：RDDs；是一种可以容错且并行的数据结构，可让用户将计算的中间结果保存在内存中、控制数据集的分区，实现数据存放的优化，还提供了丰富的API；4、挑战：如何定义一个高...

2019-06-05 21:38:43 251

转载 IEEE 802.11n-2009 brief introduction

http://en.wikipedia.org/wiki/IEEE_802.11n-2009IEEE 802.11n-2009is an amendment to theIEEE 802.11-2007wireless networkingstandard to improve network throughput over the two previous standards...

2019-06-03 10:51:05 607

原创 Job for named.service failed because the control process exited with error code.

安装及配置bind服务程序：yum install bind-chroot -y三个关键文件：主配置文件（/etc/named.conf）区域配置文件（/etc/named.rfc1912.zones）数据配置文件目录（/var/named）vim /etc/named.conf修改两个参数：listen-on port 53 { a...

2019-05-22 21:29:08 41288 4

转载写给大数据初学者的话——转自lxw的大数据田地

原文地址：http://lxw1234.com/archives/2016/11/779.htm导读：第一章：初识Hadoop第二章：更高效的WordCount第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第十章：牛逼高大上的...

2019-05-08 14:46:47 770

原创 IEEE标准参考

IEEE被国际标准化组织授权为可以制定标准的组织，设有专门的标准工作委员会，有30000义务工作者参与标准的研究和制定工作，每年制定和修订800多个技术标准。IEEE的标准制定内容有：电气与电子设备、试验方法、原器件、符号、定义以及测试方法等。IEEE委员会IEEE 754浮点算法规范IEEE 802 局域网/城域网IEEE 802.11无线网络IEEE 829 软件...

2019-05-06 21:35:29 7211

原创数据存储技术笔记

存储面临三大挑战：１、性能挑战；２、容量挑战；３、可用性挑战由于存储介质单位容量密度提高，存储设备出现错误数也增多，而容量增长往往会放大存储数据的出错概率，进而有影响到数据可用性。对此，按照冗余放置、分散布局等方法来组织和管理存储数据，已成为构建高性能、大容量、高可用性存储系统的一种技术趋势。现在的存储系统是具有：计算处理单元、数据存储空间、网络传输部件的独立计算机系统，能够提供独立的数...

2019-05-06 21:32:38 1432

一棵大树