唯pc远方-CSDN博客

转载 L0、L1与L2范数

机器学习中的范数规则化之（一）L0、L1与L2范数http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看

2017-09-11 00:55:41 694

转载 P问题和NP问题

作者：王宇链接：https://www.zhihu.com/question/27039635/answer/101730260来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。最简单的解释：P：算起来很快的问题NP：算起来不一定快，但对于任何答案我们都可以快速的验证这个答案对不对NP-hard：比所有的NP问题都难的问题NP-c

2017-09-11 00:30:28 7587

原创统计学习方法-第一章

统计学习：是关于计算机基于数据构建概率模型，统计模型并运用模型对数据进行预测与分析的一门学科。统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。实现统计学习的步骤如下：（1）得到一个有限的训练数据集合；（2）确定包含所有可能的模型的假设空间，即学习模型的集合；（3）

2017-09-10 23:48:56 624

原创 2.数据挖掘简介

数据挖掘（DM：Data Mining）：是一个跨学科的计算机科学分支，它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。除了原始分析步骤，它还涉及到数据库和数据管理方面、数据预处理（特征工程）、模型与推断方面考量、兴趣度度量、

2017-09-03 18:01:30 548

原创 1.机器学习基本概念

所谓学习：本质就是找到特征和标签间的关系。监督学习：（1）就是常说的分类，通过已有的训练样本去训练一个最优模型。再利用模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。（2）对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里所有的标记（分类）都是已知的。因此，训练样本的歧义性低。监督学习划分：

2017-09-03 13:11:58 1067

转载 zookeeper原理

zookeeper原理（转） ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置...

2017-05-07 20:32:09 362

转载字符浏览器Elinks快捷键

字符浏览器Elinks快捷键按Esc键在帮助菜单找到快捷键，翻译一下，备忘，冒号分割符主界面键z：终止连接a：添加到书签A：添加连接到书签s：书签管理器C：缓冲管理器K：cookie管理器Ctrl-K：读取cookieCtrl-Insert：复制到剪贴板=：文档信息D：下载管理器

2017-03-01 17:30:24 1132

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 基础之：分区、桶、Sort Merge Bucket JoinHive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个Hadoo

2016-12-30 15:45:09 726

转载 Linux下date命令，格式化输出，时间设置

date命令的帮助信息 [root@localhost source]# date --help用法：date [选项]... [+格式]　或：date [-u|--utc|--universal] [MMDDhhmm[[CC]YY][.ss]]以给定的格式显示当前时间，或是设置系统日期。 -d,--date=字符串显示指定字符串所描述的时间，

2016-12-12 19:24:48 419

转载 linux 系统监控、诊断工具之 lsof 用法简介

目录：[ -]1、lsof 简介2、lsof 常用用法2.1 监控打开的文件、设备2.2 监控文件系统2.3 监控进程2.4 监控网络3、更多使用技巧3.1 监控用戶3.2 监控应用程序4、命令模式技巧4.1 组合逻辑查询条件4.2 lsof 命令的重复执行模式：5、最后的技巧6、refer： 1、lsof 简介

2016-12-12 10:13:59 640 1

转载数据仓库的建模A

数据仓库的建模A |数据仓库是用来分析数据并且从现有数据中发现新的价值，主要是用来预测未来的情况。数据仓库并不是解决所有问题的通用结构。它必须集中于某一问题领域，例如航空服务、顾客收益等。数据仓库也有有趣的一面，那就是数据库本身是稳定增长的。数据没有被删除，也不发生变更。我们不需要将冗余数据置于数据库之外（因为加入仓库中的数据经过了数据

2016-11-08 15:36:27 574

转载 HBase高性能复杂条件查询引擎

HBase高性能复杂条件查询引擎写在前面本文2014年7月份发表于InfoQ，HBase的PMC成员Ted Yu先生参与了审稿并于给予了肯定。该方案设计之初仅寄希望于通过二级索引提升查询性能，由于在前期架构时充分考虑了通用性以及对复杂条件的支持，在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。Ted Yu对“查询决策器”表示了关心，他指出类似的组件同时也是Phoenix, I

2016-09-01 10:44:40 1189

转载 SQL中Where与Having的区别

SQL中Where与Having的区别“Where” 是一个约束声明，使用Where来约束来之数据库的数据，Where是在结果返回之前起作用的，且Where中不能使用聚合函数。“Having”是一个过滤声明，是在查询返回结果集以后对查询结果进行的过滤操作，在Having中可以使用聚合函数。在说区别之前，得先介绍GROUP B

2016-08-31 19:11:58 313

转载 JDK内置工具使用

JDK内置工具使用JDK内置工具使用一、javah命令(C Header and Stub File Generator)二、jps命令(Java Virtual Machine Process Status Tool)三、jstack命令(Java Stack Trace)四、jstat命令(Java Virtual Machine S

2016-08-26 11:28:40 255

转载 nc 常用命令

nc 常用命令nc(NetCat)，在网络工具中有”瑞士军刀”的美誉，它短小精悍，功能强大，下面分享一些我平时经常用到的功能，更多的功能请google之。1.基本参数想要连接到某处: nc [-options] hostname port[s] [ports] …绑定端口等待连接: nc -l -p port [-options]

2016-08-08 13:24:57 900

转载 LSM树（Log-Structured Merge Tree）存储引擎

LSM树（Log-Structured Merge Tree）存储引擎代表数据库：nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力，换取写入的最大化能力。LSM Tree ，这个概念就是结构化合并树的意思，它的核心思路其实非常简单，就是假定内存足够大，因此不需要每次有数据更新就必须将数据写入到磁盘中，而可以先将最新的数据驻留在磁盘中，等到积累到最后多之后，

2016-08-03 17:29:25 43795 6

转载 docker命令的使用

docker命令的使用 1、直接输入docker命令来查看所有的Options和Commands。查看某一个command的详细使用方法：docker COMMAND --help 2、搜索可用的docker镜像：docker search NAME 3、下载镜像：docker pull NAME[:TAG]

2016-08-03 17:05:46 1247

转载 jstack命令(Java Stack Trace)

jstack命令(Java Stack Trace)JDK内置工具使用一、javah命令(C Header and Stub File Generator)二、jps命令(Java Virtual Machine Process Status Tool)三、jstack命令(Java Stack Trace)四、jstat命令(Java

2016-07-19 16:21:31 440

转载 Namenode HA原理详解（脑裂）

Namenode HA原理详解（脑裂）目录(?)[+]Namenode HA原理详解社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。为什么要Namenode HA？1. NameNode High Availability即高可用

2016-07-18 11:08:32 3773

转载 Sybase IQ，你需要知道的基础

Sybase IQ，你需要知道的基础 Sybase IQ，你需要知道的基础：第一，知道IQ跟其它的关系型数据库相比，它的主要特征是什么？包括查询快、数据压缩比高、Load快，但是插入更新慢，不太适合数据老是变化，它是按列存储的。这时候你就知道它适做DSS（决策支持系统），数据集市，数据仓库，它不适合OLTP。适合OLAP。第二，知道IQ自身的体系组成，它由Catalo

2016-07-15 11:49:02 5725

转载 OLTP和OLAP的区别

OLTP和OLAP的区别联机事务处理OLTP（on-line transaction processing）主要是执行基本的、日常的事务处理，比如数据库记录的增、删、改、查。比如在银行存取一笔款，就是一个事务交易。OLTP的特点一般有：1.实时性要求高；2.数据量不是很大；3.交易一般是确定的，所以OLTP是对确定性的数据进行存取；(比如存取款都有一个特定的金额

2016-07-15 11:45:09 433

转载 MapReduce 中的两表 join 几种方案简介

MapReduce 中的两表 join 几种方案简介1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常

2016-07-07 10:38:07 353

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 基础之：分区、桶、Sort Merge Bucket Join目录(?)[+]Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/H

2016-07-07 10:12:33 759

转载 Linux下制作raid1

Linux下制作raid1raid1是linux服务器最常用的一种硬盘冗余备份的方案，它能在硬盘损坏的情况下保证硬盘数据内的安全。需要至少两块硬盘，最好是完全相同的两块硬盘，所创建的若磁盘中有谁损坏，则备用盘自动替补上去。一、搭建Linux raid1环境1. 准备好要制作raid1的硬盘，至少两块，最好是两块同型号同容量的硬盘。2.

2016-04-11 16:45:18 1949

转载 Linux 之Cut命令详解

Linux 之Cut命令详解cut是一个选取命令，就是将一段数据经过分析，取出我们想要的。一般来说，选取信息通常是针对“行”来进行分析的，并不是整篇信息分析的。（1）其语法格式为：cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file]使用说明cut 命令从文件的每一行剪切字节、字符和字

2016-04-09 14:52:27 312

转载 MySQL基本数据类型

MySQL基本数据类型类型大小描述char[length]length字节定长字段，长度为0-255个字节varchar[length]string长度+1字节变长字段，在mysql5.03以前，长度为0-255个字节，在5.0.3以后，最大长度为65535字节。一个utf8字符占3

2016-04-08 16:02:28 308

转载 MapReduce:详解Shuffle(copy,sort,merge)过程

MapReduce:详解Shuffle(copy,sort,merge)过程Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapRe

2016-04-08 11:54:34 636

转载 CentOS 6.0 启动时出现fstab错误时的修复

CentOS 6.0 启动时出现fstab错误时的修复 CentOS启动时，出现了fstab 中 /dev/loop1 设备的读取失败，结果，呵呵，系统进入了recovery 模式，输入root密码之后，想修改fstab,结果发现不行，后来找了半天，发现可以使用：#mount -o remount,rw /之后，fstab就可以修改了。

2016-04-01 19:45:33 572

转载 Linux磁盘修复e2fsck命令

Linux磁盘修复e2fsck命令前天清明节，竟然去加班，原因是客户那里有一台服务器不能提供服务，经过排查是突然断电后可能产生了磁盘坏道导致，所以使用e2fsck命令进行了磁盘修复。 linux下磁盘检查修复命令e2fsck -a: 检查 partition，如发现问题会自动修复。-b: 设定 superblock 位置。 www.2cto.com -B si

2016-04-01 18:09:21 16372

转载 /etc/fstab文件内容

/etc/fstab文件内容前言，用CentOS开机前面会看到进入系统后显示/etc/fstab，觉得很有意思，就上网上搜搜。一： /etc/fstab是什么？/etc/fstab是用来存放文件系统的静态信息的文件，当系统启动的时候，系统会自动地从这个文件读取信息，并且会自动将此文件中指定的文件系统挂载到指定的目录二：字段含义比如，我的/e

2016-04-01 17:47:42 2191

转载 CentOS 6.3下配置LVM（逻辑卷管理）

CentOS 6.3下配置LVM（逻辑卷管理）一、简介LVM是逻辑盘卷管理（Logical Volume Manager）的简称，它是Linux环境下对磁盘分区进行管理的一种机制，LVM是建立在硬盘和分区之上的一个逻辑层，来提高磁盘分区管理的灵活性。LVM的工作原理其实很简单，它就是通过将底层的物理硬盘抽象的封装起来，然后以逻辑卷的方式呈现给上层应用。在传统的磁盘管理机

2016-04-01 11:53:43 347

转载 chkconfig命令详解

chkconfig(check config)命令详解功能说明：chkconfig命令主要用来更新（启动或停止）和查询系统服务的运行级信息。谨记chkconfig不是立即自动禁止或激活一个服务，它只是简单的改变了符号连接。语　　法：chkconfig [--add][--del][--list][系统服务] 或 chkconfig [--level ][系统服务][

2016-03-31 17:31:59 2060

转载 dd命令使用详解

dd命令使用详解1.命令简介 dd 的主要选项：指定数字的地方若以下列字符结尾乘以相应的数字:b=512, c=1, k=1024, w=2, xm=number mif=file #输入文件名，缺省为标准输入。 of=file #输出文件名，缺省为标准输出。 ibs=bytes #一次读入 bytes 个字节(即一个块大小为 bytes 个字节)。 obs

2016-03-31 17:08:46 502

转载 hdfs简介

hdfs简介Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统

2016-03-31 13:41:56 693

转载 Hadoop Rack Aware 机架感知

Hadoop Rack Aware 机架感知副本的存放是HDFS可靠性和性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调优，并需要经验的积累。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副本存放策略只是在这个方向上的第一步。实现这个策略的短期目标是验证它在生

2016-03-29 17:51:20 1173

转载 hbase　索引记录

hbase　索引记录根本目的是实时的查询速度从两方面来看：一、HBase自身的原理，机制。二、索引的原理机制。一、HBase：reference:HBase技术介绍｜淘宝技术博客http://www.searchtb.com/2011/01/understanding

2016-03-25 14:33:13 422

转载 Linux下面新增硬盘

Linux下面新增硬盘1 把硬盘接上2 重启系统，如果系统不能识别还要设置一下bios3 用fdisk查看 fdisk -l，可以看到多了一块硬盘，并且告诉我们没有分区信息4 用fdisk 进行分区，如 fdisk /dev/sdb 5 格式化新分区如mkfs.ext3fs ***， mkfs.reiserfs ***6 mount7如果想要在

2016-03-25 10:04:54 328

转载如何把一个命令加入到某个用户sudo的列表中

2016-03-24 20:52:42 4221

转载 Linux添加/删除用户和用户组

Linux添加/删除用户和用户组本文总结了Linux添加或者删除用户和用户组时常用的一些命令和参数。1、建用户：adduser phpq //新建phpq用户passwd phpq //给phpq用户设置密码2、建工作组groupadd test

2016-03-24 20:27:29 407

转载拉链表

数据仓库数据模型之：极限存储--历史拉链表摘要: 在数据仓库的数据模型设计过程中，经常会遇到文内所提到的这样的需求。而历史拉链表，既能满足对历史数据的需求，又能很大程度的节省存储资源。在数据仓库的数据模型设计过程中，经常会遇到这样的需求：1. 数据量比较大;2. 表中的部分字段会被update,如用户的

2016-03-22 16:33:46 795

经典flash基础课件

空空如也