普通网友-CSDN博客

转载统一资源管理与调度平台（系统）介绍

1. 背景随着互联网的高速发展，基于数据密集型应用的计算框架不断出现，从支持离线处理的MapReduce，到支持在线处理的Storm，从迭代式计算框架Spark到流式处理框架S4，…，各种框架诞生于不同的公司或者实验室，它们各有所长，各自解决了某一类应用问题。而在大部分互联网公司中，这几种框架可能都会采用，比如对于搜索引擎公司，可能的技术方案如下：网页建索引采用MapReduce框架，自然

2013-03-13 18:03:47 14195 1

原创 2013 开始了

2012 过去了....，不管未来如何，我们需要风雨兼程。慢慢的体会到，如果自己不努力，那么吃苦的将是自己和爱的人；那么就让我一个人“吃苦”, 奋斗吧。 2013 我来了，加油！！ 2013 学习计划： storm 学以致用 hadoop 深入学习机器学习数学之美，及其相关文章 ngnix c

2013-02-16 17:02:57 638 1

转载 MYSQL高效率地装载数据解决方案

很多时候关心的是优化SELECT 查询，因为它们是最常用的查询，而且确定怎样优化它们并不总是直截了当。相对来说，将数据装入数据库是直截了当的。然而，也存在可用来改善数据装载操作效率的策略，其基本原理如下：　　成批装载较单行装载更快，因为在装载每个记录后，不需要刷新索引高速缓存；可在成批记录装入后才刷新。　　在表无索引时装载比索引后装载更快。如果有索引，不仅必须增加记录到数据文件，而且还要修

2013-01-31 19:48:56 865

转载 python 进程间通信

python multiprocessingmultiprocessing在2.6才开始使用multiprocessing 是一个使用方法类似threading模块的进程模块。允许程序员做并行开发。并且可以在UNIX和Windows下运行。通过创建一个Process 类型并且通过调用call()方法spawn一个进程。一个比较简单的例子：#!/usr/bin/e

2013-01-29 12:13:50 22984 1

转载 hive 全排序优化

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下，因为不熟悉数据特性，或没有遵循Hive的优化约定，Hive计算任务会变得非常低效，甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括：Join中需要将大表写在靠右的位置；尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关

2013-01-28 20:11:39 3592

转载相似图片搜索的原理

上个月，Google把 "相似图片搜索"正式放上了首页。你可以用一张图片，搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。一个对话框会出现。你输入网片的网址，或者直接上传图片，Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。上传后，Google返回如下结果：类似的"相似图片搜索引擎"还有不少，TinEye甚至可以

2013-01-25 10:28:00 369

原创 kd树学习

1： sfit 算法： http://www.cnblogs.com/saintbird/archive/2008/08/20/1271943.html2：用于图像搜索和匹配的SIFT算法介绍： http://www.open-open.com/lib/view/open1325331983780.html3: 相似图片搜索的原理 http://www.o

2013-01-24 19:57:20 360

转载从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法前言前两日，在微博上说：“到今天为止，我至少亏欠了3篇文章待写：1、KD树；2、神经网络；3、编程艺术第28章。你看到，blog内的文章与你于别处所见的任何都不同。于是，等啊等，等一台电脑，只好等待..”。得益于田，借了我一台电脑（借他电脑的时候，我连表示感谢，他说“能找到工作全靠你的博客，这点儿小忙

2013-01-24 19:39:57 1618 2

转载 k-d tree算法

http://www.cnblogs.com/eyeszjwang/articles/2429382.html　　　k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景　　SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量

2013-01-24 19:38:22 456

转载 mysql中的load data infile用法

LOAD DATA [LOW_PRIORITY] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE] INTO TABLE tbl_name [FIELDS [TERMINATED BY '\t'] [OPTIONALLY] ENCLOSED BY ''] [ESCAPED B

2013-01-24 10:43:13 44791 1

转载 MYSQL数据文件--.frm文件(表结构恢复)

了解MYSQL的都知道，在MYSQL中建立任何一张数据表，在其数据目录对应的数据库目录下都有对应表的.frm文件,.frm文件是用来保存每个数据表的元数据(meta)信息，包括表结构的定义等，.frm文件跟数据库存储引擎无关，也就是任何存储引擎的数据表都必须有.frm文件，命名方式为数据表名.frm，如user.frm. .frm文件可以用来在数据库崩溃时恢复表结构。下面说说如何通过

2013-01-23 17:20:20 863

转载网管工具 dstat

dstat 是一个用来替换 vmstat, iostat, netstat, nfsstat 和 ifstat 这些命令的工具，是一个全能系统信息统计工具。

2013-01-23 16:44:08 1233

转载 iostat介绍

1．磁盘I/O性能监控命令1)iostat命令iostat 命令主要通过观察物理磁盘的活动时间以及他们的平均传输速度，监控系统输入 / 输出设备负载。根据 iostat 命令产生的报告，用户可确定一个系统配置是否平衡，并据此在物理磁盘与适配器之间更好地平衡输入 / 输出负载。iostat 工具的主要目的是通过监控磁盘的利用率，而探测到系统中的 I/O 瓶颈。不同操作系统命令格式输出

2013-01-23 16:36:41 416

转载内存映射文件原理探索

一直都对内存映射文件这个概念很模糊，不知道它和虚拟内存有什么区别，而且映射这个词也很让人迷茫，今天终于搞清楚了。。。下面，我先解释一下我对映射这个词的理解，再区分一下几个容易混淆的概念，之后，什么是内存映射就很明朗了。原理首先，“映射”这个词，就和数学课上说的“一一映射”是一个意思，就是建立一种一一对应关系，在这里主要是只硬盘上文件的位置与进程逻辑地

2013-01-22 18:34:04 361

转载从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空

2013-01-15 10:42:54 561

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。HDFS允许用户以文件的形式存储数据。从内部来看，文件被分成若干个数据块，而且这若干个数据块存放在一组DataNode上。NameNode执行文件系统

2013-01-11 18:22:51 743

转载探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

出自： http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-简介：随着 Web 技术的发展，使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的

2013-01-10 17:44:24 482

转载线型感知机

1、判别分类模型假设输入空间X中的每个特征x取值为实数集，输出空间y = {-1,+1}，那么一个分类器可以表示为二值函数其中输出值为1的样本为正例，输出值为-1的样本为负例。线性感知机的假设前提是样本空间线性可分，既有一个超平面能够将特征空间划分为两个部分 2、感知机模型若给定的向量特征向量X带入g(x) 0则样本为正例，

2013-01-10 12:06:44 628

转载 python 发邮件到outlook 换行符问题

换行符‘\n’和回车符‘\r’顾名思义，换行符就是另起一行，回车符就是回到一行的开头，所以我们平时编写文件的回车符应该确切来说叫做回车换行符 '\n' 10 换行（newline）'\r' 13 回车（return）也可以表示为'\x0a'和'\x0d'.(16进制)在windows系统下，回车换行符号是"\r\n".但是在Linux等系统下是没有"\r"

2012-12-07 12:34:38 7860

转载 Python的del()方法

简而言之，__del__方法相当于其它语言里的析构函数。不过，由于Python的一些特性，在使用__del__需要注意一些问题：因为垃圾收集机制处理循环引用(A使用B，B又使用了A)的时候总不尽如人意。所以__del__并不总是会被调用。__del__可能在Python退出的时候被调用。此时很多变量都已经被释放，所以__del__对外部的依赖要尽可能的小。__del

2012-12-07 11:36:06 1983

转载 subprocess

在熟悉了Qt的QProcess以后，再回头来看python的subprocess总算不觉得像以前那么恐怖了。和QProcess一样，subprocess的目标是启动一个新的进程并与之进行通讯。subprocess.Popen这个模块主要就提供一个类Popen：class subprocess.Popen( args, bufsize=0,

2012-12-06 20:48:43 571

转载 python的subprocess与pipe

原文 : Working with Python subprocess - Shells, Processes, Streams, Pipes, Redirects and More地址 : http://jimmyg.org/blog/2009/working-with-python-subprocess.html 一程序的stdin，stdout，stderr+red

2012-12-06 20:43:27 684

转载 python subprocess

摘自：http://li2z.cn/2010/04/14/python_subprocess/参考：http://pydoc.org/2.4.1/subprocess.html此文和python 内建函数一样，内容全部出自python官方文档，但是会有自己的理解，并非单纯的翻译。所以，如果我理解有误，欢迎指正，谢谢。从python2.4版本开始，你就可以用可以用sub

2012-12-06 20:16:08 1111

转载 python os.system os.popen 区别

python调用Shell脚本，有两种方法：os.system(cmd)或os.popen(cmd),前者返回值是脚本的退出状态码，后者的返回值是脚本执行过程中的输出内容。实际使用时视需求情况而选择。现假定有一个shell脚本test.sh：#!/bin/bash1. echo "hello world!"2. exit 3os.system(cmd):该方法在调用完s

2012-12-06 18:50:23 17581 1

转载 LOAD DATA INFILE 语法

http://wwq101693.blog.163.com/blog/static/80642726200961443331101/LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE] INTO TABLE tbl_name [FI

2012-12-04 10:02:22 3829

原创 svn externals

1：添加一个外部的版本库在命令行输入: svn propedit svn:externals .在打开的文件中添加 lib svn://******/libs/python_lib参考：http://blog.chinaunix.net/uid-23027556-id-96622.htmlhttp://mwop.net/blog/132-svnexternals.ht

2012-11-29 10:40:33 390

转载 git 使用教程

1. 介绍欢迎使用GitGIT对象模型Git目录与工作目录Git索引2. 第一步安装Git安装与初始化3. 基本用法获得一个Git仓库正常的工作流程分支与合并@基础查看历史－Git日

2012-11-25 16:12:35 243

转载 git rebase 基本篇

一、基本git rebase用于把一个分支的修改合并到当前分支。假设你现在基于远程分支"origin"，创建一个叫"mywork"的分支。$ git checkout -b mywork origin假设远程分支"origin"已经有了2个提交，如图现在我们在这个分支做一些修改，然后生成两个提交(commit).$ vi file.txt$ g

2012-11-25 15:58:30 331

转载 svn 设置忽略文件列表

摘要本文介绍Linux 命令行下 svn 设置忽略文件列表的相关内容，也会涉及 Win 下使用 Tortoise SVN 的相关配置。 Linux命令行下使用 svn st 查看当前版本库状态的时候，经常会出现一些临时生成的一些文件，状态的标记为 "?"。尤其是如果工程比较大，比如编译完 Linux 内核，有大量的临时文件生成。这些临时文件中，有些是诸如 *.o 之类

2012-11-25 15:57:04 791

转载 git 常用命令

git 常用命令：http://www.cnblogs.com/1-2-3/archive/2010/07/18/git-commands.html

2012-11-25 15:31:56 249

原创 git pull 报如下错误

If you are getting this error then you probably reset the permissions on your hidden .ssh directory in your user folder, and your keys aren't going to work anymore. It's very important that these file

2012-11-17 23:12:38 588

原创关于rails 多个项目公用一个SQLITE数据库的方法

配置如下： development: adapter: sqlite3 database: /app/db/development.sqlite3 pool: 5 timeout: 5000 这里是在app2 项目下的database.yml 的配置数据库是在同一个目录下的 app 项目下

2012-11-17 14:54:23 660

转载如何提高mysql load data infile的速度

测试数据2.5G，共有数据9427567条。用的mysql的large服务器的配置。load 一次需要大概10分钟左右。建的表用的是MYISAM，调整了几个session的参数值SET SESSION BULK_INSERT_BUFFER_SIZE = 256217728 ;SET SESSION MYISAM_SORT_BUFFER_SIZE = 256217728 ;

2012-11-17 14:43:31 6142

转载 python mro

he Python 2.3 Method Resolution OrderVersion:1.4Author:Michele SimionatoE-mail:[email protected]:Department of Physics and Astronomy210 Allen Hal

2012-10-13 11:44:54 1016

转载关于Python的super用法研究

一、问题的发现与提出在Python类的方法（method）中，要调用父类的某个方法，在Python 2.2以前，通常的写法如代码段1：代码段1：class A:def __init__(self): print "enter A" print "leave A"class B(A):def __init__(self): print

2012-10-11 15:34:52 334

转载 awk用法详解

http://www.letuknowit.com/topics/?p=198http://hi.baidu.com/gdb_lee/item/aae8f01bcb918e6a3e87ce68http://topic.csdn.net/u/20090714/16/8f545c37-5483-4614-afb9-34bc1235c13d.htmlhttp://suntin

2012-09-25 19:32:55 513

原创 xpath使用小例子

要解析的xml文件(文件名e.xml)： Harry Potter 29.99 Learning XML 39.95python脚本#!/usr/bin/env python#coding: utf8from lxml import etreefrom xml.etree import ElementTreeread_

2012-09-24 11:19:07 371

转载 xpath语法规则

XPath is a language for finding information in an XML document. XPath is used to navigate through elements and attributes in an XML document.Xpath是一种能够在XML文档中寻找信息的语言。它通过XML文档中的元素和属性来进行导航。

2012-09-24 11:07:09 745

转载全球级的分布式数据库 Google Spanner原理

Google Spanner简介Spanner 是Google的全球级的分布式数据库 (Globally-Distributed Database) 。Spanner的扩展性达到了令人咋舌的全球级，可以扩展到数百万的机器，数已百计的数据中心，上万亿的行。更给力的是，除了夸张的扩展性之外，他还能同时通过同步复制和多版本来满足外部一致性，可用性也是很好的。冲破CAP的枷锁，在三者之间完美平衡。

2012-09-21 17:15:13 1415

空空如也

空空如也