自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 Best Coupon Site

Coupon sites can be your secret weapon to scoring everything on sale. After all, who doesn’t love walking out of the store with a steal of a deal? Remember, you don’t necessarily have to sacrifice quality to meet your financial goals.You can enjoy qualit

2021-11-25 10:46:31 491

原创 社交网络(social media)测评

国内的社交头把交椅绝对是wechat,微信+qq缔造的虚拟世界一时半会也不是其他公司在短时间可以撼动的,而国外社交网络几大霸主:Facebook,Instagram,Twitter,WhatsApp等,由于需要科学上网,那么这样国内的同学基本都无法体验这次优秀的app,但是经过一番搜索,其实发现有不少online viewer,可以透过他们看到这些app的一些本来的样子,比如Insdear, In...

2019-09-29 15:50:20 985

原创 Mysql 主从同步配置

Mysql本身支持同步方案,使得数据在备份,恢复,容灾和负载均衡方面都有一些自带的能力;同步模式: mysql的同步支持主主同步,主从同步,原理大同小异,只是主主同步适应场景更广,但也会引发更多的安全问题(比如同时修改时,主键自增的问题),官网推荐的同步架构方式(示例): 执行方式: (数据变化记录在binlog中,使用binlog增量同步,每种方式的特点在这不展开聊) 基于语句同步...

2018-08-10 18:14:42 2060

原创 监控软件Zabbix安装使用

按照zabbix.com的官方文档安装,zabbix-server启动报错,记录debug过程,以及使用系统是ubuntu15.10的,装了几个小时,改了各种配置,一直没有起来,看官方只支持14.04和16.04的,想是不是系统原因,幸好公司各种版本的系统都是有的,拿来基本全新的16.04的根据官网介绍,几分钟就装好搞定了(手动骂娘);log显示ip没被监控或者不支持(后来发现这log是个...

2018-07-04 17:37:58 2302

转载 字符编码笔记:ASCII,Unicode 和 UTF-8

原文地址:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 一、ASCII 码 我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态...

2018-07-03 11:09:54 2125

原创 数据爬取-奇技淫巧系列1——抓取隐藏在CDN,防爬代理等服务后面的数据

准备写个数据爬取的技巧系列Blog,不定时更新 互联网上爬虫和反爬大战已愈演愈烈,不同段位的选手在相互交锋,有时候爬数据采用比较温和的方式就能获取到,但是碰到难啃的骨头,就必须要采用一些奇技淫巧,于是就有了该系列。 该系列主要提供思路,很少涉及细节系列第一篇,主要对付隐藏在CDN,防爬代理服务器后面的网站,怎么做呢,分如下几步:想方设法找到网站的真实IP(比如找子域名,多节点Ping...

2018-05-17 19:33:50 8041

原创 Ubuntu上使用iptables + ipset 联合进行ip封禁

爬虫很烦人,dos攻击更烦人,今天公司一个裸站被dos攻击了,简单记录一下;iptables是Linux上常用的防火墙软件,使用 iptables 封 IP,是一种比较简单的应对网络攻击的方式,也算是比较常见,但其使用链表作为数据结构,效率很低,复杂度都是O(n);ipset 提供了把这个 O(n) 的操作变成 O(1) 的方法:就是把要处理的 IP 放进一个集合,对这个集合设置一条 ipt...

2018-04-25 18:55:33 7564

原创 Ubuntu-linux apache web 服务器开始rewrite模块和功能

已经遇到几次了,每次都是临时查询,写个流水账记录下来,方便以后查阅开启rewrite模块:sudo a2enmod rewrite修改项目具体内容: sudo vim /etc/apache2/sites-enabled/000-default将AllowOverride None全部改成AllowOverride All如果没有,则加入如下代...

2018-02-10 11:09:31 20936

转载 N,NP,NPC,NP-Hard问题

什么是P问题、NP问题和NPC问题,这或许是众多OIer最大的误区之一。你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才行”的问题,NPC问题才是。好,行了,基本上这个误解已经被澄清了。下面的内容都是在讲什么是P问

2018-02-06 16:54:38 22305

原创 音频视频自动提取字幕(extract subtitle from audios and vedios)

自动提取字幕的功能,在国外视频网站Youtube和社交巨头Facebook都已经上线多年,但国内各类视频和音频站都没有类似的功能,所有花了点时间调研了一下subtitle的自动提取功能:1. 开源语音识别库,比如Kaldi: 没有足够的语料库,识别效果不好,而且背景音等对识别会产生很大的影响,所以想训练出一个生存环境可用的语音识别软件还是对需要有足够的标定数据,所以讯飞/搜狗/百度等公司的

2017-10-31 17:21:14 125418

原创 Linux apt-get update/upgrade/install fetch error 出现404 问题

首先Linux有各种发行版,每个版本又会时不时发布新的version,官方对每个version的支持时间不尽相同,以Ubuntu为例:比如一些以04结尾的版本是稳定版是LTS(long term support)的,还是测试版,支持的时间相对短,一旦过期,Ubuntu会把一些软件包打包放到old-release.ubuntu.com的子域名下,所以apt-get安装或者更新数据的时候就会找不到源。既

2017-10-26 15:49:29 117090

转载 Ubuntu mail命令发送邮件

ubuntu server 14.04 从命令行发邮件安装mailutilssudo apt-get install mailutils接下来进行默认安装就行了。Postfix Configuration 需要记住这里的System mail name,后面会用到。发送邮件用一行命令发送邮件 给邮箱[email protected](改成你自己要发送的邮箱)发封邮件。邮件主题为Test ema

2017-09-08 13:05:21 217771 14

原创 ubuntu apache 安装 gd,imagick扩展

都用直接上最简单的方式: GD:sudo apt-get install php5-gdimagick:sudo apt-get install php5-imagick

2017-09-05 17:35:18 172991

转载 mysql数据存储地址修改

很多时候,mysql的数据会非常大,数据默认放在/var/lib/mysql,由于/var所划分的空间不够大,所以我们需要将mysql数据存放路径修改一下,放到大分区里面,以便可以应付mysql数据增长。1.设置新的存放路径mkdir -p /data/mysql2.复制原有数据cp -R /var/lib/mysql/* /data/mysql3.修改权限chown -R mysql:mysq

2017-08-20 17:13:27 173093

原创 关于找不到库文件.so,.h的万能debug方法

安装使用kaldi时,今天又碰到了.so库文件找不到的问题,感觉时编译的时候出了问题,因为要tools里下载依赖(opentsp等),然后去src里安装编译,第一次跑yesno sample的时候通过,后来给kaldi的根目录改了一个名,运行中文thchs30和yesno都报错,原因时tsf的命令找不到库文件 .sh (No such file),以前有遇到过类似问题,记得上一次是因为安装在usr/

2017-08-19 17:42:12 174143

原创 微信抓取

和网上其他地方一样,爬微信,无非就是sogou和中间人代理两种方式: 1. sogou实现了爬虫和模拟浏览器两种方式,封的很严重,想要拿到批量的biz(微信的一个必须爬取参数)有点麻烦,但是几千个还是拿到了; 2. 中间人代理,看了网上的一些方法,大体框架是采用的 手机客户端微信 + anyproxy代理攻击 + php后端服务 + python交互数据库(SQL ),有点杂乱,其实php和py

2017-08-10 20:03:27 209483 2

原创 字符串String中tag提取

为了便于进行内容cat归属,需要对string中的tag进行提取,这个tag的含义就广了,指导思想:尽量多research了一些tag提取的方法: 1. 说的最基础的当然是 TF-IDF算法,可惜不怎么适用; 2. 第一个想到支持一下本校的成果:pkusumsum,当然里面也是基于一些常用的算法,实际测试只能提取document级别的文本,csdn自动识别tag可能与这个有关,当然我觉得更可能的

2017-08-10 19:51:23 209369

原创 OCR光学字符识别

没搞过计算机视觉,只好拿来主义了: 根据网上的推荐: 1. google vision,识别效果还不错,收费,而且对于复杂文本也不是很理想,所以继续寻找开源代码; 2. tesseract,最负盛名的开源识别软件,据说google vision内部也是基于此。就我们公司的需求来说(提取图片中嵌入的文本),tesseract能识别30%左右的good case,剩下20%凑合,剩下多数是没有文本

2017-08-10 19:34:14 209066

原创 提高微信公众号文章采集效率,anyproxy进阶使用方法(转)

会导致采集中断,之后就需要人工干预。影响因素主要会有以下几点:1、网络环境不佳;2、手机或模拟器中微信客户端崩溃;3、其它一些网络传输错误;因为我比较看重采集系统的运行成本,这个成本包括硬件投入,运算力投入和占用的人工精力。所以必须提高运行的稳定性。因此如果采集中断,必然增加人工精力的成本。所以针对这一点我对anyproxy做了一些进阶的改造,并且借助了其它一些工具提高了运行效率。以下就是具体的解决

2017-08-08 14:43:52 209985 1

原创 后台任务稳定运行方案--不受终端关闭或者远程(ssh等)连接失败影响

我们经常会碰到这样的问题,用 telnet/ssh 登录了远程的 Linux 服务器,运行了一些耗时较长的任务, 结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不受本地关闭终端窗口/网络断开连接的干扰呢?下面举了一些例子, 您可以针对不同的场景选择不同的方式来处理这个问题。具体命令如:at,nohup,setsid,(&),disown,screen 甚至crontab

2017-05-10 11:45:06 224556

原创 Python 脚本运行时Segmentation fault (core dumped)

问题如题描述,python 运行过程中直接导致python 解释器崩溃(不是异常,直接崩溃),下面简叙一下debug过程:google查询结果显示这种情况多数是因为Python里的C扩展导致(访问了非法内存区域,可能和C自身内存管理机制有关),而且可以用gdb进行debug(因为Python崩溃,没法用python自身的debug机制,定位到出错的位置),gdb就输出一个出错的内存地址,楼主没想深

2017-02-25 10:23:15 268936 10

原创 Django + Apache + wsgi配置和环境搭建(ubuntu)

上一篇写了Django + nginx + uwsgi配置和环境搭建(ubuntu) 因为公司服务器环境问题,又配置了apache的环境,记录如下:一. 安装环境:#apachesudo apt-get install apache2# Python 2sudo apt-get install libapache2-mod-wsgi二. django: 2.1 保证网站能运行: 根目录

2016-03-30 20:08:56 249909

原创 Django + nginx + uwsgi配置和环境搭建(ubuntu)

Django的部署可以有很多方式,采用nginx+uwsgi的方式是其中比较常见的一种方式。 在这种方式中,我们的通常做法是,将nginx作为服务器最前端,它将接收WEB的所有请求,统一管理请求。nginx把所有静态请求自己来处理(这是NGINX的强项)。然后,NGINX将所有非静态请求通过uwsgi传递给Django,由Django来进行处理,从而完成一次WEB请求。uwsgi官网:http:/

2016-03-30 10:49:32 254440

原创 selenium+phantomJS爬虫,适用于登陆限制强,点触验证码等一些场景

selenium是很出名的自动化测试工具,多数场景是测试工程师用来做自动化测试,但是同样selenium可以作为基本上模拟浏览器的工具,去爬取一些基于http request不能或者很复杂的才能爬取的站点,而且交互式脚本(如:python) + selenium可以直接看到浏览器的执行过程,利于debug,同时看上去比较有成就感。贴个实例吧firefoxProfile = FirefoxProfil

2016-03-27 19:02:04 264151 1

原创 python安装MySQLdb模块-(ubuntu,windows)

python没有自带mysql的模块,需要自己安装ubuntu:sudo apt-get安装:直接运行sudo apt-get install python-mysqldbWindows: 上某全家桶网站,下载MySQL-python的exe文件手动安装PS:两种系统上,pip安装都会报错(搞不懂):pip install mysql-python“Command python setup.p

2016-03-25 10:18:03 258740 1

原创 pdf2htmlEX 安装与保持最新版本

pdf2htmlEX是一款优秀的pdf转换成html的工具,详见http://blog.csdn.net/chijiaodaxie/article/details/47684089今天遇到的问题主要是pdf2htmlEX因为fontforge或者其他依赖库版本太老,导致一些pdf文档转换出现问题(比如segmentation fault),所以记录一下怎样保持最新版本的依赖

2016-03-24 19:20:11 266242 3

原创 PDF的加密解密,解密后随便怎么玩

摘要: 首先,我们要清楚PDF的加密类型和方式:PDF的密码常规分为两类:user password 和 owner password, user password(用户密码):我们要打开/查看/获取任何该PDF的信息所需要的密码,也就是任何viewer和编辑软件打开此PDF需要输入的,等于一把外部锁,没有钥匙,you can get nothing owner passwor

2016-01-05 17:38:08 264506 4

原创 除去pdf文件内部的超链接/a标签

pdf格式是一个比较固定的,正常状态下是不能编辑的格式,主要用来传递信息和展示,但项目中或迟或早的肯定会遇到需要修改pdf内容的需求,目前遇到的就有:pdf2html, pdf2png, pdf内部去链接, pdf加水印, 修改删除pdf文档内容(去水印)……     目前, 所有需求都已经实现, 具体如下: pdf2png: 用imagemagick可以实现, 不赘述; pdf2htm

2015-12-16 20:14:51 259461

原创 pdf加水印,文字和图片,超链接, java itext, 这里有你想要的一切

最近公司网站的pdf需要加上我们自己的水印,多番review打水印加链接的方法, windows上的A-PDF可以满足需求, 之前网站组也是用这种方法做的, 但是效率较低, 因为公司的pdf的其他处理逻辑我们都部署到了分布式的linux系统上,为了一致性和提高效率,多番谷歌和度娘–(发现多数blog只是实现了在pdf里打上文字水印的功能, 而且大同小异, 一看就是相互抄袭), 偶然发现了java的i

2015-12-08 20:10:59 261340

原创 python PIL 处理图片的模快 Image类

python图形处理库PIL(Python Image Library) , 使用时, 我们应该首选去官网看文档,如果需求比较简单,可以看看别人的blog,毕竟中文的比较容易上手。 我使用的功能比较简单: resize Image, 尺寸减半;尽量压缩大小 Image.open()一个图片以后,就可以进行你想要的操作Import Imageim = Image.open(file_path)

2015-12-08 19:03:49 257738

原创 mysql一条语句update多条记录

通常情况下,我们会使用以下SQL语句来更新字段值:UPDATE mytable SET myfield='value' WHERE other_field='other_value'; 但是,如果你想更新多行数据,并且每行记录的各字段值都是各不一样,你会怎么办呢?刚开始你可能会想到使用循环执行多条UPDATE语句的方式,就像以下的php程序示例:foreach ($display_order as

2015-12-07 20:10:09 280606 1

转载 ubuntu默认root密码

安装完Ubuntu后忽然意识到没有设置root密码,不知道密码自然就无法进入根用户下。到网上搜了一下,原来是这麽回事。Ubuntu的默认root密码是随机的,即每次开机都有一个新的root密码。我们可以在终端输入命令 sudo passwd,然后输入当前用户的密码,enter,终端会提示我们输入新的密码并确认,此时的密码就是root新密码。修改成功后,输入命令 su root,再输入新的密码就

2015-11-28 09:33:03 257557

转载 Hadoop集群安装配置教程_Hadoop2.6.0/Ubuntu 14.04

本文转载自给力星 原文地址:http://www.powerxing.com/install-hadoop-cluster/前言当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装

2015-11-27 19:59:08 258123

转载 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

转载自给力星 原文地址:http://www.powerxing.com/install-hadoop/ 给力的blog,怕丢失,故转载当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几

2015-11-27 19:56:04 258946

原创 ubuntu执行远程脚本,分布式系统搭建

多数执行远程脚本都是基于ssh的, 所以 1.配置ssh免密登陆(多数分布式系统,如hadoop) 2.执行远程脚本 一. 配置ssh免密登陆首先生成 Master 的公匙,在 Master 节点终端中执行:$ cd ~/.ssh # 如果没有该目录,先执行一次ssh localhost$ ssh-keygen -t rsa # 一直按回车就可以

2015-11-27 19:45:35 258686

原创 MYSQL数据库远程登录及权限设置

数据库 mysql 很多时候需要远程登陆,默认情况,mysql是只容许本机登陆的,需要手动开启,具体方法windows和linux类似1、修改数据表server端,只能在localhost登陆。登入MySQL后,更改 “MySQL” 数据库里的 “user” 表里的 “Host” 项,从“localhost”改称“%”,%表示所有IP的机器都允许。 1.1进入数据库MySQL -uuser -pp

2015-11-27 17:42:52 256323

原创 ubuntu文件传输,分布式系统搭建

多机连用,批量将pdf进行提取文本和文本转换方案: 1. 文件共享式:一台主机(Master)共享文件,使用nfs;其他slaver读取共享文件夹中的内容; 2. 分布式:文件分发传输到每一台主机,每台机器都在本地执行脚本总体来说 scp是有Security的文件copy,基于ssh登录

2015-11-27 17:21:34 256146

原创 python 调用系统命令,执行命令行

python中调用系统命令的方法还是有比较多的,os/command/subprocess模块中都有方法可以做到 **(1) os.system****(2) os.popen****(3) 使用模块commands模块**:getoutput和getstatusoutput **(4) subprocess**

2015-11-19 16:04:42 262328

原创 爬虫--scrapy 初探

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。写爬虫比较popular的语言是python,楼主主要就是用python写,到现在也写过一二十个简单爬虫了; 网上也有写的比较好的介绍 http://www.zhihu.com/question/20899988盗个图,这就是基本原理 大概流程有 :

2015-10-31 13:51:33 256563

原创 S3增加防盗链功能和备份策略

下文所述基本都是基于控制台配置的,比较方便S3作为AWS里的文件存储服务,一些针对文件的增删、安全、请求等功能都提供了较为完善的支持,也都是可以在S3的控制台里直接配置(登陆账号后,顶部的导航栏里可以进入) PS:提供一个比较偏门的方法,英语不好的同学,Amazon的功能好多术语不懂的话,可以去国内比较出名的云平台看文档,比如阿里云,因为国内的基本上都是模仿和抄袭Amazon的云,提供的功能

2015-10-31 11:24:38 259737 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除