6 chijiaodaxie

尚未进行身份认证

我要认证

致逝去的发际线--襁褓中的算法工程师

等级
TA的排名 1w+

社交网络(social media)测评

国内的社交头把交椅绝对是wechat,微信+qq缔造的虚拟世界一时半会也不是其他公司在短时间可以撼动的,而国外社交网络几大霸主:Facebook,Instagram,Twitter,WhatsApp等,由于需要科学上网,那么这样国内的同学基本都无法体验这次优秀的app,但是经过一番搜索,其实发现有不少online viewer,可以透过他们看到这些app的一些本来的样子,比如Insdear, In...

2019-09-29 14:47:40

Mysql 主从同步配置

Mysql本身支持同步方案,使得数据在备份,恢复,容灾和负载均衡方面都有一些自带的能力;同步模式: mysql的同步支持主主同步,主从同步,原理大同小异,只是主主同步适应场景更广,但也会引发更多的安全问题(比如同时修改时,主键自增的问题),官网推荐的同步架构方式(示例): 执行方式: (数据变化记录在binlog中,使用binlog增量同步,每种方式的特点在这不展开聊) 基于语句同步...

2018-08-10 18:14:42

监控软件Zabbix安装使用

按照zabbix.com的官方文档安装,zabbix-server启动报错,记录debug过程,以及使用系统是ubuntu15.10的,装了几个小时,改了各种配置,一直没有起来,看官方只支持14.04和16.04的,想是不是系统原因,幸好公司各种版本的系统都是有的,拿来基本全新的16.04的根据官网介绍,几分钟就装好搞定了(手动骂娘);log显示ip没被监控或者不支持(后来发现这log是个...

2018-07-04 17:37:58

字符编码笔记:ASCII,Unicode 和 UTF-8

原文地址:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 一、ASCII 码 我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态...

2018-07-03 11:09:54

数据爬取-奇技淫巧系列1——抓取隐藏在CDN,防爬代理等服务后面的数据

准备写个数据爬取的技巧系列Blog,不定时更新 互联网上爬虫和反爬大战已愈演愈烈,不同段位的选手在相互交锋,有时候爬数据采用比较温和的方式就能获取到,但是碰到难啃的骨头,就必须要采用一些奇技淫巧,于是就有了该系列。 该系列主要提供思路,很少涉及细节系列第一篇,主要对付隐藏在CDN,防爬代理服务器后面的网站,怎么做呢,分如下几步:想方设法找到网站的真实IP(比如找子域名,多节点Ping...

2018-05-17 19:33:50

Ubuntu上使用iptables + ipset 联合进行ip封禁

爬虫很烦人,dos攻击更烦人,今天公司一个裸站被dos攻击了,简单记录一下;iptables是Linux上常用的防火墙软件,使用 iptables 封 IP,是一种比较简单的应对网络攻击的方式,也算是比较常见,但其使用链表作为数据结构,效率很低,复杂度都是O(n);ipset 提供了把这个 O(n) 的操作变成 O(1) 的方法:就是把要处理的 IP 放进一个集合,对这个集合设置一条 ipt...

2018-04-25 18:55:33

Ubuntu-linux apache web 服务器开始rewrite模块和功能

已经遇到几次了,每次都是临时查询,写个流水账记录下来,方便以后查阅开启rewrite模块:sudo a2enmod rewrite修改项目具体内容: sudo vim /etc/apache2/sites-enabled/000-default将AllowOverride None全部改成AllowOverride All如果没有,则加入如下代...

2018-02-10 11:09:31

N,NP,NPC,NP-Hard问题

什么是P问题、NP问题和NPC问题,这或许是众多OIer最大的误区之一。你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才行”的问题,NPC问题才是。好,行了,基本上这个误解已经被澄清了。下面的内容都是在讲什么是P问

2018-02-06 16:54:38

音频视频自动提取字幕(extract subtitle from audios and vedios)

自动提取字幕的功能,在国外视频网站Youtube和社交巨头Facebook都已经上线多年,但国内各类视频和音频站都没有类似的功能,所有花了点时间调研了一下subtitle的自动提取功能:1. 开源语音识别库,比如Kaldi: 没有足够的语料库,识别效果不好,而且背景音等对识别会产生很大的影响,所以想训练出一个生存环境可用的语音识别软件还是对需要有足够的标定数据,所以讯飞/搜狗/百度等公司的

2017-10-31 17:21:14

Linux apt-get update/upgrade/install fetch error 出现404 问题

首先Linux有各种发行版,每个版本又会时不时发布新的version,官方对每个version的支持时间不尽相同,以Ubuntu为例:比如一些以04结尾的版本是稳定版是LTS(long term support)的,还是测试版,支持的时间相对短,一旦过期,Ubuntu会把一些软件包打包放到old-release.ubuntu.com的子域名下,所以apt-get安装或者更新数据的时候就会找不到源。既

2017-10-26 15:49:29

Ubuntu mail命令发送邮件

ubuntu server 14.04 从命令行发邮件安装mailutilssudo apt-get install mailutils接下来进行默认安装就行了。Postfix Configuration 需要记住这里的System mail name,后面会用到。发送邮件用一行命令发送邮件 给邮箱example@qq.com(改成你自己要发送的邮箱)发封邮件。邮件主题为Test ema

2017-09-08 13:05:21

ubuntu apache 安装 gd,imagick扩展

都用直接上最简单的方式: GD:sudo apt-get install php5-gdimagick:sudo apt-get install php5-imagick

2017-09-05 17:35:18

mysql数据存储地址修改

很多时候,mysql的数据会非常大,数据默认放在/var/lib/mysql,由于/var所划分的空间不够大,所以我们需要将mysql数据存放路径修改一下,放到大分区里面,以便可以应付mysql数据增长。1.设置新的存放路径mkdir -p /data/mysql2.复制原有数据cp -R /var/lib/mysql/* /data/mysql3.修改权限chown -R mysql:mysq

2017-08-20 17:13:27

关于找不到库文件.so,.h的万能debug方法

安装使用kaldi时,今天又碰到了.so库文件找不到的问题,感觉时编译的时候出了问题,因为要tools里下载依赖(opentsp等),然后去src里安装编译,第一次跑yesno sample的时候通过,后来给kaldi的根目录改了一个名,运行中文thchs30和yesno都报错,原因时tsf的命令找不到库文件 .sh (No such file),以前有遇到过类似问题,记得上一次是因为安装在usr/

2017-08-19 17:42:12

微信抓取

和网上其他地方一样,爬微信,无非就是sogou和中间人代理两种方式: 1. sogou实现了爬虫和模拟浏览器两种方式,封的很严重,想要拿到批量的biz(微信的一个必须爬取参数)有点麻烦,但是几千个还是拿到了; 2. 中间人代理,看了网上的一些方法,大体框架是采用的 手机客户端微信 + anyproxy代理攻击 + php后端服务 + python交互数据库(SQL ),有点杂乱,其实php和py

2017-08-10 20:03:27

字符串String中tag提取

为了便于进行内容cat归属,需要对string中的tag进行提取,这个tag的含义就广了,指导思想:尽量多research了一些tag提取的方法: 1. 说的最基础的当然是 TF-IDF算法,可惜不怎么适用; 2. 第一个想到支持一下本校的成果:pkusumsum,当然里面也是基于一些常用的算法,实际测试只能提取document级别的文本,csdn自动识别tag可能与这个有关,当然我觉得更可能的

2017-08-10 19:51:23

OCR光学字符识别

没搞过计算机视觉,只好拿来主义了: 根据网上的推荐: 1. google vision,识别效果还不错,收费,而且对于复杂文本也不是很理想,所以继续寻找开源代码; 2. tesseract,最负盛名的开源识别软件,据说google vision内部也是基于此。就我们公司的需求来说(提取图片中嵌入的文本),tesseract能识别30%左右的good case,剩下20%凑合,剩下多数是没有文本

2017-08-10 19:34:14

提高微信公众号文章采集效率,anyproxy进阶使用方法(转)

会导致采集中断,之后就需要人工干预。影响因素主要会有以下几点:1、网络环境不佳;2、手机或模拟器中微信客户端崩溃;3、其它一些网络传输错误;因为我比较看重采集系统的运行成本,这个成本包括硬件投入,运算力投入和占用的人工精力。所以必须提高运行的稳定性。因此如果采集中断,必然增加人工精力的成本。所以针对这一点我对anyproxy做了一些进阶的改造,并且借助了其它一些工具提高了运行效率。以下就是具体的解决

2017-08-08 14:43:52

后台任务稳定运行方案--不受终端关闭或者远程(ssh等)连接失败影响

我们经常会碰到这样的问题,用 telnet/ssh 登录了远程的 Linux 服务器,运行了一些耗时较长的任务, 结果却由于网络的不稳定导致任务中途失败。如何让命令提交后不受本地关闭终端窗口/网络断开连接的干扰呢?下面举了一些例子, 您可以针对不同的场景选择不同的方式来处理这个问题。具体命令如:at,nohup,setsid,(&),disown,screen 甚至crontab

2017-05-10 11:45:06

Python 脚本运行时Segmentation fault (core dumped)

问题如题描述,python 运行过程中直接导致python 解释器崩溃(不是异常,直接崩溃),下面简叙一下debug过程:google查询结果显示这种情况多数是因为Python里的C扩展导致(访问了非法内存区域,可能和C自身内存管理机制有关),而且可以用gdb进行debug(因为Python崩溃,没法用python自身的debug机制,定位到出错的位置),gdb就输出一个出错的内存地址,楼主没想深

2017-02-25 10:23:15

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!