14 a345017062

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1k+

ATS的一些问题处理

错误如果一个url因为未满足ATS要求而访问失败,可能会提示下面这样的错误: Error Domain=NSURLErrorDomain Code=-1200 “An SSL error has occurred and a secure connection to the server cannot be made.”工具通常,可以使用工具来检测url所属的主机对ATS的支持情况。 可以在命令

2017-01-02 20:46:00

文本相似度的那些算法

子序列与子字符串这个系列问题包含这么几种:最大子序列、最长递增子序列、最长公共子串、最长公共子序列。 几个子问题都可以用动态规划的思路来求解。对于长度为i、j的两个字符串 ,使用m[i][j]矩阵来存放中间结果。更详细的算法可以看这篇文档: http://www.cnblogs.com/zhangchaoyang/articles/2012070.html字符串编辑距离精确计算两个字符串的编辑距

2016-09-27 17:04:51

优化OpenSearch的搜索结果

前面介绍了OpenSearch的基本使用(使用OpenSearch为应用提供搜索功能),一个小型的搜索服务很容易搭建。但具体应用到某个业务时,可能我们对默认的搜索结果并不满意,这里介绍下OpenSearch在搜索结果的调优方面提供的方法。调优入口使用OpenSearch时,要影响搜索结果,可以在两个地方下功夫。查询一条OpenSearch查询语句可以包含多种形式的子句,除了最核心的必选query子句

2016-09-26 21:38:29

使用OpenSearch为应用提供搜索功能

创业公司,一切从简,这里用OpenSearch搭建一个健康科普文章的搜索引擎,来展示一下在项目中接入搜索引擎是多么简单。自从用了OpenSearch,老板再也不用担心我的搜索引擎了。说到健康科普,当属我一直关注的丁香医生了,几千篇正牌医生针对自己擅长的领域写出来的文章,权威性很高。不像百度出来的一片片盗版文档,毫无可信度可言。老码农作为资深鼻炎患者,感受颇深。 所以这次就用这些健康科普文章来做次实

2016-09-26 12:35:07

数据分布未明确时的检验方法

通常,数据有一个比较明确的分布方式,如二项分布、正态分布等,也就存在针对具体分布方式的明确检验方法。 下面这些检验方式是在数据没有明确的分布方式的情况下使用的,相比有针对明确分布数据集的检验方式,效率更低,需要的样本量更大,更粗糙。一个数据集可以使用多种方式检验零假设,但只要有一种检验方式拒绝零假设,那就可以判定拒绝零假设。符号检验也叫sign test。在这篇文章中提到的身高的例子,在这里我们并

2016-09-22 21:26:24

连续分布——正态分布、卡方分布、t分布、F分布

正态分布某一地区的人群生长环境相似,我们随机选20个男性,量出他们的身高,近似地服从正态分布。正态分布,即高斯分布,是自然界最常见的数据分布了。 用均值、标准差来确定一个正态分布概率密度图。比如N(-2,0.5),就是均值为-2,标准差为0.5的正态分布。而N(0,1)称为标准正态分布。这里给出R应用//假设当在居民的身高正态分布均值为170cm,标准差为10,身高低于160的概率为pnorm(

2016-09-22 13:25:12

离散分布——二项分布、多项分布、超几何分布

介绍二项分布前,先了解一下伯努利实验。 比如一个鸡蛋是否能成功孵出小鸡,扔硬币,进入商店的人是否购买了东西,一个正在生产的产妇是生男生女,这些都是伯努利实验。它满足以下条件:1、每次只可能有两种结果;2、两次实验之间互不影响。 和伯努利实验最常见的问题就是:如果进行n次伯努利实验,每次成功概率为p,那么成功k次的概率是多少?这个概率分布就是二项分布。这里给出R语言应用 已知某批鸡蛋的孵出

2016-09-21 14:03:39

一些常见的特征选择方法

现实中产生的特征维度可能很多,特征质量参差不齐,不仅会增加训练过程的时间,也可能会降低模型质量。因此,提取出最具代表性的一部分特征来参与训练就很重要了。 通常有特征抽取和特征选择两种方法。这里分别介绍一下。特征抽取与PCA特征抽取中最常见的当属PCA了。主要思想对于特征之间存在正交关系,数据满足高斯分布或指数分布的数据,作线性变换,使用方差、协方差去噪,生成新的主元,接下来按重要性排序后取少数参与

2016-09-20 18:10:46

R+ODPS

阿里的数加平台最近推出了机器学习数据实验室,由于是基于ODPS创建,运算方面丝毫不是问题,继承了ODPS的大数据计算能力。 算法方面,常见的二分类、多分类、线性回归、聚类、图计算等都有提供,纯图形的操作方式也很简单。 计费方式同ODPS差不多,按IO和计算量计费,起步门槛很低。 有兴趣可以玩一玩:https://data.aliyun.com/product/learn老码农玩了一段时间,觉得

2016-09-20 08:55:45

基本数学概念——数列

这里介绍常见的数列,及其R实现等差数列seq(1,5,2)//输出结果:1,3,5等比数列等差数列的每一项作为常数的指数即可data<-seq(1,5,2)//先生成等差数列10^data//以10为底数,生成等比数列//输出结果:1e+01 1e+03 1e+052^data//以2为底数,生成等比数列//输出结果:2 8 32重复数列rep(1,5)//生成5个1。//输出结果:1

2016-09-19 16:29:34

基本数学概念——集合

这里找了一个集合的基本操作的应用场景,并给出了R求解过程。问题一个班级有10个人,学号编号分别为1、2、3、4、5、6、7、8、9、10。其中,{1、2、3}3个人参加了物理竞赛,{3、4、9}5个人参加了数学竞赛,{2、3、4、6、8}5个人参加了作文竞赛,{1、2、4、5、7、8}6个人参加了英文竞赛。 分别找出以下的人: 1、参加了物理竞赛或数学竞赛的所有人。 2、既参加了物理竞赛,又参

2016-09-19 10:44:13

由中秋抢月饼事件想到的

我这篇文章(http://blog.csdn.net/a345017062/article/details/52262898)提到过,好奇和尝试是创新的源动力,是对边界的挑战。 这样的事每天都在发生:从改革开放的傻子瓜子,到淘宝无数店铺多年的无照经营;从水深流大的影子银行,到泥俱下的P2P,从因为代购被判刑的空姐这样的蚂蚁雄兵,到CEO突然消失的笨鸟物流。 世界处处存在漏洞,对希望的追求,驱使人

2016-09-15 14:59:29

常见算法及问题场景——字符串匹配

思路字符串匹配的思路大致分几种: 1、暴力匹配。 2、基于暴力匹配进行优化。进行预计算,一旦发现失败匹配之后,可以跳过更多的位置,减少无谓的浪费。 这篇文档提到了许多按这个思路实现的算法各具特点 http://blog.csdn.net/airfer/article/details/8951802/ 但最具代表性的算法还是KM,这篇文档讲的非常详细: http://www.ruanyif

2016-09-06 19:17:50

常见算法及问题场景——线性规划

数据模型1、约束条件及目标函数 2、约束条件所表示的可行域 3、在可行域内求目标函数的最优解及最优值理论体系几何上,线性约束条件的集合相当于一个凸包或凸集,叫做可行域。 目标函数亦是线性的,所以其极值点会自动成为最值点。而线性目标函数暗示其最优解只会出现在其可行域的边界点中。两种情况下无解: 1、约束条件互相矛盾,即坐标系中可行域为空。 2、约束条件构成的多面体可行域无限大。现实问题很少会

2016-09-06 16:35:08

常见算法及问题场景——散列(哈希)

定义哈希函数按照定义可以实现一个伪随机数生成器(PRNG),从这个角度来看,哈希函数之间性能、质量等方面的比较,可以通过其在伪随机生成质量方面的比较来衡量。评价体系:1、泊松分布可以用于分析不同的哈希函数对不同的数据的碰撞率(collision rate)。 2、算法复杂度,以及运行时间。 3、位偏向。哈希函数生成随机位序列时,产生高、低位的位偏向应该各为50%。 4、完美的哈稀函数不存在,只

2016-09-06 15:49:22

常见算法及问题场景——分治

总述把问题分为几个独立的子问题,对子问题求解,进行合并,得到最终问题的解。问题1、二分查找 2、大整数乘法 3、Strassen矩阵乘法 4、棋盘覆盖 5、合并排序 6、快速排序 7、线性时间选择 8、最接近点对问题 9、循环赛日程表 10、汉诺塔

2016-09-05 21:33:34

常见算法及问题场景——贪心算法

总述1、求解思路:把问题分解为多个子问题,只要依次求出子问题的最优解,就能得到最终问题的最优解。即,只需要考虑局部最优,就能得到全局最优。 2、局限性:需要先确认一个问题具有上述特点,才能使用贪心算法求解。适用场景1、单源最短路经问题 2、最小生成树问题 3、可任意分割的背包问题。如果不可以任意分割,就需要用动态规划求解。 4、某些情况下,即使贪心算法不能得到整体最优解,其最终结果却是最优解

2016-09-05 21:17:35

常见算法及问题场景——动态规划

先推荐一篇讲动态规划讲得很好的文章: http://www.hawstein.com/posts/dp-novice-to-advanced.html 接下来从几个经典问题来看。硬币组合问题有面值为1元、3元和5元的硬币若干枚,如何用最少的硬币凑够11元?思路依次计算出0~11元的组合,并记录,每一个组合是前面所有组合中的某一个与1元、3元、5元硬币的搭配,并在搭配集合中取最小的一个。f(y)

2016-09-02 21:17:09

常见算法及问题场景——图

最短路径现实场景1、一批货从北京到广州的的最快,或最省钱的走法。 把路线中各城市当作图的顶点,各城市之间的花费时间,或金钱当作边的权重,求两点之间的最短路径。 2、在城市群中建一个仓储基地,建在什么位置可以让各个城市的送货速度都比较快。 同1,把各城市间的送货速度当作边的权重,求仓储基地到各城市间的最短路径。算法1、Dijkstra,单源最短路径。 2、Floyd,两点最短路径。 参考链接

2016-09-01 10:13:02

论好的思维方式——也来务虚一把

有一天跟同事吃饭,聊起了码农的技术高低问题,我们提到了对码农技术发展最重要的几个影响因素,一起聊了聊。通常,入门的时候,大家的会在同一起跑线上,但我周围能在起跑过程中逐渐具备这几个特点的人,都能大家的认可。科学理性我们都知道,人类的技术进步一直都用一些比较朴素的原则做指导:提出假设,小范围验证,得出理论,大范围推广应用,在应用中发现缺陷,推翻旧理论,提出新假设。 把这条原则拆开来看,其实包含了演绎

2016-08-20 18:54:14

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!