自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 基于车辆路径成本的订单分配打包

写了一个算法,主要用的遗传算法的模子,可以用分布式进程来加速,我博客里有实测可用版。根据车辆数和车辆路径来计算成本,决定订单分配和打包。商业化代码,我这就记录一些零碎好了:关于订单顺序数据格式,我用的列表,以下举例4个订单,这是一辆车的订单,1订单一个订单包,2,3,4订单一个订单包,订单包里第一个list是取货顺序,第二个list是送货顺序:[[[1],[1]],[[2,3,4],[3,2,4]]]关于经纬度计算距离,一般使用的是直线距离,但计算成本还是蒙特卡...

2020-11-10 16:22:29 230

原创 python爬虫 使用进程池

使用进程池来爬虫能有效避免ip被封。调用方式:proxies = getip()requests.post('https://'),headers = header1, proxies=proxies)函数:ips = []for q in range(1, 50): url = 'http://www.66ip.cn/' + str(q) + '.html' html = requests.get(url, verify=False, headers=h...

2020-11-10 16:00:30 359

原创 识别网页验证码

使用python简易逻辑识别数字验证码import requestsimport sys, osfrom PIL import Image, ImageDrawimport pytesseractimport numpy as npimport repytesseract.pytesseract.tesseract_cmd = r'D:\ORC\tesseract.exe'# 二值数组t2val = {}def twoValue(image, G): for..

2020-11-10 15:56:10 348

原创 python3 分布式进程 windows版

网上找了一些文档,都是linux版的,一些号称windows版的都跑不起来,以下更新实测可用代码,包含三部分:起服务:from multiprocessing.managers import BaseManagerimport queuetask_queue = queue.Queue()result_queue = queue.Queue()class QueueManager(BaseManager): passQueueManager.register('get_tas...

2020-11-10 15:47:28 678

转载 python 编写的经纬度坐标转换类

测试网址http://www.gpsspg.com/maps.htm各地图API坐标系统比较与转换;WGS84坐标系:即地球坐标系,国际上通用的坐标系。设备一般包含GPS芯片或者北斗芯片获取的经纬度为WGS84地理坐标系,谷歌地图采用的是WGS84地理坐标系(中国范围除外);GCJ02坐标系:即火星坐标系,是由中国国家测绘局制订的地理信息系统的坐标系统。由WGS84坐标系经加密后的坐标系...

2020-04-17 14:51:46 1024

原创 Azure存储 自动数据同步AzCopy

最新版的AzCopy需要配置SAS,但需要权限配置才可以,比较麻烦我这里提供一个老版的调用方法,只用账号和密码就可以了。AzCopy /Source:https://。。。。/SourceKey:。。。。 /Dest:。。。。/DestKey:。。。。fwRQ== /S /Y /XO /SyncCopy...

2020-04-15 11:43:19 933

原创 传感器数据异常预测-实战篇

好久没更新了,记录一下近两年研究的一套算法吧,只讲讲方法部分,细节再更新吧。时序数据的异常检测我一般分成两类,单信号和多信号。单信号对于一条数据的异常检测,我划分成两类,与时序无关和与时序相关。与时序无关指的是单看信号即可完成异常的判断。这块主要方法就是数据质量监控。一般会加入时间窗平滑,如有必要还需对时间窗内分配权重。检测异常值或空置出现的频率随时间的变化; 检测...

2020-03-23 16:07:07 3547

原创 Julia研究

准备搞搞Julia,先占个坑近日,MIT CSAIL 实验室正式发布了 Julia 1.0,该语言期望结合 C 的速度、Matlab 的数学表征、Python 的通用编程与 Shell 的胶水命令行,并构建开源、自由与便捷的编程语言。Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计...

2018-08-10 14:13:34 761

原创 deep face 换脸功能 探索

deepfake刚出来的时候超级火,最近终于有大佬出资源找我做这块,上手开GAN。先从GitHub上下代码。配置环境,Ubuntu一激动装了18,折腾好几天各种坑,乖乖回到了16,一天搞定所有环境。机器配置要求有n卡,大佬给配了三个(本来四个坏了一个)TITAN X 12g显存。先前期熟悉模型用。后期说有上高配期待中。程序运行很简单,作者很贴心的还有gui,第一步就是准备数据了。...

2018-08-08 11:50:00 8240 2

原创 《Relational inductive biases, deep learning, and graph networks》图网络 论文解读

研究背景:机器学习界有三个主要学派,符号主义(Symbolicism)、连接主义(Connectionism)、行为主义(Actionism)。符号主义的起源,注重研究知识表达和逻辑推理。经过几十年的研究,目前这一学派的主要成果,一个是贝叶斯因果网络,另一个是知识图谱。贝叶斯因果网络的旗手是 Judea Pearl 教授,2011年的图灵奖获得者。但是据说 2017年 NIPS 学术会议上,老爷子...

2018-06-15 17:33:29 17482 4

原创 tensorflow 实现 Class Activation Map 用于 分类目标定位

对《Learning Deep Features for Discriminative Localization》的剖析一个最近的使用例子是吴恩达公司做的肺炎诊断准确率超过人类医生在这篇论文中,认为图片在经过卷积层的特征提取后,通过CAM,除了不弱的分类精度外,还能对分类的依据进行定位,相当于诠释网络是如何做出分类判断的。CAM的核心部分如下图:在卷积层之后,使用了

2017-12-26 15:00:36 7578 5

原创 深度学习笔记5-TensorFlow Dropout

TensorFlow Dropout图 1:来自论文 "Dropout: A Simple Way to Prevent Neural Networks fromOverfitting" (https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)Dropout 是一

2017-08-17 16:06:39 279

原创 深度学习笔记4--TensorFlow保存模型

保存和读取 TensorFlow 模型训练一个模型的时间很长。但是你一旦关闭了 TensorFlow session,你所有训练的权重和偏置项都丢失了。如果你计划在之后重新使用这个模型,你需要重新训练!幸运的是,TensorFlow 可以让你通过一个叫 tf.train.Saver 的类把你的进程保存下来。这个类可以把任何 tf.Variable 存到你的文件系统。保存变量

2017-08-17 13:57:26 337

原创 深度学习笔记4--TensorFlow神经网络

多层神经网络之前你应该了解,在网络里面添加一个隐藏层,可以让它构建更复杂的模型。而且,在隐藏层用非线性激活函数可以让它对非线性函数建模。一个常用的非线性函数叫 ReLU(rectified linear unit)。ReLU 函数对所有负的输入,返回 0;所有 x>0 的输入,返回 x。TensorFlow ReLUsTensorFlow 提供了 ReLU

2017-08-17 13:34:25 365

原创 深度学习笔记3--TensorFlow线性函数

TensorFlow 里的线性函数神经网络中最常见的运算,就是计算输入,权重和偏差的线性组合。回忆一下,我们可以把线性操作的输入写成:这里 W 是连接两层的权重矩阵。输出 y ,输入 x, 偏差 b 全部都是向量。TensorFlow 里的权重和偏差训练神经网络的目的

2017-08-16 16:35:36 369

原创 深度学习笔记2--TensorFlow基础

安装跟往常一样,我们用 Conda 来安装 TensorFlow。你也许已经有过 TensorFlow 的环境,但确认一下你有所有必要的包。OS X 或 Linux运行下列命令来配置开发环境conda create -n tensorflow python=3.5source activate tensorflowconda install pandas matplotlib

2017-08-16 16:13:37 240

转载 强化学习笔记2--Q-learning

http://blog.csdn.net/itplus/article/details/9361915

2017-08-14 10:58:33 284

原创 pyspark 回归

%livy.pysparkfrom pyspark.mllib.regression import LabeledPointfrom pyspark.mllib.regression import LinearRegressionWithSGDdata = [LabeledPoint(float(i[0]), [float(i[1])]) for i invddf.collect()]

2017-08-07 15:21:02 478

原创 深度学习笔记1--神经网络

Jump to contentShow Navigation课程 4: 神经网络入门概念课程资源搜索1. 认识 Luis2. 对数几率回归练习3. 对数几率回归答案4. 神经网络5. Perceptron 感知器6. AND 感知器练习7. OR & NOT 感知器练习8. XOR 感知

2017-08-01 17:00:06 2290

转载 强化学习笔记1--马尔科夫决策过程

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的

2017-07-27 10:51:53 310

原创 机器学习笔记18--数据预处理2

可视化特征分布为了能够对数据集有一个更好的理解,我们可以对数据集中的每一个产品特征构建一个散布矩阵(scatter matrix)。如果你发现你在上面尝试预测的特征对于区分一个特定的类别来说是必须的,那么这个特征和其它的特征可能不会在下面的散射矩阵中显示任何关系。相反的,如果你认为这个特征对于识别一个特定的类别是没有作用的,那么通过散布矩阵可以看出在这个数据特征和其它特征中有关联性。运行下

2017-07-16 19:48:05 294

原创 机器学习笔记17--ica/rca特征转换

将特征分解成相互独立的信息如鸡尾酒会问题,多人在同时谈论,每个麦克风收集的都是混合音频,利用ica可以将每个独立人说话的声音分割开

2017-07-14 10:43:56 310

原创 机器学习笔记16--pca主成分分析

第一种情况是 如果你想要访问隐藏的特征 而你认为这些特征可能显示在你的数据的图案中第二种情况当然就是降维         它可以帮助你可视化高维数据        去噪       在使用另一个算法前使用 PCA 进行预处理如果你收到任何形状的数据 无论是何种形状,PCA 会仅通过转化和轮换发现从旧坐标系统获得的新坐标系统,它根据数据中心,将坐标系的中心移至//

2017-07-07 09:12:12 304

原创 机器学习笔记15-数据预处理

转换倾斜的连续特征一个数据集有时可能包含至少一个靠近某个数字的特征,但有时也会有一些相对来说存在极大值或者极小值的不平凡分布的的特征。算法对这种分布的数据会十分敏感,并且如果这种数据没有能够很好地规一化处理会使得算法表现不佳。对于高度倾斜分布的特征如'capital-gain'和'capital-loss',常见的做法是对数据施加一个对数转换,将数据转换成对数,这样非常大和非常

2017-06-20 14:04:20 781

原创 机器学习笔记14-集成 B&B

集成 B&B    Bagging 和 Boosting 是提高监督式学习方案准确性的两种常见集成方法。收集一堆简单规则,并且这些规则都有点意义 能提供一些帮助。但是,单靠某一个规则无法得到最好的答案,合并成一个效果不错的复杂规则。先通过某个数据子集进行学习,形成某个规则 然后通过另一数据子集进行学习,再接着形成第四、第五乃至更多个规则,最后你收集所有这些规则,并将

2017-06-06 16:19:19 276

原创 机器学习笔记13-贝叶斯

根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是 p(y|x)=p(x|y)p(y)p(x)朴素贝叶斯假设各特征独立同分布,判断属于哪一类别只用比较概率大小,我们可以假设p(x)相同(即所有类别等可能发生),p(y)相同(均匀分布),所以只需要比较p(x|y)即可。避免p(x|y)=0,我们用到:拉普拉斯平滑

2017-06-05 11:44:25 205

原创 机器学习笔记13-基于实例的学习

积极式学习:回归懒惰式学习:KNN:相似性函数

2017-05-26 17:31:06 502

原创 机器学习笔记12-SVM支持向量机

保持分类准确的情况下最大间隔,求最大间隔是二次规划问题核函数:        满足 Mercer 条件:核函数要能够作为一种距离或一种相似性,它不能是一个与各个点都不相关的任意条件,在这一情况下,结果肯定为正值的意思是这是一个行为良好的距离函数。

2017-05-25 17:22:06 205

原创 机器学习笔记11-神经网络-python实现

联系创建感知器:# ----------# # In this exercise, you will add in code that decides whether a perceptron will fire based# on the threshold. Your code will go in lines 32 and 34. ## ----------import nu

2017-05-21 12:11:39 416

原创 机器学习笔记10-神经网络

感知器:会有一些输入,将它们视为放电频率或输入的强度,在这种情况下 即 X1、X2 和 X3 把他们相应地乘以权值 w1、w2 和 w3,在这里 权值基本相当于神经元 (即这个单元) 对每个输入的增益或敏感性。现在对所有输入求和,强度乘以权值,就是激发函数。然后我们看看函数的值是否大于等于激发阈,决定输出。即线性加权和后跟一个阈值二值化方法

2017-05-16 17:13:35 299

原创 机器学习笔记9-熵/信息增益

熵的公式是:负 Pi log2(Pi),把所有的可能出现的类的结果加和Pi 是给定类(即类 i)中的样本的分数/概率熵基本上与纯度对立,所以,在一种极端情况下,你的所有样本可以属于相同类,熵将为 0。你的样本均匀分散在所有可能类中,熵将为 1.0。信息增益定义为父项熵减去分割父项后生成的子项的熵的加权平均。决策树会最大程度地提高信息增

2017-05-16 16:31:02 230

原创 机器学习笔记8-决策树

输出是连续或离散,分为回归和分类实例:输入函数目标:答案假设类:愿意考虑的所有函数训练集

2017-05-15 16:59:08 312

原创 机器学习笔记7-回归

线性回归:当我们在做线性回归时,我的工作就是最大程度的降低误差的平方和,通常我们用两种算法来达到这个目标:最小二乘法(OLS)和梯度下降法注:最小化误差的平方和,而不是绝对误差和。但误差的平方和与数据点的数量关系密切,因此我们提出R2的评估指标。(0,1),越大越好。多元回归参数回归:K最近邻(KNN),距离最近的K个点的平均值作

2017-05-11 15:50:15 241

原创 机器学习笔记6-交叉验证

Sklearn 中的 K 折 CV可通过简单的方式随机化 Sklearn k 折 CV 中的事件,就是将 shuffle 标志设置为 true。之后,代码将从如下所示:cv = KFold( len(X), 2 )变为如下所示:cv = KFold( len(X), 2, shuffle=True )cv中含2个列表,一个

2017-04-03 11:46:01 571

原创 机器学习笔记5-学习曲线

学习曲线sklearn中的学习曲线函数可以帮到我们。它可以让我们通过数据点来了解模型表现的好坏。可以先引入这个模块from sklearn.learning_curve import learning_curve # sklearn 0.17from sklearn.model_selection import learning_curve # sklearn 0.18

2017-04-02 21:09:06 906

原创 机器学习笔记4-评估指标

对于分类,我们会探讨准确率、精确率、召回率和 F 分数。对于回归,我们会探讨平均绝对误差和均方误差。分类指标混淆矩阵如有150个样本数据,这些数据分成3类,每类50个。分类结束后得到的混淆矩阵为:  预测类1类2类3实际  类143

2017-04-02 17:50:02 512

原创 机器学习笔记3-拆分数据集和训练集

拆分数据集和训练集from sklearn import cross_validation # for version 0.17# For version 0.18# from sklearn.model_selection import train_test_split### set the random_state to 0 and the test_size to 0.4 so

2017-04-02 16:56:01 3178

原创 机器学习笔记2-量化类别数据

类别类数据:from sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import OneHotEncoder# TODO: Create a LabelEncoder object, which will turn all labels present in# in each fe

2017-04-02 14:53:21 1237

原创 机器学习笔记1-常见算法介绍及优缺点

决策树:朴素贝叶斯:梯度下降法:线型回归:使用梯度下降法,寻找最佳拟合直线:为了避免负数,我们通常使用点到直线距离的平方和,这种方法就叫做最小二乘法。逻辑回归:依然使用梯度下降法寻找最佳分割直线,目标是对数损失函数最小:支持向量机SVM:在同样能把

2017-04-02 13:06:48 371

转载 Python数据分析之pandas学习

Python中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Excel的数据透视表功

2017-02-23 13:16:33 647

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除