自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 证券数据分析笔试题

1 有一个表中有id字段,为纯数值,要求通过mysql编程,输出这个字段的值域如该字段有如下取值 23 27 24 88 12 13 11则输出为 11,13 23,24 27 882、输入为一个字符串,有多个单词用空格分开,要求写一个函数,输出字符串中的纯数字或纯字母单词3有一个客户信息表,包含客户编号cust_id,客户身份证号,有15和18两种,要求用sql输出每个客户的客户编号和生日,默认15的身份证号都出生于1900到1999年...

2021-03-21 17:17:53 523 1

原创 逻辑回归的常见面试点总结

https://www.cnblogs.com/ModifyRong/p/7739955.html逻辑回归的常见面试点总结1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候,经常遇到的一些问题。2.正式介绍 如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括它!逻

2020-05-31 17:15:28 184

原创 偏差和方差

当我们费劲周章不断调参来训练模型时,不可避免地会思考一系列问题,模型好坏的评判标准是什么?改善模型的依据何在?何时停止训练为佳?要解决上述问题,我们需要引入偏差和方差这两个概念,理解他们很重要,也是后续了解过拟合、正则化、提早终止训练、数据增强等概念和方法的前提。一、概念定义偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。通常在深度学习中,我们每一次训练迭代出来的新模型,都会拿训练数据进行预测,偏差就反应在预测值与实际值匹配度上,比如通常在keras运行中看到的准确度为96%,则说明是

2020-05-28 23:25:15 237

原创 协方差和相关系数

以前看到协方差和相关系数就很头大,这里有一篇文章写的很好,图文并茂,一下子记住了。mark一下。https://www.zhihu.com/question/20852004

2020-05-24 22:45:30 216

原创 Bagging和Boosting的区别

Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。Bagging:先介绍Bagging方法:Bagging即套袋法,其算法过程如下:从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)每次使用一个训练集得到一个模型,k个训练集共得到k个

2020-05-24 22:35:16 177

原创 自己训练一个word2vec模型

、《倚天屠龙记》文本词向量模型训练首先从百度中下载小说《倚天屠龙记》的txt文本格式文件,将其放入py文件所在的文件夹下,打开文本如下图所示:image首先我们先进行分词处理:import jiebafin=open(‘倚天屠龙记.txt’,‘r’,encoding=‘UTF-8’)fou=open(‘倚天屠龙记_分词.txt’,‘w’,encoding=‘UTF-8’)line =...

2020-01-19 17:15:55 1341 1

原创 快速排序的Python实现

参考了这一片文章,https://www.jianshu.com/p/2b2f1f79984e但是做了修改。快速排序(quick sort)的采用了分治的策略。分治策略指的是:将原问题分解为若干个规模更小但结构与原问题相似的子问题。递归地解这些子问题,然后将这些子问题的解组合为原问题的解。快排的基本思想是:在序列中找一个划分值,通过一趟排序将未排序的序列排序成 独立的两个部分,其中左边...

2019-06-29 17:56:04 101

转载 word2vec中的负采样

对于自然语言处理,word2vec是和切词并列的基本处理手段,对于word2vec,有篇文章讲解的很详细,从背景知识到具体算法,讲的挺透彻的,推荐一下:https://blog.csdn.net/a819825294/article/details/52438625但是对于其中的关键点,负采样,我一直看的云里雾里,不知道到底是什么原理,让神经网络的训练变得更加高效,搜了很多文章,终于搞懂了一点...

2019-06-20 22:11:47 557

转载 贷还是不贷:如何用Python和机器学习帮你决策?(zz)

https://www.jianshu.com/p/67a71e366516耳闻目睹了机器学习的诸般神奇,有没有冲动打算自己尝试一下?本文我们通过一个贷款风险评估的案例,用最通俗的语言向你介绍机器学习的基础招式,一步步帮助你用Python完成自己的第一个机器学习项目。试过之后你会发现,机器学习真的不难。任务祝贺你,成功进入了一家金融公司实习。第一天上班,你还处在兴奋中。这时主管把你叫过去,...

2019-06-11 17:56:20 327

原创 sklearn-SVC实现与类参数

SVC继承了父类BaseSVCSVC类主要方法:★__init__() 主要参数:C: float参数 默认值为1.0错误项的惩罚系数。C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。相反,减小C的话,容许训练样本中有一些误分类错误样本,泛化能力强。对于训练样本带有噪声的情况,一般采用后者,把训练样本集中错误分类的样本作为...

2019-05-23 16:26:49 224

转载 特征选择

结合Scikit-learn介绍几种常用的特征选择方法特征选择之变量重要性作者:Edwin Jarvis原文地址:https://www.cnblogs.com/hhh5460/p/5186226.html特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有...

2019-05-16 22:54:08 178

原创 文本主题模型之LDA在搜狐新闻数据集上的实践

LDA用于文本的主题提取,关于它的理论知识看了很多,现在想在python环境下做一个实践。实践的数据集,英文的主要是希拉里的邮件数据集:准备工作需要:1、搭建python 环境2、pip install gensim3、安装nltk语言包4、下载希拉里邮件数据集文件:HillaryEmails.csv有币的同学可以在csdn里面找到。#coding=utf8import numpy...

2019-05-12 13:09:44 2314 13

原创 tensorflow使用object detection完成目标检测的实例——无数的坑超详细吐血整理

在搭建完object detection环境之后(参考文章:https://blog.csdn.net/qq_17854471/article/details/89764428)我便开始着手参照文章做一个自己的小应用,目标是通过训练图片,让机器学习检测图片中是否含有武大靖这个人。参考文章:https://blog.csdn.net/dy_guox/article/details/791119...

2019-05-03 12:04:09 9021 13

原创 windows环境下tensorflow Object-detection API的环境搭建

主要参考了https://blog.csdn.net/dy_guox/article/details/79081499这篇文章,但是过程中碰到了不少问题,记录一下。1.安装Tensorflow Object Detection APITensorflow Object Detection API 存放在https://github.com/tensorflow/models上,可以通过git...

2019-05-02 20:13:33 394 1

原创 labelImg安装:windows+python3.5+anaconda4.1.0

1、下载源码https://github.com/tzutalin/labelImg, download之后,解压。2、安装Python3.5不要用3.6!不要用3.6!不要用3.6!到目前为止,当执行" from lxml import etree "时,会失败,目前没有解决办法。3、安装PyQt5进入cmd后,输入: pip install PyQt5此处有坑,基本上这条命令执行后...

2019-05-01 18:47:17 1113

原创 tesseract-ocr安装简体中文语言包

下载tesseract之后如果要识别中文,需要在安装时勾选chi_sim的语言包,但是因为墙的关系,往往下载失败,失败的时候可以看到下载路径,找到相应的文件包。例如我下的是3.02版本,记录了文件路径:tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.equ.tar.gztesseract-ocr-3.02.chi_tra.tar.g...

2019-05-01 17:03:04 13597

原创 opencv的Python环境安装

在opencv官网:https://www.lfd.uci.edu/~gohlke/pythonlibs/#opencv下载相应版本的软件,我安装的python是3.5.1所以我选择了opencv_python‑3.4.6‑cp35‑cp35m‑win_amd64.whl下载有点慢在这个文件目录下发命令:pip install opencv_python‑3.4.6‑cp35‑cp3...

2019-05-01 16:29:06 162

原创 使用清华镜像更新scikit-learn 从0.17到0.19

从网上下的程序,调用了sklearn.model_selection,结果module not found查了一下我的版本conda list发现是1.17,这个版本没有这个module,需要更新。使用conda update scikit-learn报了一大堆错。应该是连接外网的问题。然后找了一篇文章,使用清华镜像进行更新。sklearn官网最新版本镜像在境外,通过吧我的源改成清华...

2019-04-18 16:16:29 7807

原创 tensorboard命令报错:tensorboard.util has no attribute Retriev

只在程序中定义了一个命名空间:#定义两个placeholderwith tf.name_scope(‘input’): #inputx = tf.placeholder(tf.float32,[None,784],name=‘x-input’)y = tf.placeholder(tf.float32,[None,10],name=‘y-input’)…with tf.Session(...

2019-04-14 19:02:01 532

原创 tensorflow快速安装国内镜像

直接安装tensorflow可以使用pip install tensorflow命令,但是速度非常慢。如果指定国内镜像会非常快。以安装cpu版本为例:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow安装几分钟之后就显示成功了,但是高兴的太早了。验证代码:import tensorflow as tf...

2019-04-14 17:57:24 17313

protobuf-master版本

protobuf是用于目标检测任务的必备工具,用于编译tensorflow model中的proto文件。

2019-05-03

protoc-3.7.1-win64.zip

protobuf的windows 64位版本,目标检测API必备,object-detection

2019-05-02

labelImg-master

labelImg是用于给图片进行标签的工具,可以生成目标检测的训练数据集

2019-05-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除