自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据小丸子的博客

R与PYTHON数据可视化和机器学习知识工厂

  • 博客(38)
  • 问答 (1)
  • 收藏
  • 关注

原创 C#-ReaderWriterLockSlim的递归策略(NoRecursion与SupportsRecursion)

递归策略有两种:1.LockRecursionPolicy.NoRecursion不允许递归,即在同一个进程中,不允许在未退出读、写或升级状态时,再次进入该状态。//在NoRecursion模式下,同一线程两次进入,将导致catch捕获异常 ReaderWriterLockSlim rwls=new ReaderWriterLockSlim(); rwls.EnterReadLock();//第一次进入 try { rwls.EnterReadLock();//第二次进入

2022-05-08 13:33:24 363

转载 MySql 语句练习50题

MySql 语句练习50题表名和字段–1.学生表Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别–2.课程表Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号–3.教师表Teacher(t_id,t_name) –教师编号,教师姓名–4.成绩表Score(s_id,c...

2020-02-10 11:42:07 735

转载 子网掩码概念及计算

转自:https://blog.csdn.net/wuseyukui/article/details/24306645一、子网掩码的概述及作用子网掩码是一个应用于TCP/IP网络的32位二进制值,每节8位,必须结合IP地址对应使用。子网掩码32位都与IP地址32位对应,如果某位是网络地址,则子网掩码为1,否则为0。子网掩码可以通过与IP地址“与”计算,分离出IP地址中的网络地址...

2020-02-10 11:26:55 3047

转载 详解公网Ip和私网ip

为什么百度查到的ip和ipconfig查到的不一样;详解公网Ip和私网ip;详解网络分类ABC; 原创 ...

2020-02-10 09:14:45 1277

原创 Django:模板位置与mysql数据库报错解决

一,模板放置位置:方法一:在每个app下构建一个templates文件夹,放置每个app所需要的模板xx.html,系统自动读取。方法二:自定义路径:xxx/templates作为存放模板的位置,然后在settings.py的TEMPLATES属性的’DIRS’:"xxx/templates"指定模板存放的位置。二.python3使用django和mysql数据库时,由于兼容性问题会报错。...

2019-06-12 22:18:19 203

原创 Django:模型-数据库迁移--即数据库同步操作

1.Django操作数据库需要通过自带的接口函数,因此必须使用Django模型,创建模型代码:#ModelName即新建的模型名称django-admin startapp ModelName2.在ModelName文件夹内,打开models.py文件,在该文件中以定义新的数据库表。下面代码定义了一个名称为modelname_people的表,它有两个列Name和Age。当然models....

2019-05-18 15:55:01 2340

转载 R-数据处理和可视化包简介

所用工具包再谈谈R中所用的包,主要分类两类:数据处理和可视化。数据处理包:rvest用来做实时爬虫,每次程序一启动就开始做最新的实时爬虫。plyr和dplyr主要做数据筛选、排序、聚合计算等。stringr用来对字符串分割、转换等。data.table用来读取大量的历史数据并做一些简单的处理。reshape2用来对数据框做变形处理。可视化包:shiny和shinydashboar...

2019-05-07 19:42:57 516

转载 jieba-词性标注

ICTCLAS 汉语词性标注集  以前使用jieba分词时,并没有注意到词性标注集到底包含哪些,刚好最近学习自然语言处理,涉及到分词以及词性标注,将ICTCLAS 词性标注集记录如下:ICTCLAS 汉语词性标注集代码名称帮助记忆的诠释Ag形语素形容词性语素。形容词代码为a,语素代码g前面置以A。a形容词取英语形容词adjective的第1个字...

2019-03-19 10:49:57 1136 1

转载 词云-WordCloud参数详解

from wordcloud import WordCloudfont_path : string #字体路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf'width : int (default=400) #输出的画布宽度,默认为400像素height : int (default=200) #输出的画布高度,默认为200像素pref...

2019-03-19 10:47:52 9649

转载 分类问题的几个评价指标(Precision、Recall、F1-Score、Micro-F1、Macro-F1)

四个基本概念 对于分类A而言:TP、True Positive   真阳性:预测为正,实际也为正。如:预测为A,实际也是AFP、False Positive  假阳性:预测为正,实际为负。如:预测为A,实际为BFN、False Negative 假阴性:预测与负、实际为正。如预测为B,实际为ATN、True Negative 真阴性:预测为负、实...

2019-03-06 16:38:08 1997 1

转载 scrapy--设置user-agent和代理池

建立user-agent池:在request的headers中设置User-Agentclass RandomUserAgent(object): def __init__(self,user_agent): self.user_agent = user_agent @classmethod def from_crawler(cls,crawler):...

2019-02-27 22:18:29 6822

转载 机器学习--集成学习

集成学习这是总结最好的一篇关于集成学习的文章了。

2019-02-27 09:24:58 244

转载 机器学习--文本分析jieba

特点支持三种分词模式:精确模式:试图将句子最精确地切开,适合文本分析,默认为精确模式;全模式:所有可能的词都挑选出来,速度快,但易出现歧义。搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授权协议友情链接https://github.com/baidu/lac 百度中文词法分析(分...

2019-02-25 11:00:49 852

转载 机器学习--模型参数优化及scoring可选参数

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程优化的相关的知识内容可以参考 https://blog.csdn.net/luanpeng825485697/article/details/78765923网格搜索GridSearchCVGridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果...

2019-02-24 10:45:26 11739

转载 贝叶斯分类器-R语言实战

数据分析与挖掘 - R语言:贝叶斯分类算法(案例一) 2016-05-25 13:31 by 猎手家园, 4517 阅读, 0 评论, 收藏, 编辑 一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 名词解释:先验概率:由以往的数据分析得到的概率, 叫做先验概...

2019-02-19 11:13:09 3231 3

转载 贝叶斯分类器-理论部分

朴素贝叶斯分类器的应用 生活中很多场合需要用到分类,比如新闻分类、病人分类等等。 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。 ...

2019-02-19 11:03:50 262

原创 广义线性混合模型

1.线性模型和线性混合模型区别线性模型的表达式为:pitch~age+ε.即两部分:固定项age和误差项ε。广义线性混合模型表达式为:pitch~age+(1|subject)+ε三部分:固定项age,随机项(1|subject)和误差项ε。为什么要加上一个随机项这部分呢?在线性模型中我们将所有的不感兴趣的因素,非系统性的因素,不可预测的因素造成的误差统统由一个ε来代替。这样我们求出的...

2019-02-16 18:13:43 8728 1

转载 Lasso回归与岭回归

线性回归作为一种回归分析技术,其分析的因变量属于连续型变量,如果因变量转变为离散型变量,将转换为分类问题。回归分析属于有监督学习问题,本博客将重点回顾标准线性回归知识点,并就线性回归中可能出现的问题进行简单探讨,引出线性回归的两个变种岭回归以及Lasso回归,最后通过sklearn库模拟整个回归过程。目录结构线性回归的一般形式线性回...

2019-02-16 15:31:48 1459 1

转载 redis--基本操作

使用python来操作redis用法详解 Redis目前支持5种数据类型,分别是:String(字符串)List(列表)Hash(字典)Set(集合)Sorted Set(有序集合) 1、redis连接redis提供两个类Redis和StrictRedis用于实现Redis的命令,StrictRedis用于实现大部分...

2019-01-20 12:09:37 185

原创 python--type,object,元类,__new__关系

上篇文章中通过代码方式,重点讲解了:__new__和__init__之间的关系,前者是用来创建类实例,后者用来初始化类实例,它两配合使用,才完整生成一个类实例。object和type之间的关系,前者负责继承这块工作,后者负责类型定义这块工作。即所有的对象都起源于object,所有的对象最终都是type这个类型。本文将重点介绍元类和元类的创建。1.什么是元类元类是创建类的类。如何理解这...

2019-01-19 17:49:41 1986

原创 python--__new__与__init__区别和type与object区别

首先上代码,用到的是python3,不适合python2:class B(): def __new__(cls): print("6:B.__new__") print("7-1:",object.__new__(cls)," 7-2:",cls) return object.__new__(cls) def __in...

2019-01-19 13:55:15 539

转载 python--详细解读yield

版权声明:作者原创,转载请附上文章链接。 https://blog.csdn.net/qq_36330643/article/details/78247070 阅读别人的python源码时碰到了这个yield这个关键字,各种搜索终于搞懂了,在此做一下总结:通常的for...in...循环中,in后面是一个数组,这个数组就是一个可迭代对象,类似的还有链表,字符串,文件。它可以...

2019-01-18 21:37:54 204

转载 正则表达式--\b

引用网上一段话:\b 是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格,标点符号或者换行来分隔的,但是 \b 并不匹配这些单词分隔字符中的任何一个,它只匹配一个位置。如果需要更精确的说法,\b 匹配这样的位置:它的前一个字符和后一个字符不全是(一个是,一个不是或不存在) \w(数字,字符,...

2019-01-18 16:59:56 1576

原创 scrapy--Rule()与LinkExtractor()函数理解

这两个函数用于CrawlSpider内的rules属性中,具体的参数用法网上有很多,这里不再赘述。我想说的是差点搞死我的几个注意点。1.来源:from scrapy.contrib.spiders import Rulefrom scrapy.linkextractors import LinkExtractor2.注意点:1.rules内规定了对响应中url的爬取规则,爬取得到的url...

2019-01-17 01:16:00 5518 1

原创 python的decode()与encode()详解

1.decode()bytes.decode(encoding=“utf-8”, errors=“strict”)1.这个函数是bytes类型数据调用的,字符串str类型是不能够调用的。(好多文章说字符串也可以调用该函数,我是真搞不懂。)2.该函数返回字符串。换句话说是bytes类型转化成str类型的函数。3.encoding规定解码方式。bytes数据是由什么编码方式编码的,该函数enc...

2019-01-14 10:20:04 15850 11

原创 requests--request请求乱码问题

想着本来是要爬取网站https://www.kanunu8.com上所有小说的,但是返回的网页中中文都是乱码。此时处理思路为:1.查看原网页是什么编码方法一:右键“查看网页源代码”,一般在源代码头内会有属性charset="gb2312"这样的属性,这个属性规定了网页编码方式;方法二:查看请求头/响应头,里面可能指定了规定的编码方式。2.用网页指定的编码方式解码response=requ...

2019-01-13 23:42:22 4067

原创 chrome-调试按钮详解

在爬虫开发过程中,form表单中一些参数是通过加密后实现的,因此需要快速找到加密过程,这就需要对js进行调试了。一.如何快速定位查找数据1.进入console面板,快捷键:ctrl+shift+F键进入search搜索框,输入搜素内容,就会在所有下载的资源内搜素目标字符串。2.双击搜索项目item,转到Source面板,就可以看到目标数据的目标文件了。对于js文件为了节约流量,采用无空格方式...

2019-01-13 12:16:17 5370

原创 chrome--浏览器调试工具详解

chrome浏览器开发调试工具打开方式:F12键一,常用面板介绍1.定位小箭头按钮(左边第一个):选中Elements面板,并启动该按钮,可以在页面中定位相应元素的源代码位置,或者选择源代码位置可定位到页面相应的元素。2.手机-PC视图切换按钮(左边第二个):启动该按钮,网页可以在pc网址网页和手机网址网页之间进行转换。由于在爬虫过程中,爬取手机网址网页相对来说更容易,所以可以通过该按...

2019-01-12 23:19:45 12937

原创 requests-爬取美女图片源码

爬取思路:1.分析ajax请求,找到存放图片地址的json2.解析json数据,提取中图片url3.再次请求图片url,通过open()和write()方法将图片保存至内地。废话少说,直接上代码:前提条件是在当前.py文件同级目录下新建一个beauty360的文件夹用来保存图片import requestsimport timeimport rebase_url="https:...

2019-01-11 10:05:18 764

原创 scrapy-from_crawler实例化Spider

spider的初始化是在Crawler类内完成的。而且是调用Spider内的类方法from_crawler()初始化spider的,下面分析这个过程的流程。Spider源码如下:class Spider(object_ref): """Base class for scrapy spiders. All spiders must inherit from this class....

2019-01-10 23:13:10 2195

原创 git-重命名文件,提交补救,修改

1.重命名文件#重命名文件git mv oldname newname#查看历史提交版本:-p表示显示版本差异,-n表示查看前n个版本git log [-p] [-n]2.对提交的补救当我们提交(commit)后,还未push前,发现有些文件忘了暂存了,这些文件自然也不可能被上传。此时需要补救措施:即将这些文件add上,重新commit一下。假设文件forget.text是被遗忘的...

2018-12-16 21:22:59 8000

原创 git-删除文件

git删除文件主要有两种情况:一是删除本地仓库文件,同时删除暂存。这样提交后本地仓库和远程仓库都不再有这个文件了。二是只删除远程仓库该文件,本地仓库仍保留该文件。1.同时删除本地和远程仓库文件#该函数会删除本地文件并将该文件从暂存区也删掉git rm aa.txt#提交此次操作git commit -m "remove aa.txt"#上传,然后会发现远程仓库也删掉了该文件git...

2018-12-16 18:13:07 175

原创 git-文件两种状态与上传前的准备工作

1.从远程仓库拷贝文件至本地仓库git是一个版本控制系统,能够任意切换提交的任意版本。它的优势在于可以通过git clone url命令将远程项目所有数据拷贝到本地(包括历史版本),这样即使远程数据崩溃,也可以通过本地push后完全恢复。#从github仓库grit拷贝所有历史数据,在本地会生成一个同样名称的文件$ git clone git://github.com/moisiet/pro...

2018-12-16 16:37:07 374

原创 git-将本地代码上传github步骤(附代码)

git下载地址:https://git-scm.com/downloads1.git定位到当前工作目录:git命令的当前工作目录一般要定位到仓库位置。这样操作本地文件就不用添加绝对目录或相对目录,节省编程时间。定位方式有两种:方法一:打开仓库文件夹,右键选择Git Bash Here菜单项,则当前bash工作空间就在仓库文件夹内;方法二:任意处打开Git Bash控制台,然后命令:#...

2018-12-14 16:48:00 727 1

原创 R-数据分割(附代码)

在对数据进行建模的过程中,为了评估模型预测准确性。需要将原始数据划分成训练集和测试集两部分(若数据量足够大,也可以划分为训练集,验证集和测试集三部分)。其中训练集用于训练模型(学习器),测试集用于评估模型优劣性。本文总结了几种数据分割的方法,供大家交流学习。测试集与训练集的比例没有统一规定,一般视样本量的多少训练集与测试集划分比例为3:1-4:1。这里我按数据类型是否包含因子类型分成两种类型讨...

2018-12-14 11:44:16 14469 2

原创 R-数据清洗(附代码,图片)

数据清洗是将原始的数据进行整理和规范,以达到数据分析人员使用要求的数据。这个过程很重要,也很花费时间。现将当前学到的方式总结,欢迎大家互相交流。1.缺失值处理在R中,当原始数据中存在缺失值时,该缺失值用NA表示,如下图有一个缺失值。birth=read.csv("chds_births.csv",header = TRUE)head(birth)若某一列数据缺失过多(&am

2018-12-13 10:11:03 4427

原创 R-数据加载(csv,excel,txt,rdata,spss,stata)

原始数据可以从本地文件,本地数据库和网络上获取。本地文件主要包括:txt文件,csv文件,excel文件,RData文件,xml文件。本地数据库类型包括SQL Server,Access,MySQL,SQLite等常见数据库。网络数据则包括直接存放在网络上的文件数据(csv,excel,txt等)和需要进行爬取的网页数据。由于大部分的数据都是本地文件和网上的文件,因此这里着重讲解一下本地文件和网...

2018-12-12 16:27:07 7152

原创 R建模8大步骤

R数据分析-1.整体概述1.数据加载2.数据清洗3.数据探索4.数据建模5.模型诊断6.数据预测7.预测评估8.模型比较当我们拿到一堆数据要进行建模预测的时候,往往不知道该怎么处理。尤其是对于学数理统计的同学,往往老师会布置一个大作业,自找数据,自行分析,自行预测。很多时候会一头雾水,不知从何做起。本人也是从这个过程走过,因此这里跟大家分享一下我个人进行数据清洗,分析,建模和预测的经验。本篇文章...

2018-12-12 15:03:44 4879 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除