自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

氤氲紫镜的空间

爬取数据;存储数据;理解数据;

  • 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

转载 什么是IO(3)

最重要的三个指标IOPSIOPS,即每秒钟处理的IO请求数量。IOPS是随机访问类型业务(OLTP类)很重要的一个参考指标。一块物理硬盘能提供多少IOPS?从磁盘上进行数据读取时,比较重要的几个时间是:寻址时间(找到数据块的起始位置),旋转时间(等待磁盘旋转到数据块的起始位置),传输时间(读取数据的时间和返回的时间)。其中寻址时间是固定的(磁头定位到数据的存储的扇区...

2019-07-09 16:10:40 542

转载 什么是IO(2)

这部分的东西在网络编程经常能看到,不过在所有IO处理中都是类似的。IO请求的两个阶段:等待资源阶段:IO请求一般需要请求特殊的资源(如磁盘、RAM、文件),当资源被上一个使用者使用没有被释放时,IO请求就会被阻塞,直到能够使用这个资源。使用资源阶段:真正进行数据接收和发生。举例说就是排队和服务。在等待资源阶段,IO分为阻塞IO和非阻塞...

2019-07-09 16:09:50 1330

转载 什么是IO(1)

O性能对于一个系统的影响是至关重要的。一个系统经过多项优化以后,瓶颈往往落在数据库;而数据库经过多种优化以后,瓶颈最终会落到IO。而IO性能的发展,明显落后于CPU的发展。Memchached也好,NoSql也好,这些流行技术的背后都在直接或者间接地回避IO瓶颈,从而提高系统性能。IO系统的分层:三层结构上图层次比较多,但总的就是三部分。磁盘(存储)、VM(卷管理)和...

2019-07-09 16:08:49 724

原创 正则表达式的思考

正则的特点正则表达式非常强大,但是也有做不到的事情:正则表达式的只能按照顺序就是从前往后找但是你如果已经找了前面一段,就绝不可能回头重新找。举例说明:mystr="abcdeffg"kk=re.findall('abc|cde',mystr)print(kk)#结果是['abc']# 你可能觉得cde存在啊?怎么可能找不出来,那是因为程序找了abc,就不可能回头从c找起!...

2019-07-05 12:19:06 251

原创 知识点:主键是否是聚集索引?

这个问题很刁钻!答案是错的。的确在mysql数据库innodb引擎里面,主键的确就是聚集索引。但是myisam引擎里面主键也不是聚集索引。另外在sql server中还可以显示的指定聚集索引。CREATE TABLE student( stud_id INT IDENTITY(1,1) NOT NULL, stud_name NVARCHAR(20) NOT...

2019-07-05 10:42:29 1997

转载 知识点:堆组织表和索引组织表

1.堆组织表(HOT)和索引组织表(IOT)有什么区别? myisam使用的堆组织表(Heap Organize Table, HOT),没有聚集索引的概念,使用B-tree索引的存储格式,显示都是随机顺序。 innodb表是索引组织表(Index Organized Table, IOT),它的索引则是采用 clustered index 方式,因此主键会按照顺序存储,每次有记...

2019-03-12 18:16:58 1561 1

转载 mysql索引详解(2)--如何从磁盘中读取索引文件

Mysql 索引实现:聚簇索引: 索引 和 数据文件为同一个文件。非聚簇索引: 索引 和 数据文件分开的索引。MyISAM & InnoDB 都使用B+Tree索引结构。但是底层索引存储不同,MyISAM 采用非聚簇索引,而InnoDB采用聚簇索引。MyISAM索引原理:采用非聚簇索引-MyISAM myi索引文件和myd数据文件分离,索引文件仅保存数据记录的指针地址。叶子节...

2019-03-11 16:56:58 4706 1

原创 mysql索引详解(1)--B/B+索引,聚集和非聚集索引

一、索引介绍1.什么是索引?一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。2.为什么要有索引呢?索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。可以理解成为排好序的快速查找数...

2019-03-11 16:45:52 3905 1

原创 最易懂的正则表达式教程

我初学正则式时看到一大堆杂乱无章的乱码就头大,但是其实你了解了其中的意义你会觉得正则式很神奇很好用。那么现在我以另外一种比较啰嗦的方式来讲解正则式:基本知识 正则最大的用途用来从杂乱的信息中抽取自己需要的信息或者进行字符串的验证。而正则式最大的好处是它能够使用某些约定好的正则字符串(这个我们一般称为正则表达式)来匹配有特殊意义的实际字符串。 正则字符:$,(...

2019-02-20 17:44:43 504

转载 为什么在Python里推荐使用多进程而不是多线程?

最近在看Python的多线程,经常我们会听到老手说:“Python下多线程是鸡肋,推荐使用多进程!”,但是为什么这么说呢? 要知其然,更要知其所以然。所以有了下面的深入研究: 首先强调背景: 1、GIL是什么?GIL的全称是Global Interpreter Lock(全局解释器锁),来源是python设计之初...

2019-02-20 08:56:48 134

原创 python的多进程和多线程

python的多进程和多线程线程和进程​ 1.进程层次要高于线程。一个进程里面包含了一个或者多个线程。进程是计算机一个抽象任务的统称也是表示为此任务分配的内存空间(PID);线程是计算机调用进程资源的最小单位,每个进程至少有一个线程。其实我们可以这么理解:进程是资源的调配,而线程是CPU的调度。​ 2.进程单独有一块资源空间,不同的进程之间只能通过管道通信;统一进程中的线程之间可以直接通信和...

2019-01-24 18:01:53 317

原创 爬虫基础(http请求和html结构)

要使用selenium还是使用其他方式抓取网页的内容,都必须对网页的架构比较熟悉。我们来看看如何定位网页的内容。首先我们先尝试解析URL,看看下面这个URL地址:http://www.x2y2.com:80/fisker/post/0703/window.location.html?ver=1.0&id=6#imhereurl:协议 + 域名/IP + 端口 + 路由 + 参数...

2018-11-01 17:23:08 4253

原创 利用python自动发送带附件的邮件

利用python自动发送邮件说道邮件,必须要了解相关的协议。简单地说,SMTP管‘发’,POP3/IMAP管‘收’。 POP3协议允许电子邮件客户端下载服务器上的邮件,但是在客户端的操作(如移动邮件、标记已读等),不会反馈到服务器上,比如通过客户端收取了邮箱中的3封邮件并移动到其他文件夹,邮箱服务器上的这些邮件是没有同时被移动的 。 而IMAP提供webmail 与电...

2018-10-31 23:23:23 3332

转载 三层架构的理解

我对于三层架构的理解还不透彻,装载一篇很好的文章并将我最后的体会写在最后。概述三层架构(3-tierarchitecture) 通常意义上的三层架构就是将整个业务应用划分为:表现层(UI)、业务逻辑层(BLL)、数据访问层(DAL)。区分层次的目的即为了“高内聚,低耦合”的思想。在软件体系架构设计中,分层式结构是最常见,也是最重要的一种结构。微软推荐的分层式结构一般分为三层,从下至上...

2018-10-31 18:12:50 305

转载 使用EXPLAIN优化Mysql性能

在工作中,我们用于捕捉性能问题最常用的就是打开慢查询,定位执行效率差的SQL,那么当我们定位到一个SQL以后还不算完事,我们还需要知道该SQL的执行计划,比如是全表扫描,还是索引扫描,这些都需要通过EXPLAIN去完成。EXPLAIN命令是查看优化器如何决定执行查询的主要方法。可以帮助我们深入了解MySQL的基于开销的优化器,还可以获得很多可能被优化器考虑到的访问策略的细节,以及当运行...

2018-10-31 17:17:28 138

转载 十分钟了解MySQL information_schema

       information_schema数据库是MySQL系统自带的数据库,它提供了数据库元数据的访问方式。感觉information_schema就像是MySQL实例的一个百科全书,记录了数据库当中大部分我们需要了结的信息,比如字符集,权限相关,数据库实体对象信息,外检约束,分区,压缩表,表信息,索引信息,参数,优化,锁和事物等等。通过information_schema我们可以窥透整...

2018-10-26 23:46:35 382

原创 mysql的会话变量,全局变量,状态信息

mysql数据库系统自定义的参数和系统的运行参数都非常重要,他们决定了数据库运行的方式。例如是否自动提交,事务隔离级别这些变量。我们可以通过修改系统的会话变量和全局变量来影响数据库运行(其中有些变量修改需要修改重启才能生效)。。。。。。变量设置是过程,我们最终目的是要看状态(见下图),查看数据库状态信息是否符合要求。mysql变量分为会话级别和全局级别:用户变量和会话级别的...

2018-10-26 16:50:57 4640

转载 如何快速关闭mysql/innodb?

如何快速关闭MySQL/InnoDB? 如果用的引擎是InnoDB,每次敲下mysqladmin -uroot -p shutdown关闭数据库的时候,总是很难预测这个命令会执行多久,实际经验表明,短则五秒,长则三十分钟一小时都有可能。也分享一下我的经验吧。 1. 为什么InnoDB关闭会慢?    事实上,并不是每次关闭InnoDB都很慢的。Why?InnoDB较之MyISAM,一个重要特性是I...

2018-04-28 11:42:38 757

原创 mysql概念(实例,会话,事务,表空间)

概念:实例(进程和线程)1、MySQL是单进程多线程(而Oracle等是多进程),也就是说MySQL实例在系统上表现就是一个服务进程,即进程(通过多种方法可以创建多实例,再安装一个端口号不同的mysql,或者通过workbench来新建一个端口号不同的 服务器实例等),该架构类似于SQL Server和Windows版本的Oracle;2、MySQL实例是线程和内存组成,实例才是真正用于操作数据库...

2018-04-25 23:08:49 6972

转载 mysql的锁机制

文章转载自 https://blog.csdn.net/mysteryhaohao/article/details/51669741。写的太好了!    锁,在现实生活中是为我们想要隐藏于外界所使用的一种工具。在计算机中,是协调多个进程或县城并发访问某一资...

2018-04-25 12:58:48 242

转载 python异常处理

简述 异常处理是一门艺术,更是优秀程序员必修之路。在某些情况下(例如:试图读取一个不存在的文件),程序可能会发生运行时错误。一旦程序崩溃,用户的心情可想而知。。。当然,作为程序员,我们希望程序足够健壮,即使发生异常,也能够很好地恢复过来。所以,在遇到这些可预见的问题时,通常需要添加一些安全的防护性措施。简述tryexcept 子句捕获特定异常else 子句finally 子句使用异常对象抛出异常...

2018-04-24 21:55:00 409

原创 复杂查询的sql和pandas实现(一):修改表格结构和数据

数据库一般分为三层的结构: 1、表现层(UI):通俗讲就是展现给用户的界面,即用户在使用一个系统的时候他的所见所得。2、业务逻辑层(BLL):针对具体问题的操作,也可以说是对数据层的操作,对数据业务逻辑处理。3、数据访问层(DAL):该层所做事务直接操作数据库,针对数据的增添、删除、修改、查找等。 我们在表现层里面用户输入需要查询的内容;然后由业务逻辑层决定用哪种方式...

2018-04-24 11:57:57 1951

原创 介绍一个方便操作excel的模块

想到和excel文件做交互,第一个想到的就是pandas。python的pandas模块可以很方便的读取excel文件。但是在保存excel的时候有很多限制:例如把一个表格拆分成5个保存到其中2个到一个已经有sheet工作表而且有数据的excel文件中的不同sheet中。使用pandas做不到,它只能操作xlsx文件这个级别而不能细化到sheet级别,而且它会抹去原有exce...

2018-04-20 23:46:55 1297

原创 python关于类的理解

    Python中所有的数据都是对象,它提供了许多高级的内建数据类型,功能强大,使用方便,是Python的优点之一。那么什么时候使用自定义类呢?比如设计一个Person类,如果不使用自定义类,可以这样做: person=['mike', 23, 'male']  #0-姓名, 1-年纪, 2-性别 print(person[0], person[1], person[2])       可以看...

2018-04-20 17:44:48 6738 1

转载 mysql体系架构

mysql体系结构:    由:连接池组件、管理服务和工具组件、sql接口组件、查询分析器组件、优化器组件、                缓冲组件、插件式存储引擎、物理文件组成。    mysql是独有的插件式体系结构,各个存储引擎有自己的特点。                 mysql各个存储引擎概述:    innodb存储引擎:[/color][/b] 面向oltp(online tra...

2018-04-20 16:58:04 2261

原创 mysql-表连接详解

应用数据库首先应该创建表格:1.创建表格注意事项1.在实际的oltp系统中,为了保障性能,一般不用外键约束来验证数据有效性而是在应用层用代码实现外键约束;2.在oltp数据库中,表格和字段应该尽量小,必要时将较大的字段进行垂直分割;3.根据实际需求,适当的使用冗余数据以避免大型的表连接;4.在oltp库中把冷热数据进行分离。5.当表格数据量太大时,使用水平分割将表格分...

2018-04-17 16:18:02 2388

原创 由浅入深了解python里面的函数,闭包,装饰器

1.一般函数的定义,查看和调用 在python中,函数也是一种对象。同样也有地址和空间,同时也具有很多的属性和方法。每种编程语言都存在变量生存周期和空间:初始化对象-----分配空间-----定义变量----回收空间。当我们在python中定义一个函数def demo(): 的时候,内存当中会开辟一些空间,存下这个函数的代码、内部的局部变量等等。这个demo只不...

2018-03-23 18:39:46 321

原创 python操作大文件

环境python3.6+win10python已经有很多现成的模块(如pandas)打开文件,我们能很轻易的根据编码打开文件得到我们需要的内容。但是有几个坑需要知道:1.不知道文件的编码如何打开文件;2.文件太大而只需要打开一部分如何快速打开文件;打开文件是大家都知道的。而一般推荐使用codecs.open用指定的编码打开文件。这样可以编码文件在打开写入的时...

2018-03-16 11:53:56 338

转载 mysql字符编码规则

一、字符集(Character set)  是多个字符(英文字符,汉字字符,或者其他国家语言字符)的集合,字符集种类较多,每个字符集包含的字符个数不同。特点:①字符编码方式是用一个或多个字节表示字符集中的一个字符  ②每种字符集都有自己特有的编码方式,因此同一个字符,在不同字符集的编码方式下,会产生不同的二进制常见字符集:ASCII字符集:基于罗马字母表的一套字符集,它采用1...

2018-02-05 00:20:01 968

原创 关于编码问题的理解(python)

1 字符编码简介1.1 ASCIIASCII:AmericanStandard Code for Information Interchange。计算机是美国人发明的,因此最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母a的编码是97。ASCII码使用指定的7位或8位二进制数组合来...

2018-02-04 13:48:17 894 1

转载 python数据类型

本文转载自https://www.jianshu.com/p/00cda1568157 1 数据类型在Python中,能够直接处理的数据类型有以下几种:整数、浮点数、字符串、布尔值、列表、元组、字典、集合。1.1 整数Python可以处理任意大小的整数,例如:1,100,-80,0,等等。计算机由于使用二进制,所以有时候用十六进制表示整数比较方便,十六进制用0x前缀和0...

2018-02-01 15:51:19 3535 5

原创 用pandas清洗数据具体步骤(基础篇二)

我们接着上一篇来做。我们可以先读取excel数据。然后进行以下操作:选取数据和更改行索引和列索引tt=pd.read_excel('d://new.xlsx')tt.columns=["m"+str(x).replace('/','') for x in tt.columns ]tt.index=tt.ix[:,0].values # 将第一列作为索引。不需要进行重新索引。但是不

2018-01-31 15:07:35 2291

原创 用pandas清洗数据具体步骤(基础篇一)

引言     数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。但在实际的工作中一个分析项目70%左右的时间花在清洗数据上面。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。本篇文章将用一个简单的范例来介绍使用pandas进行数据清洗的流程。读取数据    

2018-01-15 18:30:38 24278 5

原创 使用pandas清洗数据(中文字符串的正则使用)

对于之前的从链家网爬取下来的福田区二手房的数据,只是为了提取信息。但是如果要进行数据分析必须对数据进行清理和转换。python的pandas库可以说是中等规模数据处理最好用的工具。下面我就来演示如何对以下数据进行处理:环境:win10 propython3.6pandas,re26105100952283 长城一花园南北通透精装三房拓出飘窗好楼层

2018-01-08 10:26:24 23234 1

原创 爬虫实战:从链家网爬取数据

学习python已经很久了,从各个大牛的技术博客中获益良多。现在也想把自己的小小收获公开一下,以方便大家学习python,让python更加普及的应用。下面我准备写一个爬虫实例:从链家网爬取福田区二手房的数据。环境:win10专业版python3.6(需要使用模块BeatifulSoup;pandas;Selector;time;re)Office2013背景知识:Xpat

2018-01-07 09:17:32 30223 8

转载 忍不住笑的笑话(last:20180419)

1.幼儿园的表弟给了我一道老师布置的题目给我看( )( ) ( )2 4 6 7 8让我填空 我算了半个多小时都不对最后,答案是这样的(门前大桥下)(游过一群鸭) (快来快来数一数)2 4 6 7 8我到现在都不想说话    2.一哥们早晨上班,没吃早饭就买个烤地瓜,顺手揣屁股兜里。公交车来了,这哥们赶紧上车找个空位坐下,这是只听一声轻轻的闷响,一大摊黄...

2018-01-04 16:48:59 979

转载 真实的感情---可是你没有

《可是你没有》的作者是一位普通的美国妇女,她的丈夫在女儿4岁时应征入伍去了越南战场,从此她便和女儿相依为命。后来,她的丈夫、孩子的爸爸在越南战争中不幸阵亡。她终身守寡,直至年老病逝。她的女儿在整理遗物时发现了母亲当年写给父亲的这首诗,题目就是《但是你没有》。《可是你没有》byAnonymous记得那天,我借用你的新车,我撞凹了它我以为你一定会杀了我的可是你没有记得那天,我在...

2018-01-04 16:02:14 485

数据化管理:洞悉零售及电子商务运营

本书采用的工具是excel,而内容则着重于讲解分析思路!很好的数据分析书籍!

2017-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除