自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据科学家之路 chapter2 --- pandas(part2)

最近刚考完研,终于有学习专业知识的时间了,决定先把pandas的技能捡起来,这里就记录一些我觉得很有用的方法。1.unique:查看某列不重复的数量2.str(对于字符串的处理):为字符串类型的变量加上str就带来了很多处理字符串的方法,这里的startswith就是找到姓李的人3.resample:这个方法是用来完成日期的聚合工作,包括按周(W),日期,月(M),年(A),季...

2018-12-29 10:28:12 346

原创 数据科学家之路 chapter2 --- pandas(part1)

这个部分将会介绍python中处理数据最重要的工具之一---------pandas,主要涉及是其中一些操作。因为自己之前没有了解到这些功能,导致花了很多时间去自己实现,这里做一个总结,为了提高之后的效率。一.Series1.先创建一个Series:  2.通过索引方式去选取值:3.再利用下numpy就能更方便的处理数据:4.Series的一个重要作用是:在算数...

2017-10-21 13:48:01 909

原创 数据科学家之路 chapter1 --- 拿到数据后该干什么

我的数据科学家之路。chapter1 拿到数据之后该干什么一.  前言    2018年,经过了很多种数据分析的学习路线之后,我好像还是没有找到门道。经过深刻的反思,我发现过了这么久,自己连一个完整的数据分析流程的都不能很好的阐述,可以说是很失败了。在经过了近10个月的考研后,我深知“套路”对于一门学科的重要性,它让我们有了所谓的基础,从而可以做更多的探索。那么,痛定思痛,我将在这个章...

2017-10-20 15:26:50 1000

原创 《算法笔记》学习笔记 part2

一. 前言 我开始写这篇笔记时,2019年研究生考试的初试成绩已经出来了,我的分数还算理想,但是由于同届选手很强,目前排名并不理想,看来在复试方面还得更加努力,争取逆袭了。 在part1中我说过这份笔记将主要分两个部分。本篇笔记即为part2。内容为我刷PAT的题目得出的经验以及一些思考。 希望能顺利的通过复试(如果能进复试的话...)二. 题目 + 解答 + ...

2019-02-17 15:25:22 633 1

原创 《算法笔记》学习笔记 part1

一. 前言 我开始写这篇笔记时,2019年研究生考试已经过去一周了,虽然还不知道初试结果,但还是要开始准备复试了。复试中机试又占了很大的比例,故这里开始复习算法知识了,主要用书为《算法笔记》。 这份笔记将主要分两个部分。本篇笔记为part1。主要包括两个内容,一是我觉得有必要记录的知识点;另外就是一些专题,内容是一些归纳和自己的思考。 希望能顺利的通过复试(如果过了...

2018-12-31 16:53:05 6773 1

原创 Python之路 困扰已久的编码问题

近日帮一个老师做了个针对文本的统计分析的项目,我主要负责把文本数据爬取下来并进行基本处理。其实在这个项目之前,我在学习文本挖掘的时候就意识到了编码问题的麻烦......而之前一直没有重视这个问题,这次趁着这个机会,来总结一下我遇到的编码问题。这里大家要注意,Python3据说在编码上表现好多了,但是毕竟用了这么久Python2,而且为了了解下编码知识,这里还是要总结的。1.  # -*- co...

2018-12-29 08:46:47 396 1

原创 算法复习笔记

把自己最近学习算法的笔记整理出来,供以后复习。 1.   六大算法包含什么问题 分治 动态规划 贪心 回溯 分支限界 随机化 二分搜索技术 矩阵连乘 活动安排问题 图的m着色问题 ...

2018-05-23 13:35:20 6493

原创 数据科学家之路 chapter4 --- 可视化

这篇博客专注于机器学习中的可视化,其重要性这里不赘述了,直接开始吧!1.直方图直接对一个DataFrame执行hist(),我们就能得到这个DataFrame中所有数值型特征的直方图了。注意上图不完整,还有几张图由于篇幅限制这里不截图了。 to be continued......

2017-12-14 17:06:30 345

转载 华为:Access、Hybrid和Trunk三种模式的理解

1.关于tag和untag:    tag, untag以及交换机的各种端口模式我一直没怎么明白,这里整理一下。    untag就是普通的Ethernet报文,普通PC机的网卡是可以识别这样的报文进行通讯;    tag报文结构的变化是在源mac地址和目的mac地址后,加上了4bytes的vlan信息,也就是vlan tag头,一般来说这样的报文普通PC机的网卡是不能识别的;2....

2017-12-13 09:36:50 5011

原创 机器学习基本概念 过拟合和欠拟合

这篇博客主要谈谈关于过拟合和欠拟合,这是机器学习中很重要的问题。1.什么是过拟合???由于我自己比较清楚这个概念了,这里就放一张图。2.学习曲线(sklearn实现) learning curve参数说明:train_sizes, train_scores, test_scores = learning_curve(输入:    (estimator : 你用的分类...

2017-12-12 15:53:03 628

转载 机器学习基本概念 特征工程

近期做了一道题目,现在到了瓶颈,怎么换模型准确率都上不去了。于是决定回过头来再研究下特征,才发现自己在特征工程这方面还欠缺很多,所以这篇博客便做个补充。1.特征标准化( feature nomalization)a.定义与解释:特征数据的标准化, 也可以说正常化, 归一化, 正规化等等。为什么我们需要标准化特征呢??简单来说,这是为了让机器学习能够消化我们的数据。 举个例子,你现在手上...

2017-12-12 14:19:10 372

转载 VLAN原理详解

1.为什么需要VLAN1.1 什么是VLAN?VLAN(Virtual LAN),翻译成中文是“虚拟局域网”。LAN可以是由少数几台家用计算机构成的网络,也可以是数以百计的计算机构成的企业网络。VLAN所指的LAN特指使用路由器分割的网络——也就是广播域。在此让我们先复习一下广播域的概念。广播域,指的是广播帧(目标MAC地址全部为1)所能传递到的范围,亦即能够直接通信的范围。严格地说...

2017-12-05 21:25:16 244

原创 数据科学家之路 chapter3 --- 统计学知识(《赤裸裸的统计学》学习笔记)

近日在做机器学习题目的时候发现统计对于机器学习的重要性,加上老师说以后可以从计算机转统计。于是这里决定新开一个分类,专门记录关于统计的知识。希望一来能够辅助机器学习中对于数据的认识,二来也可以为读研做准备。本系列博客参照于《赤裸裸的统计学》一.描述统计学1.平均数和中位数:在统计中,你其实很难用一个特征去总结某件事情。比如,如何衡量这几十年美国中产阶级的经济状况?一个答案是观察这部分人群的...

2017-12-05 11:30:35 1195

原创 数据科学家之路 实战2---Kaggle房价预测

第一个O2O我其实主要讲了思路,大部分的代码并没有去实现。究其原因还是因为能力不够......感觉天池的题目前对我还是有点难了,找不到下手点。所以还是先回归kaggle,希望仔细研究几个题目后再转战天池。房价预测是kaggle的Getting Started的三个题目之一,是入门必备,这篇文章就围绕这个题目开始记录,其中包括了详细的代码。1.题目以及数据:官方说明简单来说,就是给你...

2017-12-03 15:33:46 7731 2

原创 数据科学家之路 实战1 --- O2O优惠券使用预测(part2)

 本篇文章内容接着part1的模型部分4.上模型a.回归树由于GBDT中用到的树是回归树,而不是我们一般用到的分类树,所以这里举个例子复习一下:我们利用x1、x2这两个特征可以很容易地把数据分为四个区域,其中每个区域各有一个中心点(5,5)、(5,10)、(10,10)、(10,5),在对新数据做预测时,该数据落在哪个区域,就把该区域的中心点作为它的预测值。那么如何判断新数...

2017-12-02 12:27:32 2315 4

原创 Python之路 一些小操作

这篇博客主要记录一些python中的小操作,有些可以简化代码,有些可以耗少点内存,总之可以提高你的效率,小白可借鉴,大神请绕行...1.找两个数据中相同元素的个数以前思路:先转成两个列表,然后for循环其中一个,看每个元素是否在另一个列表中出现。然而其实我们可以这样: a = [1,2,3]b = [3,4,5]print set(a) & set(b)利用集合...

2017-11-24 11:45:11 365

原创 数据科学家之路 实战1 --- O2O优惠券使用预测(part1)

在前几天终于看完了Andrew的Machine Learning课程, 但是实际上自己并没有完成那门课的各种编程作业,因为我觉得那里涉及较多的算法细节,而对于我现在这个阶段,可能更重要的是更加懂得数据以及模型,所以我规划的路线是学完概念后进行各种比赛的训练。那么这里,就是第一个我看的比赛,来自阿里云天池新人赛的一道题目,即“O2O优惠券使用预测”,题目很早之前已经结束了,这里我会以看懂大神代码...

2017-11-23 11:48:21 6904 4

原创 机器学习基本概念 交叉验证

在机器学习里,通常来说我们不能将全部数据用于训练模型,否则我们将没有数据集对该模型进行测试,从而评估我们的模型的准确率。而如果我们随机的去选择一个划分点,可能并不能发挥这个模型最好的效果,因为最终模型与参数将极大程度依赖于你对训练集和测试集的划分方法。为了解决这一问题,我们可以使用交叉验证(Cross-Validation)的方法。 1.交叉验证方法一:LOOCVLOOCV方法只用一个...

2017-10-20 17:03:19 1173

原创 Django--4--views.py详解

1.views.py的作用:业务数据的请求和处理2.request & response先来看看之前这张图,urls.py在上一节我们已经说过了。而MTV模式中的V模块还有另外两个重要的东西,即 request 和response而这两个对象其实是http请求中重要的两个对象,而在python中http请求的对象是HttpRequest,http响应的对象是HttpResponse

2017-10-09 15:45:09 2012 2

原创 Django--3--urls.py详解

1.urls.py是url分发器,路由配置文件。在这里面我们会构建起网站的目录,简单来说我们要做的事就是告诉Django,对于某段url该调用哪段代码。2.在urls.py里我们有多种配置url的方式:第一种(pattern,过时的方法)from django.conf.urls import patternsurlpatterns = patterns('', (r'h

2017-10-05 19:03:17 6446 2

转载 Django--2--MTV开发模式

1.从MVC模式说起:模型-视图-控制器(MVC模式)是一种非常经典的软件架构模式,在UI框架和UI设计思路中扮演着非常重要的角色。MVC模式把用户界面交互分拆到不同的三种角色中,使应用程序被分成三个核心部件:Model(模型)、View(视图)、Control(控制器)。它们各自处理自己的任务:(1)模型:模型持有所有的数据、状态和程序逻辑。模型独立于视图和控制器。(2)视图:用

2017-10-03 20:00:02 720

原创 Django--1--基本操作&一个实例

最近学了很多关于数据,marchinelearning,NLP相关的东西。但是同时意识到自己在Web开发这个方面一直是弱项,而Web是很好的也可以说是唯一的展示我的项目的方式。所以这里想利用Django的学习补充自己。1.一些基本命令django-admin.py startproject hello_django    #创建项目django-admin.py start

2017-09-23 20:01:41 325

原创 第三次爬虫实战--模拟登录Freelancer

这个爬虫我在两个月前就开始做了,后来因为一些技术难题没有解决以及各种期末考试,所以一直搁置了下来。现在终于解决了技术上最难的模拟登录问题,这篇文章中我便会较详细的演示我解决这个问题的方法以及一些心路历程......以下我就完整的展示一遍我解决这个问题的方法:1.当我们需要去模拟登录一个网站的时候,首先要做的就是找到那个网站的登录页面(有些网站的注册登录页面不是像下面这张图一样一个单独的页面

2017-07-08 09:49:46 1004

原创 Python之路---一些小练习

终于又迎来了一个暑假,这个暑假的任务很重。其中一项就是将自己的python技进一步的提升,所以有了这篇文章。以此来记录我的收获这篇文章是根据这个 python练习册上 的题目进行的。1.(题目2)首先代码如下:# -*- coding:utf-8 -*-import stringimport randomfield = string.letters+string.digi

2017-06-30 15:24:32 614

原创 第二次爬虫实战--知乎

对于知乎的爬取已经进行了一段时间了,这也是真正意义上的爬虫实战,在这段时间学到了很多。在这片文章中想进行较详细的总结。思路:对于社交网络的爬取,我们一般利用用户的关注人和粉丝人去进行遍历,而遍历到下一层的用户时再去遍历这个用户的关注和粉丝列表,这样利用递归我们就能够爬取到大部分用户的信息。在我的代码中,我的主要思路是先把所有用户的ID放入一个列表,然后遍历这个列表再分别去收集每个用户的信息。那

2017-04-27 16:03:36 1250

原创 第一次爬虫实战--爬取糗事百科段子

第一波:先尝试构造最基本的页面抓取方式# -*- coding:utf-8 -*-                               #让中文能运行import urllibimport urllib2page = 1                                                 #设置页数参数url = 'http://ww

2017-03-04 08:28:12 533

原创 XSS学习笔记(入门篇)

最近的学习速度挺快的,对于寒假的计划是对于各种知识点都了解大概并且基本懂得原理,在开学之后对相关书籍深入研究!这里我就先总结下几个XSS应用的例子吧。一.利用< >标记注射html / javascript如果可以随心所欲引入< >标记,那么就可以通过script输入有javasript编写的恶意脚本代码。eg:<script>alert("你...

2017-01-16 15:09:31 943

原创 PHP学习笔记part2

----------------------------------------PHP其实真的没什么难度,就是我搭网的时候还是有很多问题.......不过还是先熟悉基本的东西吧,毕竟我是搞安全方面的-----------------------------一.接着上面的   10)php函数PHP 用户定义函数:除了内建的 PHP 函数,我们可以创建我们自己的函数,函数是可以在程序中重复...

2017-01-14 22:10:23 293

原创 PHP学习笔记part1

今天终于开始了PHP的学习,这段时间的学习主线是Javascript——>>PHP——>>XSS希望寒假之内能够比较多的了解这些内容-----------------------------------------------------------------------------------------------------------------------...

2017-01-13 09:28:47 344

原创 JavaScript学习笔记

1.JavaScript是用来增强网页与应用程序之间的交互,通常内嵌在HTML页面中运行。它是一种脚本语言,通过浏览器的脚本引擎解释执行。2.能做什么???操纵浏览器对象。例如窗口的打开和关闭。操纵DOM树。DOM是文档对象模型,假设把你的文档看成一个单独的对象,DOM就是如何用HTML或者XML对这个对象进行操作和控制的标准。通过XMLHttpRequest对象与服务器端进行异步

2017-01-11 10:14:44 297

原创 MFC学习笔记

最近因为要做一个项目所以必须要学习MFC,那么一下就是我觉得MFC里面非常重要的东西。当然,都是入门级的...1.操作系统把他所能够完成的功能以函数的形式提供给应用程序使用,应用程序对这些函数的调用就叫做系统调用。2.操作系统是靠消息机制将感知到的事件传递给应用程序的。操作系统将每个事件都包装成一个称为消息的结构体。3.句柄是资源的标识,操作系统要管理和操作这些资源,都是通过句柄来

2016-12-25 11:16:59 558

转载 GoogleHack学习笔记

这些是在精通脚本黑客上看到的,可能有些错误,以后再回头改吧....----------------------------------------------------------------------------------------------------------------google hack 技术说白了就是结合 google 的语法和 一些关键字来对网站进行的渗透,下面

2016-12-07 08:47:43 4199 1

转载 Web安全学习路线

------------------------------------------------------------------------------------------------------------------------------前段时间找到并且现在正在学习的Web安全学习路线,想学Web安全的朋友们一起加油吧!!!--------------------------...

2016-12-06 15:41:19 4066 2

原创 python爬虫之正则表达式笔记 part2

>>> re.search(r"love(you|me)","i loveyou")                               #    |   为“或”的意思<_sre.SRE_Match object; span=(2, 9), match='loveyou'>>>> re.search(r"^love",&

2016-11-19 21:33:02 323

原创 python爬虫之正则表达式笔记 part1

学习爬虫一段时间了,觉得学正则表达式是个好的契机,作为一个大二学生平时课太多,希望通过这种方式提高复习效率...import re                                                                                   #re模块为正则表达式子专用>>> re.search(r'love','i...

2016-11-19 10:52:54 2284

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除