自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

duke的博客

使用python/java/scala等语言来处理关于web、爬虫、机器学习、数据分析、大数据的学习和总结。

  • 博客(41)
  • 收藏
  • 关注

原创 python数据分析-NumPy (二)

python数据分析-NumPy (二)1. NumPy数组基础python中的数据操作几乎等同于NumPy数组操作,另外一个重要的工具包pandas也是构建在Numpy数组的基础之上的。1.1 NumPy数组的属性首先定义三个随机的数组:一个一维数组、二维数组和三维数组。In[1]: import numpy as np np.random.seed(0) # 设置随机数种子...

2019-09-06 14:28:52 463

原创 python数据分析-NumPy (一)

python数据分析-NumPy (一)前言:1.开发环境:Anaconda3-5.2.0,点击这里下载所有版本2.语言:python3.如果对jupyter notebook的快捷键不知道如何使用,点击这里1. NumPy入门1.1 python中的数据类型首先要了解一点,python是动态语言,Java/c是静态语言。这两者最明显的地方就在于java/c需要明确声明变量类型,而p...

2019-09-04 17:16:24 456

原创 Flask从入门到做出一个博客的大型教程(一)

Flask从入门到做出一个博客的大型教程(一)本项目全部在虚拟环境中运行,因此请参照前面的文章,链接为https://blog.csdn.net/u014793102/article/details/80302975 建立虚拟环境后,再接着完成本教程的学习。0 开始之前网上看了很多教程,都不是很满意,因此自己写一个大型教程,从入门到做出一个比较完整的博客。此次教程不是直接把整个...

2018-05-19 11:29:24 144587 36

原创 python计算高德地图距离和面积

python计算高德地图距离和面积因为项目中经常使用高德的距离和面积计算组件,但是高德并未公布计算逻辑,这就导致项目中数据出问题时不知道该如何去定位。因此花费了1天时间把距离计算和面积计算用python语言整理了出来。距离计算公式:from math import asin,sqrt,cos,pi#point_a,point_b是经纬度,格式为[lng,lat]def st_dista...

2020-01-07 10:17:40 2528 2

原创 数据仓库

最近可能要转岗数据开发了,先占个坑,熟悉后回来填上。

2019-10-24 22:43:40 387 1

原创 短文本相似度匹配

短文本相似度匹配服务器环境:Centos 7.xpython环境:3.6.X问题描述:1.项目中遇到这样一个问题:公司的正式名称和工作人员手动录入的公司名称匹配问题。例如:杭州艾索电子科技有限公司和杭州艾索电子公司豪世华邦(和平店)和豪世华邦浙江维尔科技股份有限公司和浙江维尔科技有限公司工作人员手动录入时会把某些公司名称缩写,但是项目中需要的是公司全称。因此需要来匹配相似度,...

2019-04-16 15:42:28 3903 1

原创 在centos上部署机器学习环境遇到的坑

在centos上部署机器学习环境遇到的坑服务器环境:Centos 7.xpython环境:3.6.X问题描述:1.在图片识别类的机器学习应用里,常用到cv2这个模块。服务器线上部署时,提示一系列的错误:ImportError: libSM.so.6: cannot open shared object file: No such file or directoryImportErr...

2019-04-15 17:08:31 1028

原创 机器学习(三) 线性代数-矩阵

机器学习(三) 线性代数-矩阵矩阵矩阵是一个二维的数据集合。我们将矩阵表示为列表的列表,每个内部列表的大小都一样,表示矩阵的一行。如果A是一个矩阵,那么A[i][j]就表示第i行第j列的元素。按照数学表达的惯例,我们通常用大写字母表示矩阵。例:A = [[1,2,3], # A有2行3列 [4,5,6]]B = [[1,2], # B有3行2列 [3,4], ...

2019-04-12 15:35:20 1798

原创 机器学习(二) 线性代数-向量

机器学习(二) 线性代数-向量对于机器学习来说,数学很重要,即使你已经把大学阶段的数学知识都忘完了,还是要从记忆里拾取一些。向量数学概念里,向量是指具有大小和方向的量。具体的说向量可以相加生成新的向量,可以乘以标量(数字),也可以生成新的向量的对象。比如说,一个班级里所有学生的身高、体重、年龄数据,可以把数据记为三维向量(height,weight,age),这个班级有4门考试,可以把学...

2019-04-11 16:13:54 550

原创 在markdown中写数学公式

插入公式规则类型语法效果行内公式$x=2$x=2x=2x=2行间公式 (居中)$$x=2$$x=2x=2x=2下面所有语法都是放在$$之间使用的。字母修饰上下标上标:^下标:_展示语法Cn3C_n^3Cn3​C_n^3矢量展示语法a⃗\vec aa\vec axy→\overrighta...

2019-04-11 15:56:24 933

原创 机器学习(一) 数据可视化

机器学习(一) 数据可视化前言:1.开发环境:Anaconda3-5.2.0,点击这里下载所有版本2.语言:python机器学习是一个很大的概念,我会的也是其中的沧海一粟,我从基础的开始和大家一起分享一下学习心得。为什么不先说别的,要先说数据可视化?从日常工作中,机器学习的成果怎么展示?有的是润物细无声系列,比如说Facebook的反爬虫策略就使用的机器学习分析用户行为,来判别你是...

2019-04-09 21:23:43 6710

原创 Jupyter Notebook常用快捷键

Jupyter Notebook常用快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本...

2019-03-19 14:08:28 275

原创 Java命名规范

Java命名规范1. 项目名全部小写。如:bigdata、startdt2. 包名全部小写。如:com.startdt.bigdata3. 类名、接口名首字母大写,多个单词组成时,采用驼峰法,每个单词首字母大写。public class MyArray {}4. 方法名首字母小写,多个单词组成时,从第二个单词开始,每个单词的首字母大写。第一个单词一般为动词,如:public ...

2019-03-06 19:59:52 176

原创 全面深入了解python(五)

全面深入了解python(五)1. 字典dict类型不但在各种在各种程序里广泛使用,也是python语言的基石。模块的命名空间、实例的属性和函数的关键字参数中都可以看到字典的身影。字典类型性能出众的原因是使用了散列表。1.1 泛映射类型collections.abc模块中有Mapping和mutableMapping这两个抽象基类。它们的作用是为dict和其他类似的类型定义形式接口。...

2019-03-05 19:26:29 393

原创 全面深入了解python(四)

全面深入了解python(四)1. 用bisect来管理已排序的序列bisect模块包含两个主要函数,bisect和insort,两个函数都利用二分查找算法在有序序列中查找或插入元素。1.1 用bisect来搜索bisect(haystack, needle),其中haystack必须是一个有序的序列,把needle插入位置之后,haystack还能保持升序。也就是说在这个函数返回位置前面...

2019-02-28 17:17:14 290

原创 全面深入了解python(三)

全面深入了解python(三)1. 切片在python里,列表、元组和字符串这类序列类型都支持切片操作。1.1 为什么切片和区间会忽略最后一个元素在切片和区间不包含最后一个元素是python的风格,这个习惯符合python、c和其他语言里以0作为起始下标的传统。当只有最后一个位置信息时,可以快速看出切片和区间里有几个元素:range(3)和my_list[:3]都返回3个元素。当起止...

2019-02-27 20:10:49 348

原创 yum出现Error downloading packages错误

yum出现Error downloading packages错误错误表现方式:yum可以list,可以clean cache,但是无法安装,错误提示:Downloading packages:Error downloading packages: libevent-devel-2.0.21-4.el7.x86_64: [Errno 5] [Errno 2] 没有那个文件或目录 ...

2019-02-22 11:57:30 12086 6

原创 全面深入了解python(二)

全面深入了解python(二)1. 序列构成的数组1.1 内置序列类型概览python标准库用C实现了丰富的序列类型:容器序列:list、tuple和collections.deque这些序列能存放不同类型的数据。扁平序列:str、bytes、bytearray、memoryview和array.array,这类序列只能存放一种类型的数据。容器序列存放的是它们所包含的任意类型的对象...

2019-02-20 20:26:01 440

原创 Centos7安装配置mysql5.6详细教程

Centos7安装配置mysql5.6详细教程1. 删除Centos7自带的数据库打开终端:[root@duke ~]代表当前目录为~[root@duke mysql]代表当前目录为mysql查询自带的数据库[root@duke ~]# rpm -qa|grep mariadbmariadb-libs-5.5.60-1.el7_5.x86_64删除查询出来的数据库[root@...

2019-02-20 11:48:16 2668

原创 全面深入了解python(一)

全面深入了解python(一)写在开始前,此教程不是基础教程,在看之前你需要有一定的python基础,不然你可能无法理解教程到底教了哪些东西。环境:python版本是3.6.5(>=3.4即可)1. Python数据模型数据模型其实是对Python框架的描述,它规范了这门语言自身构建模块的接口,这些模块包括但不限于序列、迭代器、函数、类和上下文管理器。Python解释器碰到特殊的句...

2019-02-11 14:44:44 1855

原创 java 爬虫大型教程(四)

java 爬虫大型教程(四)基本爬虫进阶(二)1. 爬虫的监控你可以利用爬虫的监控功能查看爬虫的执行情况——已经下载了多少页面、还有多少页面、启动了多少线程等信息。该功能通过JMX实现,你可以使用Jconsole等JMX工具查看本地或者远程的爬虫信息。如果你完全不会JMX也没关系,因为它的使用相对简单,这次教程比较详细的讲解使用方法。如果要弄明白其中原理,你可能需要一些JMX的知识,推荐阅...

2019-01-29 20:15:53 1098

原创 java 爬虫大型教程(三)

java 爬虫大型教程(三)基本爬虫进阶(一)1. 使用Pipeline保存结果好了,爬虫编写完成,现在我们可能还有一个问题:我如果想把抓取的结果保存下来,要怎么做呢?WebMagic用于保存结果的组件叫做Pipeline。例如我们通过“控制台输出结果”这件事也是通过一个内置的Pipeline完成的,它叫做ConsolePipeline。那么,我现在想要把结果用Json的格式保存下来,怎么做...

2019-01-29 14:09:59 2000 1

原创 java 爬虫大型教程(二)

java 爬虫大型教程(二)编写基本的爬虫1. 实现PageProcessor这部分我们直接通过CdnRepoPageProcessor这个例子来介绍PageProcessor的编写方式。PageProcessor定制分为三个部分,分别是爬虫的配置、页面元素的抽取和链接的发现。import us.codecraft.webmagic.Page;import us.codecraft.we...

2019-01-28 17:35:09 1989

原创 java 爬虫大型教程(一)

java 爬虫大型教程(一)写在开始前,既然是大型教程,那就从最初始的环境变量开始搭建说起。电脑环境:我的电脑是macbook pro,因此系统环境变量配置是和Windows不一样的,如果你的电脑是Windows系统,可以百度下相关环境变量配置。爬虫框架:使用的是webmagic,这是国内不错的爬虫框架,借鉴于python的scrapy框架。Java环境搭建首先提一句,从2019年1月开...

2019-01-24 21:48:35 6218 2

转载 java中this和super的用法总结

java中this和super的用法总结thisthis是自身的一个对象,代表对象本身,可以理解为:指向对象本身的一个指针。this的用法在java中大体可以分为3种:1.普通的直接引用这种就不用讲了,this相当于是指向当前对象本身。2.形参与成员名字重名,用this来区分:class Person { private int age = 10; public Pe...

2018-10-10 15:40:58 189

原创 java对象(二)

java 对象和类(二)用户自定义类最简单的类定义形式为:class ClassName{ field1 field2 ...... constructor1 constructor2 ...... method1 method2 ......}写一个自定义类的例子:import java...

2018-09-04 20:50:09 233

原创 java对象(一)

java 对象和类(一)对象与对象变量要想使用对象,就必须首先构造对象,并指定其初始状态,然后对对象应用方法。Java语言中使用构造器构造新实例。例如Java中有Date类,其对象描述一个时间点。构造器的名字应该与类名相同,因此Date类的构造器名为Date。构造一个Date对象,需在构造器前面加上new操作符。//这个表达式构造了一个新对象,这个对象被初始化为当前的日期...

2018-09-04 18:01:07 161

原创 java数组(二)

java - 数组(二)命令行参数每一个Java应用程序都有一个带String[] args 参数的main方法,这个参数表明main方法将接收一个字符串数组,也就是命令行参数。public class commandLine { public static void main(String[] args){ if(args.length ==0 || ...

2018-09-03 09:47:08 253

原创 java数组(一)

java数组(一)数组简介数组是一种数据结构,用来存储同一类型值的集合。创建数组范例:int[] a = new int[100];可以使用两种形式声明数组:int [] a; //第一种int a[]; //第二种 但是大部分人喜欢使用第一种风格,因为它将类型int与变量名分开了。数组下标从0~99(不是1~100),创建数组后就可以给...

2018-09-03 09:45:01 318

原创 数据分析(四)--pandas入门

Pandas入门在安装 Pandas 之前,确保你的操作系统中有 NumPy。如果你是从源代码直接编译,那么还需要相应的工具编译建立 Pandas 所需的 C 语言与 Cython 代码。如果你按照我的建议使用了 Anaconda,那么 Pandas 就已经安装好了。和之前导入 NumPy 并使用别名 np 一样,我们将导入 Pandas 并使用别名 pd:In[1]: impor...

2018-06-28 21:46:46 2600

原创 数据分析(三)--numpy进阶part2

Numpy进阶part21. 花哨的索引我们知道如何利用简单的索引值(如 arr[0])、切片(如 arr[:5])和布尔掩码(如 arr[arr > 0])获得并修改部分数组。这里介绍的花哨的索引和前面那些简单的索引非常类似,但是传递的是索引数组,而不是单个标量。花哨的索引让我们能够快速获得并修改复杂的数组值的子数据集。1.1 探索花哨的索引花哨的索引在概念上非...

2018-06-28 19:34:19 307

原创 数据分析(二)--numpy进阶part1

Numpy进阶 Part11. NumPy通用函数NumPy 通用函数的重要性——它可以提高数组元素的重复计算的效率,这也是我们写代码追求的目标。1.1 NumPy的普通通用函数通用函数有两种存在形式: 一元通用函数对单个输入操作, 二元通用函数对两个输入操作。数组的运算:NumPy 通用函数的使用方式非常自然,因为它用到了 Python 原生的算术运算符,标准的 加、减...

2018-06-27 22:23:06 528

原创 数据分析(一)--numpy入门

Numpy入门写在开始前,本系列将使用jupyter notebook作为工具,如果你是windows系统,为了方便请下载Anaconda3-5.1.0-Windows-x86_64,这集成了所有你可以用到或者用不到的各种工具。如果你是mac或者linux系统,可以下载Anaconda3-5.1.0的对应版本。在计算机中,可以将图像(尤其是数字图像)简单地看作二维数字数组,这些数字数组代表...

2018-06-26 21:46:47 647

原创 Flask从入门到做出一个博客的大型教程(五)

Flask从入门到做出一个博客的大型教程(五)在开始之前,先来看下项目的整体结构。prequestion/├── app│ ├── forms.py│ ├── __init__.py│ ├── models.py│ ├── routes.py│ └── templates│ ├── base.html│ ├── index.h...

2018-05-24 18:02:17 14867 15

原创 Flask从入门到做出一个博客的大型教程(四)

Flask从入门到做出一个博客的大型教程(四)在开始之前,先来看下项目的整体结构。flask├── app│ ├── forms.py│ ├── __init__.py│ ├── models.py│ ├── routes.py│ └── templates│ ├── base.html│ ├── index.html│ ...

2018-05-21 22:54:49 12696 9

原创 Flask从入门到做出一个博客的大型教程(三)

Flask从入门到做出一个博客的大型教程(三)在开始之前,先来看下项目的整体结构。flask├── app│   ├── forms.py│   ├── __init__.py│   ├── routes.py│   └── templates│ &am

2018-05-19 22:20:52 20785 47

原创 Flask从入门到做出一个博客的大型教程(二)

Flask从入门到做出一个博客的大型教程(二)在开始之前,先来看下项目的整体结构。flask├── app│ ├── __init__.py│ ├── routes.py│ └── templates│ ├── base.html│ └── index.html├── myblog.py3 表单前面已经讲了一个简单的hel...

2018-05-19 16:30:58 24918 15

原创 使用xadmin替换Django自带的admin后台

使用xadmin替换Django自带的admin后台Django自带有admin后台,但是其风格并不漂亮、功能也不是让人很满意。因此一些大牛就重写了admin后台叫做xadmin,进来的各位应该是对django自带的admin不是很满意,可以参照我的教程来一次替换。0 源码获取项目github地址为https://github.com/sshwsfc/xadmin,其中的xadmi...

2018-05-14 22:27:57 26121 4

原创 网络爬虫大型教程(二)

初见网络爬虫一 基础爬取1. 获取网页内容urllib是Python的标准库,包含了从网络请求数据,处理cookie,甚至改变像请求头和用户代理这些元数据的函数 from urllib.request import urlopenhtml = urlopen("http://pythonscraping.com/pages/page1.html")print(htm...

2018-05-14 17:57:17 1034

原创 在阿里云上使用 Ubuntu16.04+Nginx + Gunicorn部署Django项目

在阿里云上使用 Nginx + Gunicorn部署Django项目在本机上访问Django项目和在线上访问Django项目是两种不同的需求体验,前者主要要求是可以进行调试,通常是个人访问;但部署在后者上则会有人来访问,需要考虑并发问题,因此使用Django自带的runserver不能满足需要。环境:阿里云服务器、已购买域名并备案、python 3.6.4 虚拟环境、Ubuntu16.04...

2018-05-14 13:58:12 1441

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除