ZYH@Smart3S-CSDN博客

原创一种标准地图服务转矢量Shapefile方法

现在，几乎所有的中文期刊都对论文中的地图配图做出以下严格规定：接国家“关于开展问题地图专项治理的通知”,请从自然资源部标准地图服务网获取中国地图、世界地图及专题地图。并在文中或图下注明下载地址及审图号。这令众多科研同志苦不堪言，特别是很多同志在论文排版时才被要求做此工作，时间较为紧张。常见的解决方法有以下几种：（1）找到一个与标准地图服务完全匹配的矢量数据（如shapefile等），然后在文中声明标准地图的审图号即可（不推荐这种方式，因...

2020-08-30 16:49:37 21982 17

原创 Python批量爬取高德AOI边界数据+GIS可视化（超详细）

一、需求爬取高德地图的AOI区域（如下）并进行可视化存储，且保留AOI的属性信息。二、使用的工具： Python IDLE、记事本编辑器、ArcGIS 10.2、申请的高德开发者KEY（免费）。三、实现分析及思路博主在浏览博客时得到了一个链接，能够根据aoi编号检索aoi信息：https://ditu.amap.com/...

2019-03-17 13:30:46 34094 40

原创 Python数据挖掘学习笔记（7）频繁模式挖掘算法----FP-growth

一、相关原理 FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树（FP-tree），但仍保留项集关联信息。在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘...

2019-03-16 19:48:03 2965

原创 Python数据挖掘学习笔记（6）频繁模式挖掘算法----Apriori

一、相关原理 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。...

2019-03-07 13:37:23 3423

原创 Python数据挖掘学习笔记（5）决策树分类算法----以ID3为例

一、相关原理决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。E...

2019-03-05 16:49:06 987 1

原创 Python中numpy模块功能整理（下）：矩阵的运算、重构、排序、广播性质、过滤、Pandas转换

一、模块准备：import numpy as np二、矩阵运算： # 矩阵准备a=np.array([[1,2], [3,4]])b=np.array([[5,6], [7,8]])1、矩阵的加法运算：两矩阵对应元素相加#方法1a+b#方法2np.add(a,b) 结果： 2、矩阵的减法运算：两矩阵对...

2019-02-20 21:10:09 1850

原创 Python中numpy模块功能整理（上）：矩阵的创建、初始化、元素类型、数据提取与形状管理

一、模块准备：import numpy as np二、创建数组（矩阵）：1、通过手动输入的方式创建：#创建一维数组x=np.array([1,2,3,4,5])#创建二维数组y=np.array([[1,2],[22,2],[11,8]]) 结果: 2、从文件中读取：以创建的test.txt为例：读取代码：#以逗...

2019-02-20 16:59:38 22571 1

原创 Python推荐系统学习笔记（6）基于协同过滤的个性化推荐算法实战---Surprise库实现ItemCF

一、Surprise库简介 Surprise是一个用于简单快速构建推荐系统的Python库，其底层基于Python Scikit 构建。官方文档地址：https://surprise.readthedocs.io/en/stable 安装方式：（1）通过pip安装，需具有Microsoft C++ Build Tools 环境。 ...

2019-02-09 22:30:06 3313

原创 Python推荐系统学习笔记（5）基于协同过滤的个性化推荐算法实战---UserCF算法（下）

本文在Python推荐系统学习笔记（4）基于协同过滤的个性化推荐算法实战---UserCF算法（上）一文的基础上，对其基本的UserCF算法做出改进。一、相关概念1、UserCF中，基于行为（喜好）的相似性度量公式原始形式： Su,v代表用户u和v的相似度；N(u)和 N(v)代表用户u或v行为过的物品集合；分子...

2019-02-06 19:21:16 793

原创 Python推荐系统学习笔记（4）基于协同过滤的个性化推荐算法实战---UserCF算法（上）

一、相关概念：1、关于协同过滤：协同过滤（Collaborative Filtering Recommendation）技术是推荐系统中应用最早和最为成功的技术之一。协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特...

2019-02-06 17:33:08 2473

原创 Python推荐系统学习笔记（3）基于协同过滤的个性化推荐算法实战---ItemCF算法（下）

本文在Python推荐系统学习笔记（2）基于协同过滤的个性化推荐算法实战---ItemCF算法一文的基础上，对其基本的ItemCF算法做出改进。一、相关概念1、ItemCF中，基于行为（喜好）的相似性度量公式原始形式： s i,j代表物品i和j的相似度；u(i)和u(j)代表含有物品i或者物品j行为的用户集合；...

2019-02-05 16:33:26 1522

原创 Python推荐系统学习笔记（2）基于协同过滤的个性化推荐算法实战---ItemCF算法（上）

一、相关概念：1、关于协同过滤：协同过滤（Collaborative Filtering Recommendation）技术是推荐系统中应用最早和最为成功的技术之一。协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特...

2019-02-04 22:54:53 2775

原创关于Python3中相对路径的表示

在Python3中，相对路径的表示方式与Python2不同：（注意点的个数）“ / ”：表示根目录，在windows系统下表示某个盘的根目录，如“D:\”；“ ./ ”：表示当前目录；（表示当前目录时，也可以去掉“./”，直接写文件名或者下级目录）“ ../ ”：表示上级目录。测试：在PyCharm中创建一个Python...

2019-02-03 18:31:39 6420

原创 Python推荐系统学习笔记（1）基于协同过滤的个性化推荐算法实战---隐语义模型

一、相关概念：1、隐语义模型（LFM）通过矩阵分解建立用户和隐类之间的关系，物品和隐类之间的关系，最终得到用户对物品的偏好关系。假设我们想要发现 F 个隐类，我们的任务就是找到两个矩阵 U 和 V，使这两个矩阵的乘积近似等于R，即将用户物品评分矩阵 R 分解成为两个低维矩阵相乘，然后定义损失函数，利用随机梯度下降法处理损失函数，求出U和V。隐语...

2019-01-31 20:27:38 3337 6

原创 Python数据挖掘学习笔记（4）KNN分类算法----以简单的手写数字的图像识别为例

一、相关理论： KNN算法，又叫邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类...

2018-12-10 16:43:32 733 3

原创 Python数据挖掘学习笔记（3）读取图片数据并转换为文本

在日常项目中，经常需要对图片进行分类、特征提取、识别等操作，而图片的识别大多都不是针对图片的像素本身，而是针对数值矩阵进行的，本文将会简单讲解如何将图片数据转换为文本形式的数值矩阵。1、首先需要配置pillow，通过pip来安装：pip install pillow2、编写代码：(1)准备阶段：#导入PIL模块from PIL import Image#...

2018-12-10 09:36:06 1212

原创 Python数据挖掘学习笔记（2）文本相似度分析

关于使用Python进行文本相似度分析，网上的相关博客已经非常多了，因此本文仅进行简单的讲解，直接上代码，方便不想过多理解概念即要实现文本相似度分析的网友使用。一、相关理论：语料库的定义：https://baike.baidu.com/item/语料库/11029908?fr=aladdin稀疏向量的定义：https://baike.baidu.com/item/稀疏向...

2018-11-23 22:02:06 1542 2

原创 Python--Django开发速成（3）

本文主要讲解在的Python--Django开发速成（2）基础上添加博客文章修改功能，主要思路如下：（1）每个博客都是有id的，id是由数据库自动生成的，而id有一个特点，就是没有0值。（2）若要修改已有的文章，那么可以读取其id，从而后取其他内容。（3）若要新建文章，则视id值为0，从而实现新建文章与编辑文章共用一个视图html而不使程序出错。一、程序代码：1...

2018-11-11 21:17:14 478

原创 Python--Django开发速成（2）

在Python--Django开发速成（1）中，讲解了一个简单粗暴的Django实例，本以一个简单的博客网站为例，讲解一个比较完整的（含有html视图以及数据库的）Django实例。注意，本实例使用的是Django自带的SQLite3数据库，并使用SQLiteStudio进行数据内容的编辑，若要使用MySQL等其他数据库，请参考Django官网：https://...

2018-11-10 21:42:01 597

原创 Python--Django开发速成（1）

Django是一个开放源代码的Web应用框架，由Python写成。采用了MVC的框架模式，即模型M，视图V和控制器C。最近项目需要用到，但是无奈基础较差时间较紧，于是采取了速成的方式...... 本文是我作为一个小小小小白，总结的Django开发的一个简单粗暴的入门流程。注：环境搭建的过程本文省略，本文使用的是Django2.1.3版本，开发工具使用...

2018-11-09 21:27:07 526

原创 Python数据挖掘学习笔记（1）文本挖掘入门

一、准备阶段：（1）打开cmd，pip安装jieba（pip install jieba）（2）打开python安装目录的Lib->site-packages->jieba，打开dict.txt，可以看到这是jieba模块的词典：每三个为一组，分别是：词、词频、词性，关于词性的对照表见附录。二、编写代码：1、准备阶段：import jieb...

2018-11-04 19:33:22 1392 2

原创 Word处理代码文本之删除注释与空行

一、需求：现从编程软件中粘贴了一堆代码至word文档中，内容有百页之多，如下图：现在想要对代码内容进行缩减，需要进行以下操作：（1）删掉注释。（2）删除空行。二、实现思路：注意到代码注释的文本的特点是开头为“//”，考虑到可以使用通配符来进行文本描述从而实现替换。而空行的特点是由连续的两个换...

2018-11-02 10:25:13 6243 2

原创 Python爬虫时翻页等操作URL不会改变的解决办法--以爬取携程景点点评信息为例

一、需求：需要爬取携程的五四广场景点主页的用户点评信息。二、爬虫时可能遇到的问题：评论信息虽然可以在该页的源代码中获取到：但是存在许多问题，例如：1、评论翻页、修改评论排序方式（智能排序、有用数排序、按时间排序）并不会改变当前页的URL。2、使用Fiddler等的抓包工具，虽然能够找到该网页用来进行评论数据传输的文件AsynCommentView的URL...

2018-10-28 14:43:52 13745 3

原创 Python数据预处理知识点总结

数据预处理主要包括数据清洗、数据集成、数据变换和数据规约四个部分。1、数据清洗：删除原始数据集中的无关数据、重复数据、平滑噪声数据，处理缺失值、异常值等。数据清洗的步骤：（1）缺失值处理（通过describe与len直接发现、通过0数据发现）（2）异常值处理（通过散点图发现）一般遇到缺失值，处理方式为：删除、插补、不处理插补的方式主要有...

2018-10-27 22:13:16 4982

原创 Python数据分析学习笔记（6）数据规约实战--以主成分分析PCA为例

一、相关理论：1、数据规约：产生更小且保持数据完整性的新数据集。意义在于降低无效、错误数据；降低存储成本；少量且具有代表性的数据大幅加快，主要分为以下两类：①属性规约：属性合并或删除无关维，目标是寻找最小子集使子集概率分布尽可能与原来相同。常用方法：（1）合并属性将就属性合并为新属性 {A1,A2,A3,B1,B2,C}——{A,B,C}（2）逐步向前选择从空集开始，...

2018-10-27 21:05:07 1154

原创 Python爬取携程旅游行程信息+GIS可视化

一、需求：爬取携程旅行网的“北京推荐行程”首页的各个行程文章，将各个行程所包含的景点信息提取出来，并导入ArcGIS进行GIS可视化。二、爬取思路：爬取北京推荐行程主页的各个文章的URL，然后通过该URL爬取出行程文章的数据，最后进行信息提取，得到行程景点的相关信息。三、编写代码：import urllib.requestimport...

2018-10-26 21:58:57 5672 5

原创 Python数据分析学习笔记（4）数据探索与清洗实战

一、相关理论：数据探索的核心：（1）数据质量分析（跟数据清洗密切联系）（2）数据特征分析（分布、对比、周期性、相关性、常见统计量等）数据清洗的步骤：（1）缺失值处理（通过describe与len直接发现、通过0数据发现）（2）异常值处理（通过散点图发现）一般遇到缺失值，处理方式为：删除、插补、不处理插补的方式主要有：均值插补、中位数插补、众数插补、固定值插补...

2018-10-26 11:37:55 1449 1

原创 Python数据分析学习笔记（3）matplotlib数据可视化入门

一、模块导入：import matplotlib.pylab as pyl #用于可视化import numpy as npy #用于提供数组支持二、折线图、散点图（1）折线图：#注意xy数据要个数相同以对应x=[1,2,3,4,8]y=[4,7,2,1,6]#plot(x轴的数据，y轴的数据，展现的形式,默认是折线图)pyl.plot(x,y)（2）散点图...

2018-10-15 08:56:43 656

原创 Python数据爬虫学习笔记（22）JSON信息并解析

一、需求：有一个通过抓包得到的京东商品的JSON链接，解析该JSON内容，并提取出特定id的商品价格p，json内容如下：jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"},{"op":"48.00",&

2018-10-06 13:53:48 1399 1

原创 Python数据爬虫学习笔记（21）Scrapy爬取当当图书数据并存储至SQLite数据库

一、需求：在当当网的程序设计类图书商品界面中，爬取图书的名称、详情链接以及评论数，并将信息存储至SQLite数据库。二、URL及网页源码分析：1、URL分析，注意到商品搜索页的URL具有以下结构：2、源码分析，观察网页的源代码，寻找商品名称、商品链接、评论数信息的所在位置。 1）商品名称：存在于class属性为pic的a标签中的title属性中。 2）商...

2018-10-05 23:20:09 1989

原创 Python数据爬虫学习笔记（20）Scrapy模拟登录实现豆瓣用户信息爬虫

一、需求：在豆瓣官网中，使用Scrapy实现模拟登录，并爬取登录后的个人中心界面中的用户名及日记信息数据。二、实现思路：1、关于用户名与密码以及其提交网址：观察登录网页的源代码，注意到用户名与密码都使用不同name属性的input来输入。登录信息的提交网址为，这个网址可以在源代码中找到，但是非常建议使用Fiddler进行抓包分析得到，方法是首先对Fid...

2018-10-05 20:44:34 1245

原创 Python数据爬虫学习笔记（13）爬取微信文章数据

一、需求：在微信搜索网站中,通过设定搜索关键词以及搜索页面数，爬取出所有符合条件的微信文章：二、搜索页URL分析阶段：1、在搜索框中输入任意关键词，在出现的搜索结果页面点击下一页，将每一页的URL复制下来进行观察：2、注意到页码由page=X决定，搜索关键词由query=X决定，URL中的其它变量可以通过逐个删除测试的方式探究是否为必要变量，注意尽量不要使用QQ浏览器，由于QQ...

2018-10-02 10:35:37 1388

原创 Python数据爬虫学习笔记（12）爬取腾讯视频评论数据（Fiddler抓包+浏览器伪装）

需求：爬取腾讯网站某个视频的所有评论数据，如下图：工具：Python IDLE、Fiddler抓包工具（配置过程可参照相关博客，需设置为可抓HTTPS）一、URL分析阶段：1.打开某视频网页，本博文以斗破苍穹第一集为例，找到评论所在网页位置。2.转到Fiddler，发现抓取的网址过多，只好输入命令Clear一下，然后点击网页中的“查看更多评论”按钮，即可在Fiddler找...

2018-09-28 10:28:57 2797 1

原创 Python数据爬虫学习笔记（11）爬取千图网图片数据

需求：在千图网http://www.58pic.com中的某一板块中，将一定页数的高清图片素材爬取到一个指定的文件夹中。分析：以数码电器板块为例 1.查看该板块的每一页的URL：注意到第一页是“0-1.html”，第二页是“0-2.html”，由此可找到规律。2.查看缩略图片的URL，使用F12开发者工具，通过element选项卡中的工具对网页div进行不断展开，...

2018-09-18 21:49:34 5379 4

原创 ArcGIS Runtime SDK for Android 入门（24）：时态数据查询

时态查询功能是通过用户设定的时间范围对要素表中存储的时间信息进行检索，从而获得在特定时态范围内的要素的操作。本实例以台风数据为例，通过设定的时间范围构造时态查询条件，执行Query查询得到要素的时态查询结果，并将结果要素变换为图形对象进行显示。实现步骤：1.创建Android项目 2.添加Runtime SDK依赖前两步本文省略，初学者可参照 Arc...

2018-09-17 19:26:19 628 2

原创 ArcGIS Runtime SDK for Android 入门（23）：操作地图选择集

选择集是存放当前地图中查询选择结果的集合，通过Select方法进行查询操作后，查询结果就会被关联至选择集中，通过访问选择集可以获取以前的查询结果。本实例以美国行政区数据为例，根据用户设定的查询条件，执行Select查询并将查询结果要素与选择集进行关联，然后对选择集中的要素进行显示。实现步骤：1.创建Android项目 2.添加Runtime SDK依赖 ...

2018-09-17 08:35:12 876

原创 Python数据爬虫学习笔记（10）淘宝图片爬虫实战

所谓图片爬虫，即是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。一、图片爬虫前的网页链接分析1.首先打开淘宝首页，在搜索框中输入关键词，如“神舟”，在搜索结果界面中点击下一页，分别打开第一页，第二页，第三页的搜索结果，并记下每一页结果的URL至记事本中，如下：2.观察每一个网页的URL，不要去观察它们不同的部分，而是着眼于每个URL中相似的部分。（1）可...

2018-09-15 20:11:17 1808

原创 Python数据爬虫学习笔记（9）爬虫防屏蔽之代理服务器

一、代理服务简介：所谓代理服务器，是一个处于我们与互联网中间的服务器，如果使用代理服务器，我们浏览信息的时候，先向代理服务器发出请求，然后由代理服务器向互联网获取信息，再返回给我们。使用代理服务器进行信息爬取，可以很好的解决IP限制的问题。二、代码：import urllib.requestdef use_proxy(url,proxy_addr): proxy=urll...

2018-09-08 16:49:57 1563

原创 Python数据爬虫学习笔记（7）爬取新浪新闻首页的所有新闻

需求：将新浪新闻首页（http://news.sina.com.cn/）所有新闻都爬到本地。思路：先爬首页，通过正则获取所有新闻链接，然后依次爬各新闻，并存储到本地，如下图。实现：首先查看新浪新闻网页的源代码：观察每条新闻的源代码样式，编写以下代码：import urllib.requestimport redata=urllib.request.urlopen("ht...

2018-09-07 09:28:00 1729 1

原创 Python数据爬虫学习笔记（6）爬虫异常处理与浏览器伪装

一、爬虫异常处理爬虫在运行的过程中，经常会遇到异常。若不进行异常处理，则爬虫程序会直接崩溃停止运行，当下次再次运行时，则又会重头开始。因此，开发一个具有顽强生命力的爬虫，必须要进行异常处理。常见的爬虫异常状态码： 301 Moved Permanently：重定向到新的URL，永久性。 302 Found：重定向到临时的URL，非永...

2018-09-06 17:56:42 441

北京郊区星级酒店空间分布数据（带坐标）.rar

MovieLens 10M

ArcGIS移动定位显示按钮图片素材

空空如也