自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

滴滴答答要努力

坚持就是胜利

  • 博客(35)
  • 收藏
  • 关注

原创 python3.6的wordcloud下载安装

今天想实现一个词云展示,遇到了一下问题,按照最常规的pip install命令,安装失败,百度半天后的结果是wordcloud的pip安装命令不适用python3,所以我们另寻它法安装wordcloud。 首先,我们转到http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud,下载我们需要的对应版本的wordcloud 的whl文件,我使用的是64

2018-01-30 16:06:36 5633 1

原创 如何解决Python中的Anaconda中文不能显示问题

当我们用Python中的Anaconda做图表时经常会遇到标签中的问题不能显示问题。df_clean.boxplot(column='avgSalary',by='city',figsize=(9,7))结果如下图: 图表的标签出了问题,出现了白框,主要是图表默认用英文字体,而这里的都是中文,导致了冲突。所以需要改用matplotlib。from matplotlib.fon

2018-01-29 16:43:59 7299

原创 网络爬虫之东方财富网股票板块

本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)。 源码或者jar包如有需要请联系:[email protected]要抓取的数据抓包框架model建立数据表mainutilparsedbjob和jobmain要抓取的数据这个项目要抓取的是东方财富网的板块数据。 链接为http://quote.eastm

2017-09-27 20:00:17 4116

原创 出现Cannot create table : 1166 - Incorrect column name,怎么解决?

当出现这种情况,说明数据没有成功导入mysql。这个时候,要将excel文件转换成txt文件,因为txt文件更稳定,更好用。 excel文件转换成txt文件方法如下:先将excel文件打开,另存为txt文件再将txt文件打开,另存为,这个时候修改编码格式,修改为你需要的编码,一般都是修改为utf-8。...

2018-07-09 14:28:36 2793

原创 python数据结构

Python的数据结构简单而强大。想要成为一名合格的数据分析师,对Python的数据结构一定要熟练于心。 Python的数据结构主要有元组,列表,字典和集合,下面针对必要的知识点介绍一下。一.元组(tuple) 元组是一种一维的、定长的、不可变的Python对象序列。 1.创建 元组的创建有两种:其一是用括号()直接赋值,赋一组以逗号隔开的值;其二是调用tuple,用第二种方法可以使任...

2018-07-03 14:34:08 2566

原创 产品经理入门必备书籍

最近,有一个很爱看书的朋友给我推荐了几本产品经理入门的书籍,特来和大家分享。 看书的顺序和我在这里写的顺序一致,第2、3本书看的顺序随意,可以对调。 1、结网:改变世界的互联网产品经理 2、产品的视角:从热闹到门道 3、产品经理的20堂必修课 4、腾讯方法 5、产品经理面试攻略目前本人刚开始看第一本,遇到有用的地方,和大家分享。...

2018-05-17 13:34:59 545

原创 Python常用的可视化工具入门:Matplotlib入门

用于创建出版质量图表的绘图工具库目的是为Python构建一个Matlab式的绘图接口import matplotlib.pyplot as plt,pyplot模块包含了常用的matplotlib API函数figure Matplotlib的图像均位于figure对象中 创建figure,plt.figure() 示例: Subplot fig.add_subplot(...

2018-02-27 18:44:41 617 1

原创 NumPy的知识要点

NumPy的介绍NumPy是Numerical Python的缩写高性能科学计算和数据分析的基础包ndarray,多维数组(矩阵),具有矢量计算能力,快速、节省空间矩阵运算,无需循环,可完成类似Matlab的矢量计算线性代数、随机数生成常用import numpy as np注:在jupyter notebook中进行示例。ndarray,N维数据对象(矩阵) 所有元素...

2018-02-26 00:45:16 449

原创 python基础知识(三)python高阶函数

函数式编程1.函数本身可以赋值给变量。赋值后变量为函数 示例: 2.允许将函数本身作为参数传入另一个函数 示例: 3.允许返回一个函数map/reduce1.map(func,lst),将传入的函数变量func作用到lst变量的每个元素中,并将结果组成新的列表返回 示例: 2.reduce(func(x,y),lst),其中func必须有两个参数。每次func计...

2018-02-18 23:42:36 264

原创 python基础知识(二)python高级特性

集合的推导式列表推导式,使用一句表达式构造一个新列表,可包含过滤、转换等操作[exp for item in collection if condition]示例: 字典推导式[key_exp : value_exp for item in collection if condition]示例: 集合推导式{exp for item in...

2018-02-18 23:13:15 467

原创 数据分析师必须知道的知识锦囊

如今,身处互联网时代的我们每个人每时每刻都会在网络中产生很多的行为痕迹,这些行为痕迹在各大互联网公司的后台就形成了大数据,这大数据其实是放错位置的财富,以前人们没有意识到这是一个发财的商机,现在有关大数据的职业如雨后春笋般出现在我们的视线中,数据分析师这个职业就是其中之一。熟谙一切数据分析技术方法的分析者会比其他人技高一筹:他们知道如何处理所有的数据材料,如何将原始数据转变成推进现实工作的妙策,如...

2018-02-13 01:17:05 395

转载 用pandas进行数据分析实战

转载自http://mp.weixin.qq.com/s?__biz=MjM5NjEyMDI2MQ==&mid=2455947430&idx=1&sn=11da6ff57dbaeae9343e822ac8a2f3a7&chksm=b1787b0c860ff21a2568234ea1b5a1bf86c91c2b96ef876863f5dc11ad7de27510107...

2018-01-30 17:29:47 11245 3

原创 Python常用的数据分析工具入门: pandas入门

数据分析绝对绕不过的三个包是numpy、scipy和pandas。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。scipy是基于numpy的科学计算包,包括统计、线性代数等工具。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。 下面主要介绍numpy和pandas。 这次示例我们用jupyter notebook。当电脑安装上Anac...

2018-01-26 21:33:30 699

原创 Python常用的包和模块

Python提供了非常丰富的包和模块,合理应用这些模块将极大程度的提供数据分析能力。下面列举一些数据分析要经常用到的包:numpy、scipy、pandas是数据分析最常用的三个包matplotlib、seaborn是常用的绘图包scikit-learn、Gensim、NLTK是机器学习相关的包urllib、BeautifulSoup是常用的爬虫包

2018-01-26 20:33:25 508

原创 Python闭包:返回函数的函数

闭包(closure)不是什么可怕的东西。如果用对了地方,它们其实可以很强大。闭包就是由其他函数动态生成并返回的函数,通俗地讲,在一个函数的内部,还有一个“内层”的函数,这个“内层”的函数是被返回的,它可以访问其创建者的局部命名空间中的变量。 下面是一个非常简单的例子:# 定义一个函数def make_closure(a): # 在函数内部再定义一个函数,其实这个里面的函数就被

2018-01-25 17:32:40 525

原创 Head First Python(前六章)学习笔记

关于python的开发环境配置,请看我之前的博客: http://blog.csdn.net/qq_22499377/article/details/78651840 当然初学者可以使用IDLE的shell来编写代码,对于初学者来说很好用。第一部分列表给一个创建名为movies列表的例子:movies = ['The Holy Grail',1975,'The life o

2018-01-22 17:26:09 589

原创 Hive学习笔记(五)向表中装载数据

1.向管理表中装载数据 再次强调,Hive没有行级别的数据插入、数据更新和删除操作。LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTO TABLE employeesPARTITION (country = 'US', state = 'CA');如果分区目录不存在的话,这个命令会先创建...

2018-01-11 12:34:45 2255

原创 Hive学习笔记(四)与表有关的HiveQL语句

1.创建表: 详细见我之前的博客: http://blog.csdn.net/qq_22499377/article/details/79020768 2.展示在数据库mydb的表有两种方式:use mydb;show tables;或者show tables in mydb;如果有很多的表,可以使用正则表达式来过滤出所需要的表名:show tables L...

2018-01-10 20:50:01 684

原创 Hive学习笔记(三)与数据库有关的HiveQL语句

1.创建数据库:CREATE DATABASE mydb;如果数据库mydb已经存在的话,那么将会抛出一个错误信息。使用如下语句可以避免这种情况下抛出错误信息:CREATE DATABASE IF NOT EXISTS mydb; 当我们创建数据库mydb时,Hive会对应地创建一个目录/user/hive/warehouse/mydb.db。值得注意的是,数据库defau...

2018-01-10 11:23:26 473

原创 Hive学习笔记(二)HiveQL和MySQL的区别

HiveQL和MySQL的区别: HiveQL是Hive查询语言,Hive可能与MySQL的方言最接近,但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive也不支持事务。Hive增加了在Hadoop背景下的可以提供更高性能的扩展,以及一些个性化的扩展,甚至还增加了一些外部程序。本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。...

2018-01-10 11:15:52 3115

原创 Hive学习笔记(一)集合数据类型和文本文件数据编码

集合数据类型集合数据类型分为STRUCT,MAP,ARRAY三种。 下面一个例子用于演示如何使用这些数据类型,这是一张虚构的人力资源应用程序的中的员工表:CREATE TABLE employees ( name STRING COMMENT 'Employee name', salary FLOAT COMMENT 'Employee salary', su...

2018-01-10 10:38:49 843

原创 经典的营销管理模型

现在,让我来为大家总结几个重要的营销管理模型。其中营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等,而管理方面的有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。这些都是经典的营销、管理方面的理论,需要在工作中不断实践应用,你才能领悟其强大的作用。 营销方面: 4P营销理论 4P营销理论是随着营销组合理论的提出而出现的,营销组合其实有几十个要素,这些要素

2017-12-22 10:07:47 7357

原创 python基础知识(一)

python程序元素1.缩进:1个tab键或4个空格,表示代码的层次关系 2.注释:注释不被执行。 单行注释以#开头。 多行注释以三引号开始和结束:“”” xxxxx“””3.常量与变量:常量是执行过程中值不发生改变,可多次使用的元素。变量是执行过程中值会发生改变的元素。 4.命名:命名规则为必须为大小写字母、数字、下划线,不能以数字开头,大小写敏感,不能和保留字相同。

2017-11-28 11:04:43 380

原创 python开发环境安装及配置

第一步:安装Anaconda。 根据操作系统下载对应版本的64位的Python3.x版。 下载地址:https://www.continuum.io/downloads 第二步:安装PyCharm。 根据操作系统下载Community版本。 下载地址:https://www.jetbrains.com/pycharm/ 注意:用PyCharm新建一个项目时,选择Python的安装路径。如

2017-11-28 09:51:29 643

原创 推荐系统的评测指标新颖性和惊喜度的区别

本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)。什么是新颖的推荐新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。什么是惊喜的推荐惊喜的推荐是指推荐和用户历史上喜欢的物品不相似的物品,但是用户却觉得满意的推荐。举例说明二者的区别举个例子说明一下这两者的区别。假设一名用户喜欢周星驰的电影,然后我们给他推荐了一部叫《临歧》的电影

2017-10-25 21:34:43 4079 3

原创 一个程序的设计步骤

本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)。一个程序的设计步骤: 步骤1:需求认识 了解程序所要解决的问题是什么,有哪些输入和输出等。 步骤2:设计规划 根据需求选择适合的数据结构,并以任何的表示方式写一个算法以解决问题。 步骤3:分析讨论 思考其他可能适合的算法及数据结构,最后再选出最适当的目标。 步骤4:编

2017-10-24 14:37:29 4173

原创 程序、算法和数据结构的关系

本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)。数据结构的研究重点是在计算机的程序设计领域,使用何种方式对相关数据组合,以提高程序的执行效率。算法的主要目的在于为人们提供阅读了解所执行的工作流程与步骤。数据结构与算法要通过程序的实现,才能由计算机系统来执行。可以这样理解,数据结构和算法形成了可执行的程序。而程序能否快速而有效地完

2017-10-24 10:29:00 14317 2

原创 网络爬虫抓包的使用

网络爬虫的第一步就是分析要爬取的数据的类型,这要通过抓包完成。在浏览器里的页面发生的数据通信,只需要打开Chrome的开发者工具, 切换到network选项卡就够了。举个例子,比如要爬取东方财富网的板块数据,链接为http://quote.eastmoney.com/center/BKList.html#trade_0_0?sortRule=0 1、打开Chrome的开发者工具。 2、在这个界

2017-09-27 16:55:34 3713

原创 一篇博文让你看懂网络爬虫

本文为原创博客,仅供技术学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)。网络爬虫的原理写网络爬虫的原因网络爬虫的流程java网络爬虫要具备哪些基础知识?网络爬虫的原理当我们在浏览器访问一个网页时,网页接收到请求后返回一个HTML文件,浏览器对HTML文件进行解析,展示在用户界面上。同样的道理,爬虫程序模仿人的操作访问网站,给网站一个请求,网站

2017-09-27 16:18:42 357

原创 算法的时间复杂度

定义计算方法举例说明常见的时间复杂度定义算法的时间复杂度是用一种“概量”的概念来衡量算法的运行时间。当计算时间复杂度的时候,我们会发现其实时间复杂度就是某一算法的执行次数的一个概略的量度。计算方法1、找到执行次数最多的语句 执行次数最多的语句通常是最内层循环的循环体。 2、计算执行次数的数量级 计算执行次数最多的语句的执行次数的数量级,就可以保证执行次数的最高次幂是正确的。 3、用大

2017-09-24 21:00:01 311

原创 Eclipse 导入java project乱码问题

Eclipse导入java project出现乱码问题,大多都是因为编码不对。只需三步就可以解决这个问题:对某工程更改编码: 鼠标移到工程名或文件名,右键->Properties->Resource->Text file enCoding ->更改编码(GBK、UTF-8等)->Apply->OK退出修改整个命名空间的编码: eclipse菜单栏->Window->Preferences(

2017-09-23 15:14:13 650

原创 mysql跨服务器存储

进行网络爬虫的时候,为了检测爬虫的java程序有没有问题,会首先在自己本机的mysql数据库上测试。当测试完成后,我直接运行程序把数据存储在了本机的数据库中。但是毕竟团队其他成员需要对数据进行处理,所以要把数据放在研究所的服务器上。最简单的方法:数据表右键转储sql 文件,然后在研究所的服务器的数据库中运行这个sql文件即可,这样就实现了对数据表的跨服务器转移。

2017-09-23 09:54:02 346

原创 查找算法(1)折半查找法

原理优缺点程序范例原理折半查找的原理是将排序好的数列分割成两份,然后将要查找的数字与中间位置的数字比较。如果要查找的数字小于中间位置的数字,就可以确定要找的数字在整个数列的前半段,反之在后半段,如果要查找的数字正好与中间位置的数字相等,说明位置已经找到。如此分割数次直到找到或确定不存在为止。优缺点折半查找的优点在于比较次数少,查找速度快,平均性能好。 折半查找的缺点在于要求待查表为有序表,且

2017-09-20 20:57:42 1226

原创 排序算法(2)冒泡排序法

原理举例程序范例原理冒泡排序法的名字由来是因为这种方法排序的原理就好像是水中的气泡往水面浮一样。 那么冒泡排序法的原理是什么呢?冒泡排序法由第1个数字开始,比较相邻数字的大小,如果大小顺序和所要的不一致时,则将两个数字对调,反之则不需要对调。如此扫描过1轮后就可以确保最后一个数字处于正确的顺序。接着以同样的方法继续第2次扫描,直到排序关系完成即可。举例 程序范例package boke;

2017-09-20 19:57:16 304

原创 排序算法(1)选择排序法

排序算法(1)选择排序法原理举例程序范例原理选择排序法属于排序算法中常见的也是大家最容易理解的排序算法,可以作为排序算法的入门来学习。那么选择排序法的原理是什么呢?选择排序就是当n个数字需要由大到小排序时,首先以第1个位置的数字,依次与2、3、4......n个位置的数字作比较。如果第1个位置的数字大于或等于某一个位置的数字,则两个位置的数字不变,反之则将两个位置的数字进行互换。 当第一轮

2017-09-20 16:39:55 7990 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除