自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Tableau学习笔记第一章( 界面、直方图、条形图)

界面认识 左侧是连接数据源的不同方式,可以通过Excel、文本文件、不同数据库导入数据。连接数据源后,可以在页面看到相关数据展示,Abc表示是字符型数据,#表示为数值型条形图认识与绘制把产地、记录数分别拖入行列,绘制条形图让条形图降序排列、显示数值直方图介绍及绘制直方图主要是用于观察数值的趋势、分布等因为这边的评分为连续型,所以需要对数值进行分箱,具体操作:右击评分---创建---数据桶可以修改数据桶的大小,这边改为0.5修...

2020-06-01 09:56:55 417

原创 Python格式化输出以及保存

一、Python格式化输出1、%格式化输出1.1、输出字符串>>> a='AAAA'>>> b='BBBB'>>> print('a=%s b=%s' %(a,b));a=AAAA b=BBBB1.2、 打印整数>>> a=10>>> b=20>>> pr...

2019-10-31 15:34:13 839

原创 SAS学习笔记---SAS数据步中常用SAS语句

1. 数据获取语句例1 用input语句读取数据流中的数据data SASTJFX2_1; input name $ weight height @ @;cards;WANG 42 160ZHANG 46 170;run;proc print;run;input语句记录描述输入数据记录值的形式,给相应的变量赋值。¥表明name是字符型变量。wei...

2019-07-22 11:01:31 926

原创 python使用selenium库模拟登陆学习手册

selenium安装pip install selenium基本使用from selenium import webdriverimport osimport time#打开网页driver= webdriver.Chrome( ) #打开谷歌浏览器,driver就代表这个浏览器driver.get(‘ ’) #打开某个网站driver.max...

2019-07-22 11:00:20 131

原创 python使用selenium库模拟登陆边写爬虫问题

出现element not interactable解决方法(1)加sleep()(2)遇到下拉框无法点击,应手动改,htmlactiveJs="document.getElementsByClassName('menu_body')[7].style='display:block'"browser.execute_script(activeJs) #下拉框style='...

2019-07-19 14:09:15 142

原创 python运用openpyxl库来操作Excel文件

白天工作中用到了这个库,总结下1 openpyxl安装pip install openpyxl2 运用openpyxl打开xlsx文件2.1对工作薄工作表打开、删除、保存import openpyxlfrom openpyxl import Workbook#创建新的工作薄wb = Workbook()#读取已有工作薄wb = openpyxl.load_wor...

2019-07-18 20:46:28 377 1

原创 抓包爬猪八戒网评论

import requestsfrom bs4 import BeautifulSoupimport timedef gethtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623....

2018-07-09 22:34:37 356

原创 Python字符串方法

1.enumerate()是python的内置函数,enumerate在字典上是枚举、列举的意思,对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate将其组成一个索引序列,利用它可以同时获得索引和值,enumerate多用于在for循环中得到计数list1 = ["这", "是", "一个", "测试"]for index, item in ...

2018-07-03 09:45:18 132

原创 数据挖掘之逻辑回归练习

逻辑回归调用sklearn包使用步骤: (1) 导入模型。调用逻辑回归LogisticRegression()函数。(2) fit()训练。调用fit(x,y)的方法来训练模型,其中x为数据的属性,y为所属类型。(3) predict()预测。利用训练得到的模型对数据集进行预测,返回预测结果。代码:from sklearn.linear_model import Log...

2018-05-23 10:39:17 454

原创 数据挖掘之wordcloud词云

#-*- coding:utf-8 -*-"""优化词云显示指定图片"""import jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,STOPWORDS,ImageColorGeneratorfrom scipy.misc import imread #引入读取图片的库import ...

2018-05-19 11:51:00 326

原创 数据挖掘之关联规则练习

1.关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事,通过对超市购物篮数据进行分析...

2018-05-17 11:10:03 7336

原创 数据挖掘之PCA降维练习

参考文章:https://blog.csdn.net/eastmount/article/details/53285192特征降维是指采用一个低纬度的特征来表示高纬度。特征降维一般有两类方法:特征选择(Feature Selection)和特征提取(Feature Extraction)。 1.特征选择是从高纬度的特征中选择其中的一个子集来作为新的特征。最佳子集是以最...

2018-05-17 09:57:11 1056

原创 数据挖掘之线性回归练习

# -*- coding: utf-8 -*- from sklearn import datasetsfrom sklearn import linear_modelimport matplotlib.pyplot as pltimport numpy as npdiabetes = datasets.load_diabetes()#获取一个特征 diabetes_x...

2018-05-16 15:41:32 2568

原创 数据挖掘之决策树练习

决策树是基于树结构来进行决策,一颗决策树包括一个根结点、若干个内部结点和若干个叶结点。如何进行划分属性?1、最常用的是通过计算信息增益。信息熵是度量样本集合纯度最常用的一种指标。值越小,纯度越高。是不确定性值。信息增益用来选择划分属性,选择最小的那个。如果根节点的信息熵为0.998,则表示不确定性为0.998,当前属性的信息增益为0.109,则表示不确定性减少了0.109。 决策树构建的基本步骤如...

2018-05-15 16:34:52 1348

原创 数据挖掘之K-means聚类练习

参考点击打开链接K-means聚类是一种无监督学习,是将数据集分为若干个不相交的子集,每个子集称为一个“簇”。步骤:1. 设置k值,即希望将数据集分为k个类2. 从数据集中随机选取K个数据点,作为质心3. 对剩余的数据,计算每个数据与k个质心的距离,离哪个最近,该数据就是这个簇的4. 初始分类后,计算每个簇的均值,重新确定每个簇的质心5. 如果新的质心与上一次质心的差别...

2018-05-14 19:19:00 2713 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除