自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Emily

流泪撒种的,必欢呼收割~

  • 博客(37)
  • 收藏
  • 关注

原创 SQL syntax:...MySQL server version for the right syntax to use near 'rank CHAR(1))'

SQL版本:MYSQL 8.0.11;Mac OS错误语句:CREATE TABLE grade(low TINYINT,upp TINYINT,rank CHAR(1));错误提示:You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version...

2018-08-08 17:37:19 7610

原创 SQL的on及where对join过程的影响分析

Outlinejoin各类型on与where对join的过程影响总结join各类型首先,对于join的各种类型的区别,不仅是各大面试中最常见的问题,也是在实际问题场景中使用频率很高的子句。我觉得无需多言,看两张图就足够了:1、笛卡尔积(cross join,其实叫交叉积更便于自己理解) 假设集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, ...

2018-08-07 16:38:21 583

原创 用户运营之push和短信

写在前面:运营是连接用户和产品的桥梁。用自己的话讲,运营的目的就是为了更多的人能持久地用自己的产品。而转化为行话就是我们需要推广拉新、活动促销、提高用户留存、提高用户活跃率、提高用户粘性、流失用户召回等等。而运营的手段也不外乎push、短信、闪屏、弹窗、播报等。今天正好看到几篇关于短信和push的好文章,趁热想从这几篇文章来梳理一下自己的感悟和总结~ 1、你真的了解push么? 2、没推送...

2018-08-06 17:26:45 4432

原创 pandas读取中文文件的UnicodeDecodeError编码问题汇总

Outline批量处理文件获取文件编码不能decode bytes …python的异常处理read_csv中的error_bad_line参数小感批量处理文件为了批量处理文件,当然是想办法获取文件名,通过文件名形成文件路径从而批处理文件。 我以前绕过大弯,根据文件的命名规律,尤其是其中的数字递增规律来创建路径,自从发现os库里的listdir函数才知道自己有多蠢!...

2018-08-02 16:57:03 20634

原创 OSError: Initializing from file failed

问题场景: 在用pandas的read_csv函数直接读取批量的包含中文名的CSV文件时,发生如下错误: 问题原因: 1、文件名包含中文名; 2、传入参数是文件路径而非文件名解决方案: 解决方案有两种: 1、在read_csv之前先用open函数f = open('人效日报-20180701.csv')data = pd.read_csv(f,skiprows=1,hea...

2018-08-02 15:56:09 11055 3

原创 SQL暑期进阶计划_4

今天是SQL第八天,专注于SQL的操作语言,主要是对数据库中数据的操作。OutlineinsertupdatedeleteNULL 零与空格的区别insertinsert是往数据库中插入数据如果要插入的数据量较小,记住insert values语句 例:insert into table_name(col1,col2,col3) values (a,b,1);...

2018-07-30 18:35:56 166

原创 SQL暑期进阶计划_3

今天是SQL第六、七天的内容,主要涉及到SQL中的高级查询部分:Outline多表查询子查询多表查询多表查询也叫表联合查询,主要分为内连接和外连接。进一步又可以分为: 1. inner join A inner join B 返回的是满足连接条件的A和B的记录 2. left join A left join B 返回的是A的所有记录以及B中满足连接条件的记录...

2018-07-30 17:19:32 153

原创 Excel技巧大杂烩

写在前面:看了秦璐老师的知乎专栏,很喜欢秦璐老师的分享和总结,对于我的启发是有必要把自己在实际中常用同时觉得给自己带来很大便利的操作记录总结下来,总结的过程也是提高的过程!数据准备: 秦璐老师的分享,密码:jqm8Outline快捷键数据透视表条件定位之查找公式错误冻结窗口持续更新…快捷键对于快捷键的使用,我确实体会到了它的便利性,尤其数据量越来越多的时候...

2018-07-25 17:40:07 706

原创 python运用DBSCAN算法对坐标点进行离群点检测&dataframe的append问题

问题描述(关于dataframe的append问题,直接拖至文后)我们有n多单车,每个单车一段时间(差不多一个星期)规律返回的经纬度位置数据,类似于下图,但是有个问题是单车的这些经纬度数据的准确性只有70%左右,不准确的经纬度会出现偏差,我们要做的就是去掉那些噪音比较大的坐标点,筛选出正确位置从而进行之后的操作。 解决方案DBSCAN算法简介操作源码小收获&小总...

2018-07-23 18:03:18 9833 6

原创 SQL暑期进阶计划_2

今天继续SQL第五天:SQL中的子句OUTLINEwherestarting withorder bygroup byhaving附加:where和having的区别where1、where使我们返回的数据更具有选择性2、where是使用频率仅次于select 和 from的语句starting with1、starting with类似于 like子...

2018-07-20 17:38:17 159

原创 SQL暑期进阶计划_1

今天完成《SQL21日自学通》的前四天的内容。OUTLINESQL概述select表达式、条件语句、运算函数:对数据的进一步处理SQL概述SQL:structured query language 结构化查询语言 它是连接我们和数据库的一个纽带,通过命令行的方式与数据库进行会话select1、 两个特性: - ① 对大小写不敏感,但是涉及具体数据时要注...

2018-07-18 16:42:42 166

原创 SQL暑期进阶计划_0

写在前面:最近借着实习的机会接触了数据部门大牛的主页,他们主页上分享了很多学习资源,而且还有很多实操的案例,借着这样的机会,正好巩固一下SQL基础,在实际场景中不断提高自己的SQL能力。OUTLINE前期学习资料总结本次进阶计划两点希望前期学习资料总结之前没接触过SQL的小白,可以先从这两个网站看看,跟着过一遍~ w3school: http://www.w3s...

2018-07-18 16:10:49 216

原创 关于SQL语句中要不要加单引号的问题

前言:今天上午犯了一个超级超级蠢的错误,把population写成polulation而不自知,多次提醒我找不到polulation列,这是其一;其二是我在未得知我写错的时候,我以为是字段名没有加单引号的问题,加了单引号之后结果变成: 所以,对于SQL我有了一些新的认识: 1、不能手快!不能手快!不能手快! 好好记单词!好好记单词!好好记单词!2、对于单引号的问题,不能仅仅用其他编程...

2018-07-17 12:25:40 22242 1

原创 pandas将日期转换成timestamp

OUTLINE常见的时间字符串与timestamp之间的转换日期与timestamp之间的转换常见的时间字符串与timestamp之间的转换这里说的字符串不是一般意义上的字符串,是指在读取日期类型的数据时,如果还没有及时解析字符串,它就还不是日期类型,那么此时的字符串该怎么与时间戳之间进行转换呢?① 时间字符串转化成时间戳 将时间字符串转化成时间戳分为两步: 第一步:...

2018-06-14 14:29:59 41752 7

原创 pandas去除重复列

OUTLINE数据准备问题描述解决方案数据准备假设我们目前有两个数据表: ① 一个数据表是关于三个人他们的id以及其他的几列属性信息import pandas as pdimport numpy as npdata = pd.DataFrame(np.random.randint(low=1,high=20,size=(3,4)))data['id'] = ra...

2018-06-13 11:17:37 27695 1

原创 diff函数

OUTLINE问题场景解决方案问题场景假设我有一份操作日志数据,其中一个特征是操作app的时间,时间结构譬如“2018-03-13 23:26:19”,我想知道上一次操作跟下一次操作的间隔时间是多少? 解决方案关于某列或者某行数据的差分自然要想到python中的diff函数,无论是在pandas中还是在numpy里面都可以直接调用。在numpy中: 调用方...

2018-06-11 16:15:41 44893 3

原创 python中的filter、map、reduce、apply用法总结

这几个函数在平时使用时不能立即想起来,而且它们之间区别不清,借该文做个总结。OUTLINEfiltermapreduceapply 总结filter功能: filter的功能是过滤掉序列中不符合函数条件的元素,当序列中要删减的元素可以用某些函数描述时,就应该想起filter函数。 调用: filter(function,sequence),function可以是匿名函...

2018-06-09 16:19:42 19106 4

原创 交叉验证——对数据集的划分

写在前面:为什么划分数据集? 以我们的比赛为例,赛方提供有标签的训练数据和无标签的测试数据,要求我们提交测试数据的预测标签值,如果我们不划分数据集,直接用所有的数据进行训练,最后直接对无标签的测试数据预测,我们很难预测我们模型的好坏。以我的理解来看,对于数据集划分形成的验证集,相当于是平时学习中的小考,而测试数据可以看成是期末考或者高考,我们想通过数据集的划分,在验证集上达到评估我们学习能...

2018-06-07 20:19:36 14028 1

转载 主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]

(本文为转载)摘要最近打各种比赛,在这里分享一些General Model,稍微改改就能用的环境: python 3.5.2XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API: http://xgboost.readthedocs.io/en/latest...

2018-06-07 10:24:02 1619

原创 python爬虫资料汇总

1、崔应才老师的博客 里面包含四个系列:爬虫入门、爬虫实战、爬虫利器和爬虫进阶。 最棒的是里面对各个爬虫相关的库做了详细的介绍。2、天善学院崔老师的课程:爬虫三大案例实战 里面包含三个案例: 分析Ajax抓取今日头条街拍美图 Requests+正则表达式抓取猫眼电影TOP100 Selenium+Chrome/PhantomJS抓取淘宝美食3、麻瓜编程爬虫相关视频和作业,网盘密...

2018-06-07 09:59:47 836

原创 MySQL said: Authentication plugin 'caching_sha2_password' cannot be loaded...

OUTLINE问题描述解决方案问题描述在mac下,用sequel pro连接数据库,出现以下问题: MySQL said: Authentication plugin ‘caching_sha2_password’ cannot be loaded: dlopen(/usr/local/lib/plugin/caching_sha2_password.so, 2):...

2018-06-06 15:57:57 2840

原创 Python中的groupby分组

写在前面:之前我对于groupby一直都小看了,而且感觉理解得不彻底,虽然在另外一篇文章中也提到groupby的用法,但是这篇文章想着重地分析一下,并能从自己的角度分析一下groupby这个好东西~OUTLINE根据表本身的某一列或多列内容进行分组聚合通过字典或者Series进行分组根据表本身的某一列或多列内容进行分组聚合这个是groupby的最常见操作,根据...

2018-06-05 21:02:03 116966 11

原创 Python中随机数的生成

在Python中可以用于随机数生成的有两种主要途径,一是random模块,另一个是numpy库中random函数。OUTLINErandom模块numpy中的random函数总结random模块random模块中将近有7个函数都是可以用来生成随机数的:① random.random() 功能:随机生成一个 [0,1) 的浮点数 用法:import rando...

2018-06-05 16:50:42 124284 9

原创 Vlookup

写在前面:接着上一篇的数据透视表的内容,这篇着眼于Excel的Vlookup函数。OUTLINE什么是VlookupVlookup怎么用适用场景什么是VlookupVlookup从它的功能上来看,就是为了查找表格中的内容;从它的使用上来看,本质上是一个函数,只要传入相应的参数,便可根据条件获取表格指定的内容。因此,可以把它当做了解python中的函数一样来学习。...

2018-06-04 21:48:02 2028

原创 CSDN中上传GIF图片

环境:mac系统 软件:licecap(一个非常好用的mac录屏软件) 网盘密码:9lth 效果:

2018-06-04 16:33:24 1273 2

原创 数据透视表

写在前面:最近给自己立下一个任务:掌握Excel中的数据透视表、Vlookup,如果还有余力可以再掌握其VBA基础。而因为已经具备编程基础,所以我认为学习VBA应该也不是什么难事,前两种的话,希望可以达到在简历上写“熟练使用Excel中的数据透视表、Vlookup和VBA”而一点都不心虚,把能力扎扎实实长在自己身上!OUTLINE数据透视表对数据源的要求数据透视表的四大区域数...

2018-05-30 19:46:36 2072

原创 pandas如何将相同ID的字符串进行合并

写在前面:说来真的很巧,先是有个人在一个qq比赛群里扔了这个问题,我觉得很有意思,然后自己尝试了下,就将自己写的一段代码发给了他。事后,在一个微信公众号的推文里,看到这篇文章数据城堡参赛代码实战篇(三)—我们来探究一个深奥的问题!里面给了一些大神对同样问题的解法,瞬间觉得自己很菜鸡,把大神的和自己做个对比,提醒自己对于pandas的使用不能仅仅停留于表面,还有更多优化简洁的处理方式需要学习!...

2018-05-24 15:47:34 29582 11

原创 python的去重以及数据合并的用法

OUTLINE:drop_dupicatesmergedrop_dupicates参数含义: subset:即表示要去重指定参考的列 keep : {‘first’, ‘last’, False}, default ‘first’ inplace:boolean, default False, 直接在原来的数据上修改还是保留副本data = pd.DataFram...

2018-05-24 10:00:59 7923

原创 pandas的groupby以及pivot_table用法——以计算恩格尔系数为例

数据:来源于Datacastle上的大学生资助预测竞赛中的数据,点此百度网盘获取,密码为cdtb。 注:只用到竞赛中的一卡通数据数据描述: 一共有一万多条数据,800多兆,共七个字段,分别是: 【学生ID,消费类别,消费地点,消费方式,消费时间,消费金额,剩余金额】 Task: 根据该数据,得到如下格式: solution1: groupby() data = pd.r...

2018-05-23 17:51:18 2695

原创 Pandas两种主要的数据结构

OUTLINESeriespandaspandas中的数据结构主要包括两种,一种是Series,一种是dataframe。 SeriesSeries表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。① 创建Seriesimport pandas as pdseries_obj = pd.Series(['a'...

2018-05-23 16:53:43 8348

原创 今日头条数据分析师分享有感

写在前面:这篇文章是听了Bittiger邀请今日头条的数据分析师潘老师做的一个分享之后,与自己的思考一起形成的总结,在她的分享中主要讲了SQL的基本语法,在后面的答疑环节提到一些数据分析师相关的日常工作内容。据此,本文的outline主要分为以下几个部分:今日头条的数据分析师日常工作主要是哪些?SQL在日常工作的使用场景有哪些?日常工作对于SQL的要求是什么样的?如何有效地学习SQ...

2018-05-21 18:07:49 11687

原创 Excel中倒排数据

OUTLINE:问题解决方案问题:“倒排”不同于“倒序”,倒序是将一列数按照数值大小进行升序或者降序排列,而倒排是指给一列数据翻个个,前后数据的顺序进行颠倒。解决方案:利用Excel中的“添加辅助列+自定义排序+对辅助列进行降序或者升序”从而达到对数据块进行倒排的作用。举个例子:我想对下图中的一列数据进行倒排 ① 在该列旁边添加一列辅助列: ② 选中数...

2018-05-21 17:07:57 4216

原创 用Python实现一个微信机器人

OUTLINE:所需环境实现代码 所需环境 Python 3.5.3,pycharm professional版,预安装”wxpy”包方法一:电脑终端中 pip3 install wxpy方法二:在file –> default setting –> 如下界面中的“+”号 –> 搜索“wxpy”进行安装: 实现代码 其实,它的流程很简单: ...

2018-05-20 22:29:18 1426

原创 Excel-VBA

写在前面:如果具备一定的编程能力,再看Excel的VBA,我觉得是非常容易理解和上手的,而且,如果在面试的简历中写到“能熟练运用Excel的VBA”,也是自己区别于别人的一个优势。对于VBA,需要了解以下几个方面:了解VBA代码的总体结构、形式、变量类型了解如何定位表格中的sheet以及cell,如何给其value赋值了解如何使用循环、判断等语句,对表格做一些处理了解对象、...

2018-05-19 20:32:48 344

原创 "module 'pip' has no attribute 'main'"&"name pip is not defined"

起因: 之前安装了pymongo用来存储爬取的数据,后来想尝试用Python操作MySQL,于是需要安装pymysql的包,结果总是提示我的pip版本问题,我就索性更新了pip。结果,pip更新之后,接下来所有的包的安装都提示标题中的错误:AttributeError: module ‘pip’ has no attribute ‘main’,以下是解决方案:环境: Mac os系统/pyth...

2018-05-18 22:34:49 3047

原创 "wordcloud2"

OUTLINE:相关的可以生成词云的途径wordcloud2相关的可以生成词云的途径wordle 介绍:从文本生成词云图 网址:http://www.wordle.net 优点:及时调用 缺点:电脑需已安装Java;对中文不友好 成图: wordart 网址:https://wordart.com 优点:调用非常方便,模板丰富 缺点:词的输入比较麻烦 ...

2018-05-15 14:59:48 2740 4

原创 Mac中R的更新

Mac中R的更新环境:Mac os系统 已安装R的版本:R3.4.1 需求:本想安装wordcloud2包,结果该包只支持3.4.3之后的版本,故想升级R常见的更新R的办法我所遇到的问题及解决方案常见的更新R的办法前提:你已安装的R是3.4.3之后的版本,否则会报错windows用户 install.packages(“installr”) requir...

2018-05-15 11:03:13 15014 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除