3 翻滚的老鼠屎

尚未进行身份认证

我要认证

零基础学习python,跌跌撞撞龟速前行。后来因为实验室的需要浅尝辄止地接触过C#、R、MATLAB等语言,兜兜转转陡然发现:人生苦短,我爱python! 写这个博客,给所有像我一样在敲代码的世界里道阻且艰然而不抛弃不放弃的朋友们,纵使是“老鼠屎”也不甘一直是“老鼠屎”,愿我们可以相互鼓励,共同进步,在敲代码的世界里走出自己的路!当有一日进阶大神也不忘初心:曾经,我是一颗翻滚的老鼠屎!

等级
TA的排名 5w+

爬猫眼电影排行

转眼开始工作成为社会人,做一份再与代码无缘的工作。终日“无实物表演”的状态下,莫名想念有代码可写的日子。工作之余写下这篇博客,保留最后一点点giser的情怀。这篇写爬猫眼电影排行前100名。1 构造url集 打开猫眼网https://maoyan.com/board/4,可以看到每部电影的排名、名称、主演和上映时间等。 将页面拖到最底部,点第二页、第三页,发现url发生了变化: 可以发现,每一页上面放置着10部电影,若将每一页最后一部电影设为n,则off...

2020-08-26 10:29:20

图注意力模型GAT代码分析(Keras版)

本文分享一个对Keras版GAT源码的分析。GAT原文:https://arxiv.org/abs/1710.10903,建议参考着知乎superbrother大神的文章进行理解。TensorFlow版可以看:https://github.com/PetarV-/GAT源代码 github:https://github.com/danielegrattarola/keras-gat1 u...

2019-10-28 15:56:52

地铁大数据挖掘之数据预处理——从原始一卡通数据提取城市地铁客流(二)

关于初步处理,请参考地铁大数据挖掘之客流数据预处理——从原始一卡通数据提取城市地铁客流(一)。 上一篇博客对数据进行了初步处理,得到结果如下图: ”_10min“字段代表所处的时间片(比如1代表0:00-0:10),inputnums代表进站客流,outputnums代表出站客流。 然而,这一结果在使用时存在两个问题:我们在计算地铁站时,大部...

2019-10-18 15:42:55

地铁大数据挖掘之数据预处理——从原始一卡通数据提取城市地铁客流(一)

这是很久以前写的一段代码,很简单很基础。最近突然用到,这里把它分享出来,希望可以为有需要的朋友提供帮助。 以及欢迎阅读这一系列第二篇:地铁大数据挖掘之客流数据预处理——从原始一卡通数据提取城市地铁客流(二)1 解压文件 这里以上海城市开放大赛提供的数据为样例(提取码zlsy),需要的朋友可以进行下载。把数据进行解压后,看到是一个个压缩文件: 接下来,可以...

2019-10-18 11:09:18

百度2020校招笔试:求最小公倍数与最大公约数之差

题目描述:输入输出描述:示例:题目解析:(一)投机取巧版 感觉题目本意是想让答题者用代码找最小公倍数和最大公约数的。但是根据观察,当a和b取n和(n-1)的时候,lcm(a,b)-gcd(a,b)的差就是最小的(最小公倍数是两者乘积,最大公约数是1)。所以代码如下:n=input()n=int(n)outputresult=n*(n-1)-1pri...

2019-09-25 09:42:26

SQL语句执行顺序

被小哥疯狂输出一晚上,大体讲明白了SQL语句执行顺序。这边总结一下。 NOTE:关于SQL基础知识,可以参考博文SQL零阶入门学习笔记(基础篇);关于SQL的函数应用,可以参考博文SQL函数学习笔记。一、书写顺序SELECT DISTINCT COLUMN_NAME FROM TABLE_NAME1(INNER/LEFT/RIGHT/FULL)JOIN TABLE_N...

2019-06-13 15:57:28

SQL函数学习笔记

SQL 拥有很多可用于计数和计算的内建函数。 NOTE:关于SQL基础知识,可以参考博文SQL零阶入门学习笔记(基础篇);关于SQL语句的执行顺序,可以参考博文SQL语句执行顺序。1 简介1.1 函数的语法内建 SQL 函数的语法是:SELECT function(列) FROM 表1.2 函数的类型 在 SQL 中,基本的函数类型和种类有若干种。...

2019-06-11 16:30:09

SQL零阶入门学习笔记(基础篇)

临时抱佛脚学SQL,在这边做一些整理。部分实例摘抄自W3School.由于是有PYTHON pandas的基础上看SQL,感觉两者胡同的地方是很多的。NOTE:关于SQL的函数应用,可以参考博文SQL函数学习笔记;关于SQL语句的执行顺序,可以参考博文SQL语句执行顺序。1 基本结构 可以把 SQL 分为两个部分:数据操作语言 (DML) 和 数据定义语言 (DDL)。...

2019-06-10 16:02:45

如何建立Multi-Step(多步预测)的LSTM时间序列模型(以对家庭用电预测为例)

译自How to Develop LSTM Models for Multi-Step Time Series Forecasting of Household Power Consumption~ 随着智能电表的兴起和太阳能电池板等发电技术的广泛应用,有大量可用的用电数据。这些数据代表了一系列与电力相关的多元时间序列,进而可以用来建模甚至预测未来的用电量。 与其他机器...

2019-05-29 17:11:22

Attention如何在Encoder-Decoder循环神经网络中见效(原理篇)

转眼间来到了二年级下学期,马上就要面临找工作的巨大压力。起风了,唯有努力生存~愿努力可以有所成效。 这一篇想要讲一讲Attention机制。文章框架主要翻译自How Does Attention Work in Encoder-Decoder Recurrent Neural Networks,也参考了一些笔者觉得比较不错的博客。 Attention(注意力机制)是为了提...

2019-03-26 15:52:37

如何理解Keras中的TimeDistributed层并在LSTM中使用

老规矩,主要框架译自How to Use the TimeDistributed Layer for Long Short-Term Memory Networks in Python~,中间加了一点点自己的理解。 长短时记忆网络(LSTMs)是一种流行且功能强大的循环神经网络(RNN)。它们很难配置和应用于任意序列预测问题,即使使用定义良好且“易于使用”的接口(如Python中...

2019-03-21 17:00:06

如何利用Keras在深度神经网络中进行堆栈集成(Stacking Ensemble)

译自Machine Learning Mastery~ 模型平均是一种集成技术,其中多个子模型对组合预测的贡献相等。 利用子模型的预期性能,加权各子模型对组合预测的贡献,可以改善模型平均。通过培训一个全新的模型来学习如何最好地组合来自每个子模型的贡献,可以进一步扩展这一点。这种方法被称为Stacked Generalization(堆栈泛化),或简称Stacking,可...

2019-01-18 21:24:23

修正的线性激活函数(Relu)如何避免梯度消失

2019年的第一篇博客。主要译自Machine Learning Mastery,加上了一点点自己的想法。如有问题,欢迎批评指正~ 消失梯度问题是在训练深度神经网络时可能遇到的不稳定问题之一。它描述了深度多层前馈网络或循环神经网络无法将有用的梯度信息从模型的输出端传播回模型输入端附近的层的情况。其结果是,具有许多层的模型通常无法在给定的数据集上学习或过早地收敛到较差的解决方案。...

2019-01-15 16:27:12

Keras实战:基于LSTM的股价预测方法

Hi,这里是一只殚精竭虑的老鼠屎。最近在处理公交数据,模型效果非常不理想。过程中学习了师兄留下的lstm做的金融数据预测,使用的是keras框架,这里整理一下。这篇博客里面交代了包括数据的处理、模型搭建、模型调参、模型评估等重要环节,十分适合新手入门。师兄留下的jupyter notebook出处不详。目录1 准备工作1.1 引入相关库1.2 引入参数2 构建模型...

2018-11-17 10:32:59

使用folium对地理信息可视化

    Hi,我是老鼠屎。最近在做地理信息可视化进度基本为龟速。但是探索的过程中发现了folium神器,在这里进行一些整理。    Folium可以让你用Python强大生态系统来处理数据,然后用Leaflet地图来展示。Folium内置一些来自OpenStreetMap、MapQuest Open、MapQuest Open Aerial、Mapbox和Stamen的地图元件(tilese...

2018-11-03 12:51:03

Python爬虫--爬取历史天气数据

写在前面:爬虫是老鼠屎在进入实验室后接触的第一个任务,当时刚刚接触代码的老鼠屎一下子迎来了地狱难度的爬微博签到数据。爬了一个多月毫无成果,所幸带我的师兄从未给我疾言厉色,他给与了我最大的包容与理解。尽管无功而返,但是那一个月也给了老鼠屎充足的学习时间,让老鼠屎对爬虫有了一点点的理解和执念。今天老鼠屎由于项目原因又需要爬天气数据,所以在这里把老鼠屎的一点经验写在这里,希望能给向曾经的我一样迷...

2018-11-02 16:08:06

pandas保存csv乱码问题解决方案

    老鼠屎使用pandas处理数据时,在to_csv时出现了小插曲。老鼠屎的数据格式如下:    然而保存至csv后出现严重乱码    这里,老鼠屎提供一下解决方案,在to_csv时,我们加上encoding="utf_8_sig"即可。即:df.to_csv("xxx.csv",encoding="utf_8_sig")     来看一下效果把...

2018-10-17 20:22:15

老鼠屎地理信息可视化第三弹:Plotly+Pyecharts绘制地理坐标系线图

    由于最近老鼠屎做的东西和地图上的线型图相关,因此在这里做一点简单总结。很多地方都调试得很不理想,希望成功的地方可以给大家带来一点点启发,不理想的地方也欢迎大神们赐教。1 Plotly1.1 地图上绘制线    有关pyplot的相关在老鼠屎的博文使用plotly神器绘制地图(Python版--demo虽易,操作不易,且学且珍惜)中有过简要介绍,这里老鼠屎根据自己的需要写了一个小...

2018-10-17 19:16:11

GBDT(MART) 迭代决策树入门教程 | 简介

    声明:这篇博客转自https://www.cnblogs.com/peizhe123/p/5086128.html和https://blog.csdn.net/w28971023/article/details/8240756。最近在看集成学习相关知识,小白对于公式较难理解,这里转载一下这篇博文,感觉比较好理解,希望可以帮助到需要的朋友们。  GBDT(Gradient Boos...

2018-10-09 21:11:18

决策树原理及实战代码

目录1 定义2 基本流程3 划分选择 3.1 信息增益(ID3)​3.2 增益率(C4.5)3.3 基尼系数(CART)4 剪枝处理4.1 预剪枝4.2 后剪枝5 多变量决策树6 决策树优缺点6.1 优点6.2 缺点7 代码实践1 定义    决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率...

2018-10-06 22:05:09

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。