6 王大鱼

尚未进行身份认证

我要认证

文章均首发在知乎专栏「数据池塘」:https://zhuanlan.zhihu.com/datapool,欢迎关注!

等级
TA的排名 6w+

百度指数的爬虫方法及代码

​最近几年经常在各平台看到有关「搜索指数动态排行」的视频,比如「青春有你2」决赛前一周,我在B站上传了一段「青你2」和「创造营2020」的人气选手指数动态榜的视频,后台看到的视频播放量、弹幕数、评论数等数据如下:居然被播放了近 4w 次,评论里有问视频怎么做的,也有质疑数据来源的,这篇文章先讲一下数据是怎么来的。全部数据都来自百度搜索指数,就是这个玩意儿:网上关于百度指数的爬取方案有很多种,测试下来最方便快捷的是通过 Cookies 登录后爬取,这个场景不太...

2020-06-03 15:12:56

Flask+Axios+jQuery构建前后端通信的小例子

比较暴力但好理解的方法,下面详细说一下。工具准备Flaskpip install flaskAxioshttps://cdnjs.cloudflare.com/ajax/libs/axios/0.19.2/axios.min.js数据下面的例子用动物森友会中鱼类的价格、活动季节、图片等数据作为测试数据,通过关键词进行查询并做前端展示,数据来源:https://raw.githubusercontent.com/chendaniely/animal_crossin.

2020-05-10 13:00:19

AttributeError: 'Request' object has no attribute 'is_xhr' 报错的解决办法

在用 Flask+VUE 做前后端分离的数据可视化项目时,遇到了这个报错:AttributeError: 'Request' object has no attribute 'is_xhr'是 Werkzeug 的版本问题,只需在命令行执行: pip install Werkzeug==0.16.1 ⬇️ 扫描下方二维码关注公众号【数据池塘】 ⬇️回复【算法】,获取最全面的...

2020-04-22 09:58:39

韩国新冠病例突破7000人,韩疾控中心公开数据解析

新冠肺炎在韩国一触即发,虽有不良组织屡屡做出违反抗疫秩序的事,但韩国官方始终很尽责,做出的决策都很关键果决,没有上演电影《流感》的剧情。前几日,韩国疾病预防控制中心(KCDC)在官网(http://www.cdc.go.kr)公开了全部确诊病例的相关信息,目前在 Github 和 Kaggle 上都同步了这些数据,都有人在维护和更新。最近在 Kaggle 的公开数据集中始终保持前三的热度。...

2020-03-08 11:39:45

异常检测算法分类及经典模型概览

最近工作涉及有关异常检测的内容,而且前几天在公司做了一次有关异常检测算法和应用场景的分享,在此总结记录一下。​什么是异常检测?异常检测(Anomaly Detection 或 Outlier Detection)指的是通过数据挖掘手段识别数据中的“异常点”,常见的应用场景包括:金融领域:从金融数据中识别”欺诈案例“,如识别信用卡申请欺诈、虚假信贷等;网络安全:从流量数据中找出”入...

2020-02-23 13:12:09

数据工作者的福音:Google 发布正式版数据搜索工具啦!

作为数据工程师,平时在工作中一定少不了到处搜找测试数据,常用的网站包括:Kaggle、Freebase、Data.gov等等,有时候要挨个网站搜索关键字和主题,然后下载了又发现数据集可能并不适用,非常浪费时间。好消息是,上个月 Google 推出了正式版的数据搜索工具 ——Dataset Search:覆盖了 2500w 个公开数据集,而且用户可以使用过滤器进行搜索条件限定,筛选是...

2020-02-05 23:17:02

用 Python 写一个 Kaggle 比赛排行榜的爬虫

长久以来,我和小伙伴们都被 Kaggle 网站的加载速度困扰着,比如最近在用 Kaggle 上的数据集测试模型效果时,遇到排行榜(Leaderboard)刷新困难的问题。于是我们开始探索解决方案。首先尝试直接使用页面链接进行数据爬取,很明显爬不到,因为 Kaggle 的数据是异步响应的。于是我打开 Leaderboard 页面的开发者工具,以著名的Titanic 竞赛的排行榜为例,打开 Ne...

2019-11-23 20:20:24

macOS 上使用 lightgbm 遇到的坑及解决方法

lightgbm 包安装成功,但使用时遇到以下错误:OSError: dlopen(/Users/Cyan/anaconda3/lib/python3.7/site-packages/lightgbm/lib_lightgbm.so, 6): Library not loaded: /usr/local/opt/libomp/lib/libomp.dylib Referenced from...

2019-08-27 16:45:22

孤立森林(Isolation Forest)算法剖析

之后会持续更新算法剖析系列,力图用最生动的例子演示每一个算法的原理,不稀里糊涂做一个调包侠。欢迎持续关注,指正不足。孤立森林(IsolationForest)算法是西瓜书作者周志华老师的团队研究开发的算法,一般用于结构化数据的异常检测。异常的定义针对于不同类型的异常,要用不同的算法来进行检测,而孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林的前提是,将异常点定义...

2019-07-25 23:28:52

用 dash_bootstrap_components 为 dash 生成美观的导航栏

先安装 pip 包:pip install dash-bootstrap-components把 bootstrap 的 sheetstyle 加入你的 app 中:app = dash.Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])生成 navbar:import dash_bootstrap_co...

2019-07-17 10:00:27

Python Plotly Dash 画多折线图

import plotly.plotly as pyimport plotly.graph_objs as go# Create random data with numpyimport numpy as npN = 500random_x = np.linspace(0, 1, N)random_y = np.random.randn(N)# Create a trace...

2019-07-07 17:39:26

Plotly Dash 画多个子图

import plotly.plotly as pyimport plotly.graph_objs as gotrace1 = go.Scatter( x=[1, 2, 3], y=[4, 5, 6])trace2 = go.Scatter( x=[20, 30, 40], y=[50, 60, 70], xaxis='x2', yax...

2019-07-05 09:39:47

ImportError: cannot import name 'Graph' from 'pyecharts' 解决办法

最近pyecharts包的结构进行了调整,Graph模块已经不在根目录导致ImportError,引入语句改成如下即可:frompyecharts.charts.basic_charts.graphimportGraph欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习、数据挖掘相关内容:https://zhuanlan.zhihu.com/datapool...

2019-06-21 15:05:27

【数据池塘】

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习、数据挖掘相关内容:https://zhuanlan.zhihu.com/datapool⬇️ 扫描下方二维码关注公众号【数据池塘】 ⬇️回复【算法】,获取最全面的机器学习算法网络图:...

2018-11-30 22:29:07

我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?

《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。”但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行就出现 Fail 提示,可以看看,是不是少了下面哪项准备工作?指定队列set mapred.job.queue.name=queue01; //自己指定一个队列在 H...

2018-11-30 22:26:54

Java面试常问基础知识(持续更新)

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习,数据挖掘相关内容:HTTPS://zhuanlan.zhihu.com/datapool本文中的知识都是我自己或同学在面试过程中常被问到的,在此整理记录一下比较好的答案。1,简述JVM的内存模式。JVM内存空间包含:方法区,爪哇的堆,爪哇的栈,本地方法栈,程序计数器。区方法的英文各个线程共享的内存区域,用于它存储已被虚拟机加载的...

2018-08-04 20:27:58

用 Python 检验数据正态分布的几种方法

什么是正态分布关于什么是正态分布,早在中学时老师就讲过了。通俗来讲,就是当我们把数据绘制成频率直方图,所构成曲线的波峰位于中间,两边对称,并且随着往两侧延伸逐渐呈下降趋势,这样的曲线就可以说是符合数学上的正态分布。由于任何特征的频率总和都为100%或1,所以该曲线和横轴之间部分的面积也为100%或1,这是正态分布的几何意义。如下图,是数据统计实例中出现的正态分布性数据:为什么要做正...

2018-07-27 14:02:14

训练及优化神经网络基本流程之第0到6步

在之前的笔记中,我记录过《神经网络的代价函数及反向传播算法》,以及使用BP算法(反向传播算法)的一点细节。这篇笔记想简短地总结记录一下训练并优化神经网络的几个步骤:第零步:之所以写了个第零步,是想记录一下如何搭建神经网络,毕竟要先有网络才能谈后续的训练和优化。关于构建问题之前也有过记录:《神经网络的模型构建》。输入层的单元个数取决于特征个数,也就是;输出层的单元个数取决于训练集中结果的...

2018-07-19 20:19:17

【LintCode】算法题 1443. 最长AB子串

描述给你一个只由字母'A'和'B'组成的字符串s,找一个最长的子串,要求这个子串里面'A'和'B'的数目相等,输出该子串的长度。这个子串可以为空。 s的长度n满足2<=n<=1000000。样例给定s="ABAAABBBA",返回8。解释:子串 s[0,7] 和子串 s[1,8] 满足条件,长度为 8。给定s="AAA...

2018-06-21 19:41:10

基于 XGBoost 对 Santander 银行用户购买行为进行预测

Santander Product Recommendation是我去年做的一个数据挖掘project,简单来说就是,给了一定量的数据,用合适的算法对这些数据进行建模分析,给出预测,从而挖掘出有价值的信息。这也是目前互联网金融公司重点关注的工作内容之一,由于最近在准备面试,回顾之前做过的项目,想重点总结一下这个项目。项目简介Santander 银行成立于西班牙,也称作西班牙国际银行,是...

2018-06-11 12:08:31

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。