u013524655-CSDN博客

原创 Matplotlib从入门到精通

Matplotlib是基于Python语言的开源项目，旨在为Python提供一个数据绘图包。它提供了一整套和 matlab 相似的命令 API，十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件，嵌入 GUI 应用程序中。可以说是现在python数据分析中，用的人最多的图形库了。某网站对于python可视化库的排名 Matplotlib 采用面向对象的技术，所以图表的各个元素都是对象。但由于调用对象的接口进行绘图比较繁琐，所以Matplotlib 还拥有快速绘图的pyplo...

2020-08-01 17:28:28 482

原创 JupyterLab最全详解，如果你还在使用Notebook，那你就out了！

Jupyter源于Ipython Notebook，是使用Python（也有R、Julia、Node等其他语言的内核）进行代码演示、数据分析、可视化、教学的很好的工具，对Python的愈加流行和在AI领域的领导地位有很大的推动作用。 Jupyter Lab是Jupyter的一个拓展，它提供了更好的用户体验，例如可以同时在一个浏览器页面打开编辑多个Notebook，Ipython console和terminal终端，并且支持预览和编辑更多种类的文件，如代码文件，Markdown文档，j...

2020-07-03 18:09:57 23394 3

原创 Python日期时间操作库quickdate，操作更快捷

快捷处理日期的Python库，支持从字符串解析日期，灵活实现加减日、周、月、年、时、分、秒的时间操作

2023-08-21 21:49:11 203

原创这样的开源方式，你喜欢吗？

今天要来说一说一本书，《Python预测之美 : 数据分析与算法实战》。没错，就是这本，或者你可以叫它 “熊猫书”。这是一本讲预测的书，对，科学预测，正儿八经，不是玄学预测。这是一本讲数据分析的书，相关分析、关联、聚类等这些基础算法都知道一些吧，没错，书里都有，还有讲解因果分析原理和实战的案例，只讲理论，不拿code来折腾的书都在耍流氓。这是一本讲算法的书，虽然现在借助于数据+算力，算法日新月异，不断推陈出新，但是基本原...

2021-05-11 13:26:07 517 2

原创什么是用户画像？

用户画像可以简单理解成是海量数据的标签，根据用户的目标、行为和观点的差异，将他们区分为不同的类型，然后每种类型中抽取出典型特征，赋予名字、照片、一些人口统计学要素、场景等描述，形成了一个人物原型(personas)。A user profile is a visual display of personal data associated with a specific user, or a customized desktop environment.用户画像就是与该用户相关联的数据的可视化展

2020-10-11 20:36:23 2135

原创数据分析案例：预测乳腺癌是否复发

医院有78条乳腺癌病人的数据，这些病人经过治疗，其中34位5年内病情复发，另外44位5年内未见复发，现需要对19位经过治疗的病人，分析其在5年内是否会复发，并评估模型的准确性及可行性。数据说明训练数据包含78位乳腺癌病人样本，他们中的34位5年内病情复发（标记为relapse)，另外的44位至少在5年内未复发（标记为non-relapse）。相应地，这里有12位复发，7位未复发的病人样本在测试集中。使用到的基因数量为24481。LDA降维由于维度太多，直接参与计算，...

2020-07-18 19:48:55 881

原创数据分析案例：商场客户分群

假如你拥有一个超市购物中心，并通过会员卡拥有客户的一些基本数据，例如客户ID，年龄，性别，年收入和消费得分。消费得分是您根据定义的参数（例如客户行为和购买数据）分配给客户的属性。该数据包含有关客户的基本信息（ID，年龄，性别，收入，支出得分）。具体数据列如下：顾客ID：分配给客户的唯一ID 性别：客户性别年龄：客户年龄年度收入（k $）：客户的年收入消费得分：（1-100）商场根据顾客行为和消费性质分配的分数 ...

2020-07-18 19:45:22 2298

原创使用Scrapy，帮你快速抓取网页数据(代码可下载)！

Scrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网站数据、提取结构性数据以及各种图片，非常方便。Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。尽管Scrapy原本是设计用来屏幕抓取（更精确的说，是网络抓取），但它也可以用来访问API来提取数据。如何安装？打开网站：https://www.lfd.uci.edu/~gohlke/pythonlibs/在这...

2020-07-18 19:41:57 1815

原创《Python预测之美》送书活动，中奖名单公示

首先，感谢参加新书《Python预测之美》送书活动的朋友。本次活动从7月9日开始，历时5天，于今天早上8点5分准时开奖。共有5名幸运嘉宾中奖。名单如下：解释权归 “ 活动抽奖 ” 微信小程序请中奖的朋友，及时填写收货地址，新书将于本周内寄到你手上。另外，本公众号，将陆续推文对《Python预测之美》的内容进行深度剖析，各位对这本书的任何疑问均可在公众号留言，作者会及时处理。我们后面还会不定期举办送书活动，欢迎关注！...

2020-07-14 09:08:50 354 1

原创《Python预测之美》送书活动，拿走不谢～

这是一本什么样的书？ -以Python语言为基础，配合原理、方法、案例进行讲解 - 专注预测专题，体系化介绍预测技术工程实施的必备技能 - 深度剖析预测原理，细致解读数据分析算法这本书长啥样？ Panda-熊猫Pandas是Python中一个重要的分析库，我们用它来完成数据科学的一些任务。本书主要内容 Python是一种面向对象的脚本语言，其代码简洁优美，类库丰富，开发效率也很高，因此，得到越来越多开发者的喜爱，广泛应用于Web开发、网络编程、爬虫开...

2020-07-10 13:17:28 2221

原创基于Python实现相关分析案例

节选自《Python预测之美：数据分析与算法实战》。相关关系是一种非确定的关系，就好像身高与体重的关系一样，它们之间不能用一个固定的函数关系来表示。而相关分析就是研究这种随机变量间相关关系的统计方法。此处，主要探讨不同特征对研究对象的相关性影响。常见进行相关分析的方法，主要有散点图和相关图。1.散点图散点图就是数据点在直角坐标系上的分布图，通常分为散点图矩阵和三维散点图。其中散点矩阵是由变量两两组合由数据点分布图构成的矩阵，而三维散点图就是从所有变量中选择三个变量进行绘制，进一...

2020-07-09 22:06:35 2205 1

原创新出版书籍《Python预测之美：数据分析与算法实战》，送书活动！参与即可机会，获得一本实体书，中奖后可填写地址寄送。

2020-07-09 10:49:13 1228 1

原创入门Python，看这一篇就够了，史上最全的Python基础语法知识清单！

Python崇尚优美、清晰、简单，是一个优秀并广泛使用的脚本语言。Python可以应用于众多领域，如：数据分析、组件集成、网络服务、图像处理、数值计算和科学计算等众多领域。目前业内几乎所有大中型互联网企业都在使用Python，如：Youtube、Dropbox、BT、Quora（中国知乎）、豆瓣、知乎、Google、Yahoo!、Facebook、NASA、百度、腾讯、汽车之家、美团等。发展历史 Python的作者，Guido von Rossum（吉多·范·罗苏姆...

2020-06-29 07:45:44 714

原创数据科学中的五种认知偏差，你都了解吗？

我们每个人都容易受到歪曲思维的认知偏见所带来的伤害，但是，数据科学家必须防止这些偏见破坏他们的工作。下文将介绍五种常见的认知偏差，这些偏见很容易让你看起来很客观的工作变得非常主观。最近，我在读罗尔夫·多贝尔(Rolf Dobell)的《清晰思考的艺术》(The Art of Thinking Clear)，这本书让我以一种前所未有的方式思考认知偏见。我意识到一些认知偏见是多么地根深蒂固。事实上，当我们的思维受到它的影响时，我们通常没有意识到。对数据科学家来说，这些偏见确实会改变我们处理数据...

2020-06-26 20:49:22 1089

原创 2020年使用最多的大数据分析工具

众所周知，数据是当今 IT 领域的一切。此外，这些数据每天都在大量增长。早些时候，我们常谈论千字节和兆字节。但是现在，我们谈论的是TB、PB。单纯的数据是没有意义的，直到它变成有用的信息和知识，进而帮助管理层进行决策。为此，我们在市场上调查了一些常用的大数据软件。这些软件可用于完成对数据进行存储、分析、报告等工作。15款使用最多的大数据分析工具下面介绍了一些常用的开源工具和很少有付费的商业工具（提供了免费试用版）。让我们详细了解每款工具。一、Apache Hadoop...

2020-06-26 19:22:45 980

转载 Docker新手入门，最全详解看这里！

Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（类似 iPhone 的 app）,更重要的是容器性能开销极低。容器简介什么是Linux容器Linux容器是与系统其他部分隔离开的一系列进程，从另一个镜像运行，并由该镜像提供支持进程所需的全部文...

2020-06-26 19:13:30 1917

原创 R语言中样本平衡的几种方法

在对不平衡的分类数据集进行建模时，机器学习算法可能并不稳定，其预测结果甚至可能是有偏的，而预测精度此时也变得带有误导性。在不平衡的数据中，任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此，机器学习算法常常被要求应用在平衡数据集上。不平衡分类是一种有监督学习，但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类，这一问题在二分类中更为常见。不平衡一词指代数据中响应变量（被解释

2017-06-06 21:39:07 8090 2

原创用R语言绘制动态地图，代码奉上!（REmap包详解）

options(remap.ak="MY07CLhm3wKi4N2tQ6WP4kzz21BBZagI")安装包library(devtools)install_github('badbye/baidumap')install_github('lchiffon/REmap')baidumap包函数说明getBaiduMap函数getBaiduMap(location, w

2017-05-30 22:09:32 25479 8

原创 R语言数据处理详解

数据挖掘实战，手把手教会你

2017-05-30 09:58:11 1502

原创 R语言基础入门，看这里！

数据挖掘实战，手把手教会你

2017-05-30 08:58:24 885

原创外推预测法（R语言预测实战-节选）

外推预测法是根据过去和现在的发展趋势推断未来的一类方法的总称。因为外推预测法基于过去的行为数据，所以它是保守的。通常可以使用时间序列数据或横截面数据进行外推预测。对于横截面数据进行外推的情况，比如可以使用一些州枪支法律改变的行为反应来预测其它州的反应。当外推的结果与真实的结果不一致时，外推就不再保守了。此时，可以考虑加入判断，合并到外推的结果中。那么有哪些方法可以合并一些知识到外推的结果中呢？

2017-05-29 20:47:31 4912

原创 R语言预测初步（R语言预测实战-节选）

经过上一节的介绍相信各位读者已经知道如何安装R及R程序包。本节拟通过一个简单的例子说明用R语言进行预测的主要步骤，旨在让各位读者了解用R语言进行预测的基本过程。本例使用forecast包中自带的数据集wineind，它表示从1980年1月到1994年8月，由葡萄酒生产商销售的容量不到1升的澳大利亚酒的总量。数据示意如下：从数据中可知，这是典型的时间序列数据，一行表示一年，12列表示一年的

2017-05-29 20:42:15 18236 4

原创 R语言lattice包介绍

lattice包是一个非常强大地高级绘图程序包，由Deepayan Sarkar编写，这个程序包使20世纪90年代初期在贝尔实验室发展起来的特雷里斯图形框架（Trellis）变成了现实。 lattice包很容易实现单变量或多变量的数据可视化，生成的图形为栅栏图。在一个或多个其它变量的条件下，栅栏图可展示某个变量的分布或与其他变量间的关系。 lattice包提供了丰富的图形函数，可生成单变量图形(点

2017-05-29 20:33:07 13897

原创基于redis和R语言构建并行计算平台(yiyou)

最近研究gearman时发现不少问题，关于队列持久化的问题搞了半个月还是没能解决，并且国内可以参考的资料太少，所以考虑换一种方案试试。如下贴出gearman集群的架构：可以看到该架构存在的问题，当持久化不起作用时，只能通过多台JobServer同时运行的方式保证集群的正常运作。另外client和worker这间的数据传输需要通过JobServer，不能一步到位。这个在数据量大时不能突显

2015-05-10 23:28:48 1799

原创我的大数据方法论：求扔砖

对于数据分析师而言，掌握一套方法论至关重要。搞数据挖掘，需要知道CRISP-DM，5A以及SEMMA三种过程模型或方法论。然而对于大数据，对于各位打算成为数据科学家的读者，是否想过总结一套适合自己的大数据方法论呢？这里抛出拙著，希望广泛讨论，不足之处，敬请赐教~整体构思：有观点认为大数据本身是种方法论，对于此，我持保留观点。然而对很多想实现大数据，想发展成为大数据公司的企业而言，面对大

2015-04-18 08:39:18 1635

原创数据分析是模型驱动还是数据驱动?

在讨论这个问题之前，需要理解清楚模型驱动与数据驱动两个词的含义。到底什么是模型驱动？从认识世界的角度来讲，我们理解的制度、礼仪、道德等等，基本上都可以理解为模型，通过这些模型，我们可以清楚地明白哪些是好的，哪些是坏的，哪些该做，哪些不该做。然而在数据侧，在业务理解上，也可以类似地理解。我们需要梳理一套清晰的思路来把业务做得更好，不如叫做业务模型，定义了具体的参与人、流程等关键因子。我们需要一套组件

2014-12-13 19:29:01 10079 2

原创关于无序分类变量量化的处理思考

想必各位用过数据挖掘算法的朋友都会遇到一个问题，就是如何对分类变量进行量化，这个在回归建模或求距离的时候经常遇见。在此，我把这个问题分解成三个子问题，如下：（1）对有序分类变量的量化。（2）对逻辑变量的量化。（3）对无序分类变量的量化。首先，对有序分类变量的量化，这个比较简单，常用顺序编号代替具体的分类来量化。比如一次比赛有三个名次。小明得了第一名，小强得了第三名，小方得了第二

2014-12-02 21:15:10 10110 1

转载想法、方法和做法

今天遇到一件事情，在反思的过程中，脑海里出现了这三个词：想法、方法和做法。我觉得很有必要深入梳理一下，以为后面做事提供些参考和思路。其实，这三个词，大家再熟悉不过了，但是与某件事情关联在一起之后，就难以理解它们之间的关系及相互影响。结合自己多年的经验和感悟，这里花点时间谈谈我的浅薄理解。一、想法。这个很好理解，比较我现在就有一个想法：我想把我所思考的内容整理出来，供大家讨论，相

2014-11-29 09:25:52 3161

转载机器学习算法汇总：人工神经网络、深度学习及其它

转载自：http://blog.csdn.net/icyzbb/article/details/37883461学习方式根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最

2014-11-22 17:16:02 1096

转载 Gradient Boosting and GBDT

转载自：http://blog.csdn.net/brandohero/article/details/39209009

2014-11-22 17:13:37 1275

转载计算机视觉、机器学习相关领域论文和源代码大集合

转载自：http://blog.csdn.net/nulidezhu/article/details/26474109一、特征提取Feature Extraction：· SIFT [1] [Demo program][SIFT Library] [VLFeat]· PCA-SIFT [2] [Project]·

2014-11-22 17:11:47 735

转载收集了一些python的文章

转载自：http://blog.csdn.net/xyw_blog/article/details/9128777newthreading - safer concurrency for Python 安全并发(1回应) http://www.starming.com/index.php?action=plugin&v=wave&tpl=union&ac=viewgrouppost&g

2014-11-22 17:10:35 1589

转载 CV方面的各种大神

转载自：http://blog.csdn.net/kts_3/article/details/9326117原文地址：机器学习牛人主页及相关会议，论文，期刊作者：小深国际顶级会议AAAICIKM 2010CIKM 2011COLT 2010COLT 2011Computer Vision ResourceICJIAICMLNIPSSIGIR 2010SIGIR 2011

2014-11-22 17:06:15 4928 1

转载机器学习、数据挖掘之中国大牛

转载自：推荐几个机器学习和数据挖掘领域相关的中国大牛：李航：http://research.microsoft.com/en-us/people/hangli/，是MSRA Web Search and Mining Group高级研究员和主管，主要研究领域是信息检索，自然语言处理和统计学习。近年来，主要与人合作使用机器学习方法对信息检索中排序，相关性等问题的研究。曾在人大听过

2014-11-22 17:05:03 2444

转载 Stanford机器学习---第五讲. 神经网络的学习 Neural Networks learning

转载自：http://blog.csdn.net/dan1900/article/details/17787917本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向

2014-11-22 17:04:00 978

转载斯坦福机器学习公开课笔记--神经网络的学习

转载自：公开课地址：https://class.coursera.org/ml-003/class/index 授课老师：Andrew Ng1、cost function(代价函数)上一讲的最后引入了多分类问题，多分类问题与二元分类问题的区别就在于输出单元是多个，用图总结如下：同时在前面我们也已经知道逻辑回归的代价函数如下：

2014-11-22 17:02:48 1316

转载 Stanford机器学习---第4讲. 神经网络的表示 Neural Networks representation

转载自：http://blog.csdn.net/hellotruth/article/details/37995427本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines

2014-11-22 17:01:39 636

转载加州理工学院公开课：机器学习与数据挖掘_神经网络

转载自：http://blog.csdn.net/feitianhu213/article/details/39899463课程简介：本节课主要介绍人工神经网络.通过介绍评定模型，随机梯度下降法，生物启发和感知器系统，讲师用视图和数学解析式详细地讲解了神经网络的运行过程以及原理.课程大纲：1、Stochastic Gradient Descent ( 随机梯度下降法

2014-11-22 17:00:24 924

转载加州理工学院公开课：机器学习与数据挖掘_过拟化

转载自：http://blog.csdn.net/feitianhu213/article/details/40872225课程简介本节课主要介绍了关于机器学习中的过拟化问题。作者指出，区别一个专业级玩家和业余爱好者的方法之一就是他们如何处理过拟化问题。通过该课程，我们可以知道样本数据的拟合并不是越高越好，因为噪声的存在将使得过拟化问题的出现。最后简介了处理过拟合的两种方法。

2014-11-22 16:59:40 764

转载机器学习与数据挖掘_Regularization

转载自：http://blog.csdn.net/feitianhu213/article/details/40930137课程简介：接上一节课，这一节课的主题是如何利用 Regularization 避免 Overfitting。通过给假设集设定一些限制条件从而避免 Overfitting，但是如果限制条件设置的不恰当就会造成 Underfitting。最后讲述了选择 Regula

2014-11-22 16:58:34 751

空空如也

空空如也