自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

光尘的博客

虽然我们都来自黑暗中,却注定要用此生追随光明。

  • 博客(121)
  • 收藏
  • 关注

原创 离散数据编码方式总结(OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVector

根据上面的使用简单的总结一下:1、独热编码用于离散的特征且数据无大小意义的数据get_dummies,输入可以是pandas, 输出的时候会多出转换后的几列,这个好用一点。数值内容会被遍历当作表头。OneHotEnCoder的fit_transform,输入是二维数组(字符串或者整数),把每一行当作一个样本,每一列当作一个特征,输出的形式也是二维数组。数值内容会被遍历当作表头。DictVectorizer的fit_transform,输入是字典形式,输出的形式也是二维数组。数值内容会保留。

2023-08-31 16:50:41 997

原创 逻辑回归的含义

对数几率回归之所以用于离散的分类而不是连续的回归,是因为它将本来连续的输出,通过对数几率函数,映射到了非线性的{0,1}空间上,所以它可以有效地解决二分类问题(甚至可推广至多分类)。想象这样一个场景,一堆看似无规律的数据在你的图像上肆无忌惮的乱走,我们要做的是找出其中的规律模型,把他们行走的趋势和轨迹“重新组合起来”。线性回归和逻辑回归都是广义线性回归的特例,根据联系函数的不同,以不同的方式映射,如对数、指数。线性回归我联系函数或不起作用,逻辑回归的联系函数是对数几率函数,属于Sigmoid函数。

2023-08-31 16:27:48 932

原创 规范化:标准化、归一化、中心化

1、归一化(Normalization)概念:数值的归一,将数值规约到(0,1)或(-1,1)区间目的:消除量纲,便于不同单位或量级的指标能够进行比较和加权。2、标准化(Standardization)概念:数据分布的归一,原始数据减均值之后,再除以标准差。将数据变换为均值为0,标准差为1的分布,切记:并非一定是正态的。目的:消除量纲,便于后续的梯度下降和激活函数对数据的处理。因为标准化后,数据以0为中心左右分布,而函数sigmoid,Tanh,Softmax等也都以0为中心左右分布;

2023-08-31 16:09:29 658

原创 wps在任务栏取消显示多个文档的预览

问题描述用wps打开多个文件后,切换下窗口,比如用浏览器查个东西,再回到wps时,点击任务栏的wps图标,会显示多个预览窗口,必须再点一下鼠标,选择某个文档的预览,才跳出整个文档页面,这样很麻烦。正常我们希望的操作是,点击任务栏的图标,直接跳出整个文档页面。探索过程网上的很多教程要么答非所问,要么麻烦无效:1、给出的答案是取消鼠标放在任务栏的图标上,自动弹出预览的功能。2、通过改注册表达到目的,但windows家庭版原本不支持打不开regedit.msc,还得先解决这个问题,麻烦~

2022-04-28 13:38:31 3658 1

转载 Spark 运行内存溢出问题

当用Spark和Hadoop做大数据应用的时候,你可能会反复的问自己怎么解决这一的一个问题:“Container killed by YARN for exceeding memory limits. 16.9 GB of 16 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead”这个错误总会使你的job夭折。它的意思是:因为超出内存限制,集群停掉了container(还没有找到很好的翻译的词)。...

2021-11-23 11:09:36 2595

原创 sql日期

select date_format(date_sub(current_date(), 90), 'yyyymMdd')select date_format(date_sub(current_date(), 90), 'yyyy-mM-dd')

2021-10-09 13:28:10 167

原创 python时间格式

strftime是转换为特定格式输出,结果为字符串strptime是将一个(时间)字符串解析为时间类型的对象

2021-08-23 15:24:04 171

原创 vscode配置

pyhton脚本格式化(Alt+Shift+F)时不换行参考:https://blog.csdn.net/qq_34801642/article/details/1064750191、下载插件:Vetur2、设置里搜索vetur.format.defaultFormatterOptions,点击编辑3、添加如下代码即可 // yapf "python.formatting.provider": "yapf", "python.formatting.yapfA.

2021-08-20 11:32:32 147

原创 数据建模常用包

数据建模常用包:包名 版本1 hyperopt 0.1.22 jieba 0.393 joblib 1.0.14 lightgbm 2.3.15 matplotlib 3.2.16 numpy 1.19.27 pandas 1.1.48 scikit-learn 0.24.19 scipy 1.6.110 seaborn 0.10.011 shap...

2021-04-22 15:37:36 322

原创 win10小工具

clover给资源管理器加上标签页spacesniff图形化展示磁盘文件大小NDM下载工具

2021-04-10 11:52:58 200 1

原创 spark相关知识

spark 有三大引擎:spark core、sparkSQL、sparkStreaming。spark core 的关键抽象是 SparkContext、RDD;SparkSQL 的关键抽象是 SparkSession、DataFrame;sparkStreaming 的关键抽象是 StreamingContext、DStream。SparkSession是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,它可以代替 SparkContext,..

2021-04-08 16:46:44 144

原创 windows上安装spark、hadoop、jdk、anaconda、pyspark

需要的软件及对应的版本号,一定要注意版本号,否则虽然安装成功,但最终无法运行。软件如下,已试验成功,hadoop是2.10.1版本,jdk是8版本,安装路径不要有空格,否则环境变量中设置的无法起到作用。hadoop-2.10.1.tar.gzjdk-8u181-windows-x64.exeAnaconda3-5.2.0-Windows-x86_64.exepyhton3.7pyspark-2.3.2参考教程:安装pyspark:https://www.jianshu.com

2021-04-05 20:12:48 258

原创 Hadoop、MapReduce、Hive、Spark

hadoopApache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群的大型数据集的分布式处理。它被设计成从单个服务器扩展到数千台机器,每个机器提供本地计算和存储。数据文件被分成多个块存储在各个计算机上,提供冗余备份机制。这就是HDFS分布式文件存储系统。 hadoop集群上的每台计算机都有自己的cpu,充分利用这些cpu进行并行计算。这就是mapreduce。Hive基于hadoop的数据仓库工作,可以将结构性的数据映射成一张数据库表,提供HiveQL语句(类sql)

2021-03-29 23:40:23 535

转载 RDD和DataFrame和DataSet三者间的区别

参考:https://blog.csdn.net/weixin_43087634/article/details/84398036在SparkSQL中Spark提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和

2021-03-28 17:42:50 769

转载 sql——窗口函数

参考:https://blog.csdn.net/junhongzhang/article/details/90056539

2021-03-23 15:55:23 100

原创 深度学习

数据挖掘、机器学习和深度学习的区别是什么?这些概念都代表什么?我们通过深度学习让机器具备人的能力,甚至某些技能的水平超过人类,比如图像识别、下棋对弈等。那么深度学习的大脑是如何工作的?深度学习是基于神经网络构建的,都有哪些常用的网络模型?深度学习有三个重要的应用领域,这三个应用领域分别是什么?...

2021-03-22 15:57:02 828

原创 时间序列分析

时间序列分析和回归分析的区别:回归分析训练得到的事目标变量y与自变量x(一个或多个)的相关性,然后通过新的自变量x来预测目标变量y。 时间序列得到的是目标变量y与时间的相关性。 回归分析擅长的是多变量与目标结果之间的分析,往往与时间无关。 时间序列分析建立在时间变化的基础上,分析目标变量的趋势、周期、时期和不稳定因素等。经典模型:AR、MA、ARMA、ARIMAAR(Auto Regressive)中文叫自回归模型,它认为过去若干时刻的点通过线性组合,再加上白噪声就可以预测未来某个时刻的

2021-03-21 18:26:36 816

原创 逻辑回归分类——信用卡诈骗

逻辑回归,也叫作 logistic 回归。虽然名字中带有“回归”,但它实际上是分类方法,主要解决的是二分类问题,当然它也可以解决多分类问题,只是二分类更常见一些。在逻辑回归中使用了 Logistic 函数,也称为 Sigmoid 函数。Sigmoid 函数是在深度学习中经常用到的函数之一,函数公式为:函数的图形如下所示,类似 S 状:在 sklearn 中,我们使用 LogisticRegression() 函数构建逻辑回归分类器,函数里有一些常用的构造参数:penalty:惩.

2021-03-20 12:07:53 405 1

原创 数据可视化

from wordcloud import WordCloudimport matplotlib.pyplot as pltimport jiebadef create_word_cloud(f): text = ' '.join(jieba.cut(f, cut_all=False, HMM=True)) print(text) wc = WordCloud( font_path=r'C:\Windows\Fonts\SimHei.ttf', .

2021-03-18 10:26:32 220 1

转载 梯度提升树 GradientBoosting

scikit-learn基于梯度提升树算法提供了两个模型:GradientBoostingClassifier即GBDT(Gradient Boosting Decision Tree)梯度提升决策树,用于分类问题 GradientBoostingRegressor即GBRT(Gradient Boost Regression Tree)渐进梯度回归树,用于回归问题梯度提升决策树from sklearn.ensemble import GradientBoostingClassifier...

2021-03-17 15:03:39 959

原创 数据采集实战:如何自动化运营微博?

自动化测试工具Selenium 更关注程序执行的流程本身,比如找到指定的元素,设置相应的值,然后点击操作。 Puppeteer 是浏览者的视角,比如光标移动到某个元素上,键盘输入某个内容等。如果想定位一个元素,可以通过 id、name、class、tag、链接上的全部文本、链接上的部分文本、XPath 或者 CSS 进行定位,在 Selenium Webdriver 中提供了这 8 种方法方便定位元素。通过 id 定位:使用 find_element_by_id() 函数。比如定位 id=log

2021-03-15 17:03:25 193 1

原创 AdaBoost(Adaptive Boosting,自适应提升算法)

AdaBoost 算法与随机森林算法一样都属于分类算法中的集成算法。集成算法通常有两种方式,分别是投票选举(bagging)和再学习(boosting)。投票选举的场景类似把专家召集到一个会议桌前,当做一个决定的时候,让 K 个专家(K 个模型)分别进行分类,然后选择出现次数最多的那个类作为最终的分类结果。 再学习相当于把 K 个专家(K 个分类器)进行加权融合,形成一个新的超级专家(强分类器),让这个超级专家做判断。Boosting 的含义是提升,它的作用是每一次训练的时候都对上一次的训练进行

2021-02-28 13:58:50 1740

转载 四舍五入

参考:https://blog.csdn.net/zhao_crystal/article/details/105501482

2021-02-19 19:24:35 101

原创 PageRank

问题1. 等级泄露(Rank Leak):如果一个网页没有出链,就像是一个黑洞一样,吸收了其他网页的影响力而不释放,最终会导致其他网页的 PR 值为 0。2. 等级沉没(Rank Sink):如果一个网页只有出链,没有入链,计算的过程迭代下来,会导致这个网页的 PR 值为 0(也就是不存在公式中的 V)。对策PageRank 的随机浏览模型,假设用户并不都是按照跳转链接的方式来上网,还有可能直接输入网址访问其他页面。定义一个阻尼因子 d,这个因子代表了用户按照跳转链接来上网的概率,通常可

2021-01-18 18:12:07 219

原创 关联规则挖掘

Apriori 算法概念支持度:某个商品组合出现的次数与总次数之间的比例置信度:置信度是个条件概念,就是说在 A 发生的情况下,B 发生的概率是多少提升度:衡量 A 出现的情况下,是否会对 B 出现的概率有所提升提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)缺点可能产生大量的候选集。因为采用排列组合的方式,把可能的项集都组合出来了; 每次计算都需要重新扫描数据集,来计算每个项集的支持度。Apriori 的改进算法:FP-Growth 算法创建了一棵 FP 树来

2021-01-17 17:31:26 201 2

原创 EM 聚类(Expectation Maximization,最大期望算法)

EM 算法相当于一个框架,可以采用不同的模型来进行聚类,比如 GMM(高斯混合模型),或者 HMM(隐马尔科夫模型)来进行聚类。GMM 是通过概率密度来进行聚类,聚成的类符合高斯分布(正态分布)。而 HMM 用到了马尔可夫过程,在这个过程中,通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。在 EM 这个框架中,E 步骤相当于是通过初始化的参数来估计隐含变量。M 步骤就是通过隐含变量反推来优化参数。最后通过 EM 步骤的迭代得到模型参数。EM 有两个步骤,E

2021-01-14 16:26:23 1198

原创 K-Means

K-Means 是一种非监督学习,解决的是聚类问题。K 代表的是 K 类,Means 代表的是中心,可以理解这个算法的本质是确定 K 类的中心点,当找到了这些中心点,也就完成了聚类。工作原理:选取 K 个点作为初始的类中心点,这些点一般都是从数据集中随机抽取的; 将每个点分配到最近的类中心点,这样就形成了 K 个类,然后重新计算每个类的中心点; 重复第二步,直到类不发生变化,或者也可以设置最大迭代次数,这样即使类中心点发生变化,但是只要达到最大迭代次数就会结束。...

2021-01-12 17:51:24 1483

原创 KNN(K-Nearest Neighbor,最近邻算法)

工作原理“近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步:计算待分类物体与其他物体之间的距离; 统计距离最近的 K 个邻居; 对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。K 值的选择K 值的选择是很重要的如果 K 值比较小,就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是,如果邻居点是个噪声点,那么未分类物体的分类也会产生误差,这样 KNN 分类就会产生过拟合。如果 K 值比较大,相当于距离过远的点也会对未知物体的分

2021-01-10 15:54:15 1726

原创 SVM(Support Vector Machine,支持向量机)

SVM 是有监督的,在文本分类尤其是针对二分类任务性能卓越。针对多分类的情况,我们可以采用一对多,或者一对一的方法,多个二值分类器组合成一个多分类器。SVM 分类器的概念完全线性可分情况下的线性分类器,也就是线性可分的情况,是最原始的 SVM,它最核心的思想就是找到最大的分类间隔; 大部分线性可分情况下的线性分类器,引入了软间隔的概念。软间隔,就是允许一定量的样本分类错误; 线性不可分情况下的非线性分类器,引入了核函数。它让原有的样本空间通过核函数投射到了一个高维的空间中,从而变得线性可分。

2020-12-28 16:09:20 335

原创 朴素贝叶斯分类

使用场景:文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断,朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 机器学习包提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。高斯朴素贝叶斯:特征变量是连续变量,符合高斯分布,比如说人的身高,物体的长度。 多项式朴素贝叶斯:特征变量是离散变量,符合多项分布,在文档分类中特征变量体现在

2020-12-25 17:36:48 468

原创 MySQL优化

逻辑架构图​​​​

2020-11-12 21:12:58 78

原创 hdsf dfs 命令

官方文档:http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html#count-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间Usage:hdfs dfs -ls [-R] < args> 选项:-R 递归地显示子目录下的内容-du  显示给定目录中包含的文件和目录的大小或文件的长度,用字节大小表示。  hdfs...

2020-10-29 11:00:54 372

转载 hadoop和spark的区别和联系

1、hadoop1)hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算2)hadoop优点Hadoop 以一种可靠、高效、可伸缩的方式进行数据

2020-10-29 08:52:54 1345 1

原创 numpy——知识点

ndarray:一种多维数组对象ndarray对象别称:数组、NumPy数组、ndarray

2020-10-26 14:22:46 156 1

原创 anaconda

anaconda下载地址:https://repo.anaconda.com/archive/安装步骤:https://note.youdao.com/web/#/file/WEB58e565969829ecb998ebd7806bc32029/note/wcp1603684452757264/

2020-10-26 13:52:47 146

原创 Hive表分区操作

创建单分区:create table day_table(id int, content string)partitioned by (dt string)row format delimited fields terminated by ',';创建多分区:create table bigdata_jr.e_hb_zk (rysecret string)partitioned by (dt string, rule string)row format delimited field

2020-10-21 08:37:02 405

原创 利用python计算各类距离

Jaccard相似度1、当两个集合元素个数相同,则直接调包from numpy import *import scipy.spatial.distance as dist # 导入scipy距离公式matV = mat([[1,1,0,1,0,1,0,0,1],[0,1,1,0,0,0,1,1,1]])print ("dist.jaccard:", dist.pdist(matV,'jaccard'))2、当集合元素个数不同def correlation(set_a,set_b

2020-05-27 15:03:32 5076

转载 日期格式转换

查询指定日期时间中的日期。返回2017-02-08to_date('2017-02-08 11:15:50')

2020-03-26 09:09:33 423

原创 jupyter notebook

让Jupyter notebook 打印多个结果:from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity='all'

2020-03-01 14:47:14 148

转载 jupyter小功能

pyforest参考地址安装之后只要导入 pyforest,就可以直接在代码中引用所有主流的数据分析库,用到什么加载什么,不会加载多余的库。在 Jupyter 或者 Jupyterlab 不需要显式的调用,shell中需要导入。from pyforest import *...

2019-12-18 10:24:27 334

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除