光尘92-CSDN博客

原创离散数据编码方式总结(OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVector

根据上面的使用简单的总结一下：1、独热编码用于离散的特征且数据无大小意义的数据get_dummies，输入可以是pandas，输出的时候会多出转换后的几列，这个好用一点。数值内容会被遍历当作表头。OneHotEnCoder的fit_transform，输入是二维数组（字符串或者整数），把每一行当作一个样本，每一列当作一个特征，输出的形式也是二维数组。数值内容会被遍历当作表头。DictVectorizer的fit_transform，输入是字典形式，输出的形式也是二维数组。数值内容会保留。

2023-08-31 16:50:41 997

原创逻辑回归的含义

对数几率回归之所以用于离散的分类而不是连续的回归，是因为它将本来连续的输出，通过对数几率函数，映射到了非线性的{0，1}空间上，所以它可以有效地解决二分类问题（甚至可推广至多分类）。想象这样一个场景，一堆看似无规律的数据在你的图像上肆无忌惮的乱走，我们要做的是找出其中的规律模型，把他们行走的趋势和轨迹“重新组合起来”。线性回归和逻辑回归都是广义线性回归的特例，根据联系函数的不同，以不同的方式映射，如对数、指数。线性回归我联系函数或不起作用，逻辑回归的联系函数是对数几率函数，属于Sigmoid函数。

2023-08-31 16:27:48 932

原创规范化：标准化、归一化、中心化

1、归一化（Normalization）概念：数值的归一，将数值规约到(0,1)或(-1,1)区间目的：消除量纲，便于不同单位或量级的指标能够进行比较和加权。2、标准化（Standardization）概念：数据分布的归一，原始数据减均值之后，再除以标准差。将数据变换为均值为0，标准差为1的分布，切记：并非一定是正态的。目的：消除量纲，便于后续的梯度下降和激活函数对数据的处理。因为标准化后，数据以0为中心左右分布，而函数sigmoid,Tanh,Softmax等也都以0为中心左右分布；

2023-08-31 16:09:29 658

原创 wps在任务栏取消显示多个文档的预览

问题描述用wps打开多个文件后，切换下窗口，比如用浏览器查个东西，再回到wps时，点击任务栏的wps图标，会显示多个预览窗口，必须再点一下鼠标，选择某个文档的预览，才跳出整个文档页面，这样很麻烦。正常我们希望的操作是，点击任务栏的图标，直接跳出整个文档页面。探索过程网上的很多教程要么答非所问，要么麻烦无效：1、给出的答案是取消鼠标放在任务栏的图标上，自动弹出预览的功能。2、通过改注册表达到目的，但windows家庭版原本不支持打不开regedit.msc，还得先解决这个问题，麻烦~

2022-04-28 13:38:31 3658 1

转载 Spark 运行内存溢出问题

当用Spark和Hadoop做大数据应用的时候，你可能会反复的问自己怎么解决这一的一个问题：“Container killed by YARN for exceeding memory limits. 16.9 GB of 16 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead”这个错误总会使你的job夭折。它的意思是：因为超出内存限制，集群停掉了container(还没有找到很好的翻译的词)。...

2021-11-23 11:09:36 2595

原创 sql日期

select date_format(date_sub(current_date(), 90), 'yyyymMdd')select date_format(date_sub(current_date(), 90), 'yyyy-mM-dd')

2021-10-09 13:28:10 167

原创 python时间格式

strftime是转换为特定格式输出，结果为字符串strptime是将一个（时间）字符串解析为时间类型的对象

2021-08-23 15:24:04 171

原创 vscode配置

pyhton脚本格式化（Alt+Shift+F）时不换行参考：https://blog.csdn.net/qq_34801642/article/details/1064750191、下载插件：Vetur2、设置里搜索vetur.format.defaultFormatterOptions，点击编辑3、添加如下代码即可 // yapf "python.formatting.provider": "yapf", "python.formatting.yapfA.

2021-08-20 11:32:32 147

原创数据建模常用包

数据建模常用包：包名版本1 hyperopt 0.1.22 jieba 0.393 joblib 1.0.14 lightgbm 2.3.15 matplotlib 3.2.16 numpy 1.19.27 pandas 1.1.48 scikit-learn 0.24.19 scipy 1.6.110 seaborn 0.10.011 shap...

2021-04-22 15:37:36 322

原创 win10小工具

clover给资源管理器加上标签页spacesniff图形化展示磁盘文件大小NDM下载工具

2021-04-10 11:52:58 200 1

原创 spark相关知识

spark 有三大引擎：spark core、sparkSQL、sparkStreaming。spark core 的关键抽象是 SparkContext、RDD；SparkSQL 的关键抽象是 SparkSession、DataFrame；sparkStreaming 的关键抽象是 StreamingContext、DStream。SparkSession是 spark2.0 引入的概念，主要用在 sparkSQL 中，当然也可以用在其他场合，它可以代替 SparkContext，..

2021-04-08 16:46:44 144

原创 windows上安装spark、hadoop、jdk、anaconda、pyspark

需要的软件及对应的版本号，一定要注意版本号，否则虽然安装成功，但最终无法运行。软件如下，已试验成功，hadoop是2.10.1版本，jdk是8版本，安装路径不要有空格，否则环境变量中设置的无法起到作用。hadoop-2.10.1.tar.gzjdk-8u181-windows-x64.exeAnaconda3-5.2.0-Windows-x86_64.exepyhton3.7pyspark-2.3.2参考教程：安装pyspark：https://www.jianshu.com

2021-04-05 20:12:48 258

原创 Hadoop、MapReduce、Hive、Spark

hadoopApache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机集群的大型数据集的分布式处理。它被设计成从单个服务器扩展到数千台机器，每个机器提供本地计算和存储。数据文件被分成多个块存储在各个计算机上，提供冗余备份机制。这就是HDFS分布式文件存储系统。 hadoop集群上的每台计算机都有自己的cpu，充分利用这些cpu进行并行计算。这就是mapreduce。Hive基于hadoop的数据仓库工作，可以将结构性的数据映射成一张数据库表，提供HiveQL语句（类sql）

2021-03-29 23:40:23 535

转载 RDD和DataFrame和DataSet三者间的区别

参考：https://blog.csdn.net/weixin_43087634/article/details/84398036在SparkSQL中Spark提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和

2021-03-28 17:42:50 769

转载 sql——窗口函数

参考：https://blog.csdn.net/junhongzhang/article/details/90056539

2021-03-23 15:55:23 100

原创深度学习

数据挖掘、机器学习和深度学习的区别是什么？这些概念都代表什么？我们通过深度学习让机器具备人的能力，甚至某些技能的水平超过人类，比如图像识别、下棋对弈等。那么深度学习的大脑是如何工作的？深度学习是基于神经网络构建的，都有哪些常用的网络模型？深度学习有三个重要的应用领域，这三个应用领域分别是什么？...

2021-03-22 15:57:02 828

原创时间序列分析

时间序列分析和回归分析的区别：回归分析训练得到的事目标变量y与自变量x（一个或多个）的相关性，然后通过新的自变量x来预测目标变量y。时间序列得到的是目标变量y与时间的相关性。回归分析擅长的是多变量与目标结果之间的分析，往往与时间无关。时间序列分析建立在时间变化的基础上，分析目标变量的趋势、周期、时期和不稳定因素等。经典模型：AR、MA、ARMA、ARIMAAR（Auto Regressive）中文叫自回归模型，它认为过去若干时刻的点通过线性组合，再加上白噪声就可以预测未来某个时刻的

2021-03-21 18:26:36 816

原创逻辑回归分类——信用卡诈骗

逻辑回归，也叫作 logistic 回归。虽然名字中带有“回归”，但它实际上是分类方法，主要解决的是二分类问题，当然它也可以解决多分类问题，只是二分类更常见一些。在逻辑回归中使用了 Logistic 函数，也称为 Sigmoid 函数。Sigmoid 函数是在深度学习中经常用到的函数之一，函数公式为：函数的图形如下所示，类似 S 状：在 sklearn 中，我们使用 LogisticRegression() 函数构建逻辑回归分类器，函数里有一些常用的构造参数：penalty：惩.

2021-03-20 12:07:53 405 1

原创数据可视化

from wordcloud import WordCloudimport matplotlib.pyplot as pltimport jiebadef create_word_cloud(f): text = ' '.join(jieba.cut(f, cut_all=False, HMM=True)) print(text) wc = WordCloud( font_path=r'C:\Windows\Fonts\SimHei.ttf', .

2021-03-18 10:26:32 220 1

转载梯度提升树 GradientBoosting

scikit-learn基于梯度提升树算法提供了两个模型：GradientBoostingClassifier即GBDT（Gradient Boosting Decision Tree）梯度提升决策树，用于分类问题 GradientBoostingRegressor即GBRT（Gradient Boost Regression Tree）渐进梯度回归树，用于回归问题梯度提升决策树from sklearn.ensemble import GradientBoostingClassifier...

2021-03-17 15:03:39 959

原创数据采集实战：如何自动化运营微博？

自动化测试工具Selenium 更关注程序执行的流程本身，比如找到指定的元素，设置相应的值，然后点击操作。 Puppeteer 是浏览者的视角，比如光标移动到某个元素上，键盘输入某个内容等。如果想定位一个元素，可以通过 id、name、class、tag、链接上的全部文本、链接上的部分文本、XPath 或者 CSS 进行定位，在 Selenium Webdriver 中提供了这 8 种方法方便定位元素。通过 id 定位：使用 find_element_by_id() 函数。比如定位 id=log

2021-03-15 17:03:25 193 1

原创 AdaBoost（Adaptive Boosting，自适应提升算法）

AdaBoost 算法与随机森林算法一样都属于分类算法中的集成算法。集成算法通常有两种方式，分别是投票选举（bagging）和再学习（boosting）。投票选举的场景类似把专家召集到一个会议桌前，当做一个决定的时候，让 K 个专家（K 个模型）分别进行分类，然后选择出现次数最多的那个类作为最终的分类结果。再学习相当于把 K 个专家（K 个分类器）进行加权融合，形成一个新的超级专家（强分类器），让这个超级专家做判断。Boosting 的含义是提升，它的作用是每一次训练的时候都对上一次的训练进行

2021-02-28 13:58:50 1740

转载四舍五入

参考：https://blog.csdn.net/zhao_crystal/article/details/105501482

2021-02-19 19:24:35 101

原创 PageRank

问题1. 等级泄露（Rank Leak）：如果一个网页没有出链，就像是一个黑洞一样，吸收了其他网页的影响力而不释放，最终会导致其他网页的 PR 值为 0。2. 等级沉没（Rank Sink）：如果一个网页只有出链，没有入链，计算的过程迭代下来，会导致这个网页的 PR 值为 0（也就是不存在公式中的 V）。对策PageRank 的随机浏览模型，假设用户并不都是按照跳转链接的方式来上网，还有可能直接输入网址访问其他页面。定义一个阻尼因子 d，这个因子代表了用户按照跳转链接来上网的概率，通常可

2021-01-18 18:12:07 219

原创关联规则挖掘

Apriori 算法概念支持度：某个商品组合出现的次数与总次数之间的比例置信度：置信度是个条件概念，就是说在 A 发生的情况下，B 发生的概率是多少提升度：衡量 A 出现的情况下，是否会对 B 出现的概率有所提升提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)缺点可能产生大量的候选集。因为采用排列组合的方式，把可能的项集都组合出来了；每次计算都需要重新扫描数据集，来计算每个项集的支持度。Apriori 的改进算法：FP-Growth 算法创建了一棵 FP 树来

2021-01-17 17:31:26 201 2

原创 EM 聚类（Expectation Maximization，最大期望算法）

EM 算法相当于一个框架，可以采用不同的模型来进行聚类，比如 GMM（高斯混合模型），或者 HMM（隐马尔科夫模型）来进行聚类。GMM 是通过概率密度来进行聚类，聚成的类符合高斯分布（正态分布）。而 HMM 用到了马尔可夫过程，在这个过程中，通过状态转移矩阵来计算状态转移的概率。HMM 在自然语言处理和语音识别领域中有广泛的应用。在 EM 这个框架中，E 步骤相当于是通过初始化的参数来估计隐含变量。M 步骤就是通过隐含变量反推来优化参数。最后通过 EM 步骤的迭代得到模型参数。EM 有两个步骤，E

2021-01-14 16:26:23 1198

空空如也

空空如也