自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邵奈一的博客

专注大数据、人工智能、市场洞察者。微信:shaonaiyi888 微信公众号:邵奈一

  • 博客(280)
  • 资源 (4)
  • 收藏
  • 关注

原创 关于邵奈一

技能之外的文章吧,不定期更新邵奈一:不务正业的程序猿、正儿八经的斜杠青年

2019-07-19 15:08:24 1670 7

原创 邵奈一的技术博客导航

导航我的博客,整理出来,方便导航~

2019-04-17 09:21:49 9199 1

原创 使用Docker安装Redis并运行

这是使用Mac中安装Redis的教程,其实也可以用在Linux上。使用Docker安装MySQL5和MySQL8并同时运行邵奈一原创不易,如转载请标明出处,教育是一生的事业。

2024-03-11 23:00:32 448

原创 SpringCloud报错解决:Can‘t assign requested address: /192.168.215.0:9004

但现在的问题是,如果我关掉OrbStack,那么我Docker中的Redis、MySQL都没法使用了!而且项目的报错也因为我启动OrbStack而有所改变,由此可知就是OrbStack引起的。目前是SpringCloud项目,前端使用Vue,之前还行,但是突然有一天启动报错了。最后经过排查,发现原因是我开启了OrbStack导致的。将负载均衡,直接指定成ip地址访问即可!

2024-03-11 22:59:14 394

原创 安装Anaconda所遇到的一些问题

安装Anaconda所遇到的一些问题

2024-01-28 16:46:56 370

原创 使用ollama本地跑大模型

总的来说,跑起来还是非常方便的,也没有遇到多少坑。相类似的项目有Jan,大家也可以尝试一下。使用ollama本地跑模型ollama 大模型本地部署之浏览器插件邵奈一原创不易,如转载请标明出处,教育是一生的事业。

2024-01-28 16:36:06 2237

原创 报错:Kernel Restarting The kernel for Untitled.ipynb appears to have died. It will restart automatical

你参考其他人的文章,安装好M1版本的TensorFlow环境后,使用notebook出现了一些问题。其实,你在网上找教程,可能找到的是旧版本的安装教程!最后正确解决的办法是重新装TensorFlow。出现则表示安装成功了。

2024-01-11 23:15:04 945

原创 MacOS安装Miniforge、Tensorflow、Jupyter Lab等(2024年最新)

我现在需要安装Anaconda,但是我这里直接使用了Miniforge替代,然后安装Tensorflow、Jupyter Lab等,除了我总结我的搭建过程,还会在文章最后附带上一些有意义的参考链接。

2024-01-11 23:08:29 1527

原创 使用Docker安装MySQL5和MySQL8并同时运行

本教材非常有用,如果不是ARM架构,直接改一下镜像就可以了,非常简单。其实不这么麻烦也可以,就是直接装,然后切换服务,但是有点麻烦了,所以干脆直接通过不同端口,连接不同版本的数据库,这样就可以一劳永逸了。还有其他办法吗?!一起分享一下啊!邵奈一原创不易,如转载请标明出处,教育是一生的事业。

2024-01-03 23:55:34 961

原创 大数据HCIE成神之路之特征工程——特征选择

该方法可以移除数据集中低方差的特征,只有一个参数threshold:float,选填,默认为0,表示指定删除训练集特征的方差的阈值,此处指定的阈值为0.5,即特征方差小于0.5的特征会被删除;利用随机森林方法进行特征选择,特征重要性的得分存在不稳定的现象,这不仅仅是随机森林特有的,大多数基于模型的特征选择方法都存在这个问题。,生成随机数据,利用线性回归模型对生成的数据拟合,建立一个回归模型,通过打印模型的具体形式,观察线性回归各个自变量的系数,也就是每个特征的权重,数值越大的,对应的特征越应该被保留。

2024-01-03 23:41:32 919

原创 大数据环境准备与配置说明文档

1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。

2023-12-27 23:44:29 895

原创 大数据HCIE成神之路之数据预处理(6)——特征编码

通过独热编码,学历特征被转换为一个包含5个维度的二进制向量,每个样本的学历都可以用该二进制向量来表示。对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。每个取值对应一个维度,总共有5个维度,每个维度上的值为1表示该样本的学历属于对应的取值,为0表示不属于该取值。由上述实验结果可知,使用map()函数将原有数据集中的female和male,成功的离散化为1和0。掌握对数据进行有序分类变量的离散化的操作。

2023-12-27 23:32:18 1099

原创 大数据HCIE成神之路之数据预处理(5)——偏态数据处理

答案:计算第三列元素与该列最大值之间的差值的平方根的目的可能是为了进行数据的标准化或者变换,以探索数据的分布特征或进行数据预处理。第一个参数是插入位置的索引,第二个参数是新列的名称,第三个参数是一个列表,包含了要插入的每个行的值。数据集来自开源网络,分别有4个特征表征数据分布的不同特点,中度正偏斜(右偏斜),高度正偏斜(右偏),中度负偏态(左偏态),高度负偏斜(左偏斜)。数据集,对数据进行简单解读和整合后,通过调用平方根法,对数变换,Box-Cox对数据进行转换,对比前后变化,分析3种方法的区别。

2023-12-26 23:49:44 199

原创 大数据HCIE成神之路之数据预处理(3)——特征缩放

当涉及到特征缩放的选择时,我们需要考虑数据的特点以及所使用的机器学习算法。标准化可以消除特征之间的量纲差异,使得数据更易于比较和分析。标准化适用于大多数机器学习算法,特别是那些依赖于距离度量的算法,如支持向量机(SVM)和K近邻(KNN)算法。最小值-最大值归一化是另一种常见的特征缩放方式,它将特征缩放到一个指定的范围(通常是0到1之间)。这种缩放方式可以保留原始数据的分布形状和结构。

2023-12-25 23:45:29 60

原创 大数据HCIE成神之路之数据预处理(4)——数值离散化

因此,在上述例子中,我们可以将其归类为特征选择相关的知识。等距分箱:是最为常用的分箱方法之一,从最小值到最大值之间,均分为N等份,如果A,B为最小最大值,则每个区间的长度为W=(B−A)/N,则区间边界值为A+W,A+2W,…系统自动将数据划分为(1.998, 2.48]、 (2.48, 2.96] 、(2.96, 3.44] 、(3.44, 3.92] 、(3.92, 4.4]五个等宽区间,并将原本的数据集中的。我们可以使用qcut( )函数进行等频划分,将数据分成几等份,每等份数据里面的个数是一样的。

2023-12-20 23:23:52 200 1

原创 大数据HCIE成神之路之数据预处理(2)——异常值处理

这在鸢尾花数据集中是合理的,因为每个类别的名称都不会超过 10 个字符,所以使用这个数据类型的数组可以有效地存储和表示类别名称。splitter可选参数,代表特征划分点选择标准,splitter=best为针对所有特征找出最优的特征划分点,splitter=random为随机的在部分特征中找局部最优的划分点。综上所述,该for循环遍历了鸢尾花数据集中的每个类别,根据类别的索引选择相应的特征数据作为 x 轴和 y 轴,并使用不同的颜色和标签将它们可视化成散点图。然而,需要注意的是,3σ原则是基于。

2023-12-17 15:01:58 92

原创 大数据HCIE成神之路之数据预处理(1)——缺失值处理

成神系列教程,大数据HCE成神之路之数据预处理(1)——缺失值处理

2023-12-10 21:46:14 150

原创 测试类运行失败:TestEngine with ID ‘junit-jupiter‘ failed to discover tests

网上的很多方法都试过了,什么加依赖,排除依赖之类的,但是其实这样的错误,不应该关心项目本身的问题,因为它在另外一台电脑是可以跑的,所以考虑的话可以考虑环境,比如Maven版本、配置、依赖之类的。最终解决办法:在IDEA中操作一下就可以了,先mvn clean一下Maven依赖,然后再mvn install一下,注意,一定要install,只clean是不行的。背景:原本我的项目是可以运行的,然后我用另外一台电脑拉了下来,也是可以用的,但是很奇怪,用着用着就不能用了。

2023-12-02 21:55:03 1472 1

原创 大数据HCIE成神之路之数学(4)——最优化实验

最小二乘法(Least Square Method),做为分类回归算法的基础,有着悠久的历史。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的参数,并使得预测的数据与实际数据之间误差的平方和为最小。通俗地解释:最小二乘法是一种数学方法,它可以帮助我们找到一条直线,使得这条直线与一些散点数据的距离之和最小。这就像是在一堆点中找到一条最合适的线,使得这条线与所有点的距离之和最小。

2023-11-29 23:53:08 251 1

原创 启动HDFS报错:shaonaiyi-mac.local: ERROR: Cannot set priority of namenode process 2914

场景解释:1. 目前我使用Mac安装了伪分布式的HDFS集群,直接按照官网设置的。2. 由于各种原因,我需要重启我的Mac,重启Mac后无法再启动HDFS。

2023-11-22 21:00:30 232

原创 大数据HCIE成神之路之数学(3)——概率论

概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。概率论是用来描述不确定性的数学工具,很多数据挖掘中的算法都是通过描述样本的概率相关信息或推断来构建模型。本章节主要实现概率与统计相关的知识点,主要用到的框架是numpy和scipy框架。

2023-11-19 15:26:59 627

原创 大数据HCIE成神之路之数学(2)——线性代数

线性代数是一门被广泛运用于各工程技术领域的学科。用线性代数的相关概念和结论,可以极大地简化数据挖掘中相关公式的推导和表述。线性代数将复杂的问题简单化,让我们能够对问题进行高效地数学运算。线性代数是一个数学工具,它不仅提供了有助于操作数组的技术,还提供了像向量和矩阵这样的数据结构用来保存数字和规则,以便进行加,减,乘,除的运算。numpy是一款基于Python的数值处理模块,在处理矩阵数据方面有很强大的功能与优势。因为线性代数的主要内容就是对矩阵的处理,所以本章节主要的内容都是基于numpy进行展开。

2023-11-18 23:56:21 2112

原创 大数据HCIE成神之路之数学(1)——基础数学

基础数学知识在数据挖掘领域有着大量的应用,尤其是在算法设计和数值处理方面。本章节的主要目的就是基于Python语言和相应的基础数学模块,实现一些常用的数学基础算法,为进入数据挖掘的学习提供基础支持。本章节使用到的框架主要包括math库,numpy库和scipy库。math库是Python的标准库,提供一些常用的数学函数;numpy库是Python的一个数值计算拓展库,主要用于处理线性代数,随机数生成,傅里叶变换等问题;scipy库主要用于统计,优化,插值,积分等问题的处理。

2023-11-17 23:20:32 304

原创 机器学习入门案例(3)之使用决策树预测是否适合打网球

使用决策树根据天气、气温、湿度、风力四种特征预测是否适合打网球

2023-11-14 23:52:35 714

原创 机器学习入门案例(2)之使用逻辑回归预测房子是否能被租出去

同学们可以继续修改租金跟面积,租金不变,面积变大,看看概率是多少,租金变多,面积不变,看看概率是多少。请继续关注我,我将更新更多使用教程。邵奈一原创不易,如转载请标明出处,教育是一生的事业。

2023-09-13 17:35:50 142 1

原创 机器学习入门案例(1)之使用线性回归预测房价

这是最基础的入门教学案例。请继续关注我,我将更新更多使用教程。邵奈一原创不易,如转载请标明出处,教育是一生的事业。

2023-09-04 17:53:38 420

原创 报错解决:MySQLIntegrityConstraintViolationException: Duplicate entry ‘0‘ for key ‘PRI

而且数据库是使用的雪花算法生成的id,也说明一个问题,在字段里配置id策略的优先高于在配置文件里配置的。注意:此时MySQL数据库的表的id字段是没有设置自增的。但是我的配置文件里是配置里Auto形式的。主要的原因是我的数据库里已经有id为0的数据了,然后我的id默认值也是0,所以就重复了。我尝试在Navicat中将id的默认值去掉,发现去不掉…然后就报了上面这个错,报错很明显,其实就是id重复了。但是重启Navicat后,再设置为0就可以了。注意:直接在Navicat里面加是不生效的!

2023-07-12 23:57:44 583

原创 报错解决:Caused by: org.apache.ibatis.type.TypeException: Could not resolve type alias ‘User‘.

说明:使用MyBatis-Plus实现自定义XML接口SQL,主要是报以下错误:简单来说就是接口出问题了,XML出问题了,而且找不到User类。完整报错内容为:直接说解决办法:此属性需要User的全路径(resultType=“com.shaonaiyi.demo.domain.User”),不要直接写个User。比如目前的XML如下:应该改为:

2023-07-09 00:34:31 1770

原创 问题解决:更新字段为NULL的字段,一直无法更新成功

执行上面的SQL一直没有生效,原因是我手动在Navicat中删除了email字段的值。我确实是手动删掉了之前的值,而且也看不到的,但就是无法匹配为NULL。具体可能是版本原因Bug吧!

2023-07-08 17:48:55 950

原创 IDEA 导入多模块项目并设置运行

1、先在此页面(“项目结构”中的“模块”)中导入子模块,并设置好“源文件夹”、“测试源文件夹”、“资源文件夹”、“测试资源文件夹”、“排除文件夹”,导入后,其实已经可以运行了,但是父目录没有,感觉有点别扭,此时可以再将父项目导入即可,如果有提示什么说某源代码已经在demo模块之类,你可以点击父项目右侧的×,删掉。参考文章:https://blog.csdn.net/niubin24/article/details/128383421。2、如果遇到pom.xml文件是灰色并且有横杠,则继续导入进来。

2023-07-08 00:19:08 2793

原创 如何使用Git暂存文件再恢复

简而言之,其实就是通过这么两个命令,可以帮你修改好了那几个文件,不然你可能得手动改,太麻烦了那样。概念:git stash命令用于临时保存当前工作目录的修改,以便在需要的时候恢复。

2023-06-21 10:08:19 1556

原创 Win11安装MySQL5.5安装到最后一步没有反应

如果您在Windows 11系统中勾选了"Launch the MySQL Instance Configuration Wizard"选项,但是安装到最后一步没有反应,可能是因为该选项与您的MySQL安装程序不兼容。您可以尝试以下方法解决问题:卸载MySQL并重新安装:首先,您可以尝试卸载MySQL,然后重新下载并安装MySQL。在安装过程中,请确保取消勾选"Launch the MySQL Instance Configuration Wizard"选项。这可能会解决此问题。

2023-05-17 09:29:32 1052

原创 HBase API操作报错:Caused by: org.apache.hbase.thirdparty.io.netty.channel.ConnectTimeoutException: conne

1、我的Windows电脑的域名映射的192.168.128.250 job,代码里的配置也是正确的(ZKServer=job:2182),但是我的服务器上的主机名是master(我是单机版)修改过来就行了,映射关系:192.168.128.250 master,然后代码配置也改一下:ZKServer=master:2182。修改Windows上的域名映射关系。配置路径为:C:\Windows\System32\drivers\etc\hosts。

2023-03-01 16:21:56 887

原创 HBase API 操作报错:java.nio.channels.ClosedChannelException: null

比如我的ZK信息为:ZKServer=master:2182。但是我故意写成:ZKServer=master:2181。有可能是你链接Zookeeper的端口号写错了。那么就会报上面的错了。

2023-03-01 16:17:42 811

原创 HBase shell报错:ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running

网上有很多教程说退出HDFS的安全模式就可以了,然而我并没有进入安全模式,所以没法解决。HBase和Zookeeper进程均有,而且都没有掉线。

2023-03-01 16:11:54 1756 4

原创 报错:Unresolved dependency: ‘jdk.tools:jdk.tools:jar:1.8‘

原因及处理过程:我的电脑里安装了JDK11,我通过设置IDEA的编译版本,没法解决问题,然后尝试在pom.xml文件中添加和删除依赖都没有解决问题,所以我干脆装多了一个JDK8,环境变量通过改变名称来决定使用JDK8还是使用JDK11。重新装好了JDK8之后,在IDEA中设置好,发现问题解决!

2023-02-13 17:10:31 1453

原创 Hive报错ERROR tool.ImportTool: Import failed: java.io.IOException: Hive CliDriver exited with status=1

其实,这块的解决办法是Sqoop的–hive-table写错表名了,指定到了一个已经存在的表,而且我还加了参数–create-hive-table。

2023-01-13 11:36:12 1097

原创 Sqoop报错:ERROR Could not register mbeans java.security.AccessControlExceptio

修改jdk的文件$JAVA_HOME/jre/lib/security/java.policy。具体配置如下:在文件中添加如下内容。重新执行sqoop语句就不报错了。

2023-01-12 17:23:46 977

原创 Hive3自定义UDF函数报错解决: (class file version 55.0), this version of the Java Runtime only recognizes class

目前我的Win本地SDK版本是11,集群上的JDK版本是8。Hive3自定义UDF函数。

2023-01-12 11:23:01 917

原创 使用beeline的方式连接Hive报错: User: root is not allowed to impersonate anonymous (state=08S01,code=0)

使用beeline的方式连接Hive报错: User: root is not allowed to impersonate anonymous (state=08S01,code=0)

2023-01-10 14:51:16 683

graphviz软件安装包

graphviz软件安装包,配套教程为:机器学习入门案例(3)之使用决策树预测是否适合打网球=>https://shaonaiyi.blog.csdn.net/article/details/132859792?spm=1001.2014.3001.5502

2023-11-14

Spark项目实战:飞机延误预测项目-数据

1、适合人群:机器学习初学者 2、配套教程使用: Spark项目实战:飞机延误预测项目https://blog.csdn.net/shaock2018/article/details/90286682 3、Spark项目实战:飞机延误预测项目的数据

2022-11-11

olap4j-0.9.7.309-JS-3.jar

olap4j-0.9.7.309-JS-3.jar

2022-03-03

github-octotree-2.5.4.crx

Octotree谷歌浏览器插件

2021-01-10

Windows本地安装Hadoop所需文件.zip

Win本地执行Hadoop所需文件,本人博客(邵奈一CSDN)有配套教程:Windows本地安装Hadoop,请自行搜索,谢谢。

2019-12-15

VMwareWorkstation_10.01_Lite_CHS.exe

VMWare软件,是本教程最基础的前提软件,需要大家下载好,然后才能更好地学习!

2019-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除