鸡汤本汤-CSDN博客

原创 python安装prophet&pywt

是一个社区维护的开放源代码软件包集合，提供了许多常用的软件包。去官网下载了VisualStudioSetup 安装了一下。只是后来还是没有安装成功，后来转而安装prophet。会首先查找并安装Anaconda仓库中的软件包。嗯，还是不成功，说是缺少c++编译环境。之间的区别在于软件包的来源和安装渠道。：这个命令没有指定特定的渠道，因此。python中pywt库安装。将从默认的渠道中查找并安装。最后不知是哪个起作用了，，安装fbprophet。将从该渠道中查找并安装。

2023-12-13 21:21:05 263

原创 python代码小tips-从HTML字符串中提取文本内容并去掉标签

soup.get_text()返回的内容是多行的字符串，每行字符串之间用’\n’分割，可以使用split(‘\n’)来做到分隔。从类似HTML格式的字符串中提取文本内容并去掉标签，可以使用Python的 BeautifulSoup 库，这是一个用于解析HTML和XML的强大工具。在上述示例中，我们首先使用 BeautifulSoup 解析HTML字符串，并使用 soup.get_text() 方法提取文本内容，该方法会自动去除HTML标签。最后，text_content 变量中包含了提取的纯文本内容。

2023-09-27 21:28:04 827

原创十大数据挖掘算法之-KNN(K近邻)算法

KNN算法是一种监督学习算法，用于解决分类和回归问题。它的核心思想非常简单：一个样本的类别或值由其最近邻居的类别或值决定。这里的K代表了选择多少个最近邻居来做决策。

2023-09-26 20:39:45 439

原创剑指offer练习_动态规划_连续子数组的最大和

方法：动态规划，设动态规划列表 dp，dp[i] 代表以元素 array[i] 为结尾的连续子数组最大和。状态转移方程： dp[i] = Math.max(dp[i-1]+array[i], array[i]);1.遍历数组，比较 dp[i-1] + array[i] 和 array[i]的大小;所以dp[i]会有两个选择，dp[i-1]+array[i],或者array[i]。dp[i]中保存着以array[i]为结尾的子数组的最大和。因为以第i个数为结尾所以array[i]是必然被选择的，

2023-07-19 09:19:15 329

原创机器学习算法原理lightgbm、word2vec、cnn、lstm、textcnn、bert、transformer、随机森林、lr

由于lightgbm的基模型实际上是个二叉树，父结点的直方图实际等于左右两个子结点直方图的累积，所以当已知父结点的直方图时，只需要统计样本数量较少的子结点的直方图，数量较多的子结点的直方图可以通过做差得到。3、其他的改进还有，lightgbm进行分裂时采取的是leaf-wise策略，每次选择使得增益最大的叶子结点进行分裂。1、在样本数量方面，lightgbm根据样本梯度信息进行采样，保留那些梯度较大的样本，对梯度较小的样本进行采样，同时为采样样本添加一个权重值，从而降低采样对数据分布的影响。

2023-07-09 22:36:50 1386 1

原创直接使用OneHotEncoder进行类别变量转换的时候出现 Could not convert string to float的解决办法

或者可以直接升级sklearn版本至0.20或者更高版本。就可以直接使用OneHotEncoder处理了。这是sklearn版本问题，0.19及其之前的版本不能直接处理string类型的数据。（1）先使用LabelEncoder将string类型转换成数值类型。（2）再使用OneHotEncoder进行处理。

2023-05-12 22:05:54 555 1

原创一图了解随机森林的原理介绍、优劣势和具体使用方法

随机森林的原理介绍、优劣势和具体使用方法，话不多说，直接上思维导图。

2023-03-29 23:13:41 281

原创 EXCEL_以题促学01 以菱形和温度计形状展现条形图

2、选中右表，插入条形图，将两个系列的系列间距调整为0，则两个系列会重合，将“目标”系列设置为无填充，网格线之类不需要的直接删除，边框不需要的也将边框设置为无填充，展示数据标签。3、做完以上两步，温度计图就可以了。菱形的还需要设置一下填充的图片，直接先插入一个菱形图，复制菱形图，鼠标选中条形图的一个系列，粘贴，系列形状就变成菱形的了。1、表格数据，左侧是原数据，右侧增加了一列目标，这是为了能够展示菱形和温度计的总长度。4、如果在图上因为遮挡不好选择，可以选中条形图后，点格式选项卡，在下拉框选择需要的。

2023-02-11 23:27:10 238

原创以题促学03_数据的散点图和边际分布(非均匀子图)

用 np.random.randn(2, 150) 生成一组二维数据，使用两种非均匀子图的分割方法，做出该数据对应的散点图和边际分布图第一种使用gridspec，不跨行import numpy as npfrom matplotlib import pyplot as pltfrom matplotlib import gridspecdata=np.random.randn(2, 150) fig = plt.figure(figsize=(6,6))spec = gridspec.G

2022-01-19 23:43:08 1290

原创以题促学02_matplotlib画图_墨尔本1981年至1990年的每月温度情况折线图

墨尔本1981年至1990年的每月温度情况，利用数据，画出如下图：代码：from matplotlib import pyplot as pltimport pandas as pdimport numpy as npplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号data=pd.read_csv('../data/l

2022-01-18 23:43:02 685

原创以题促学01_matplotlib画图_分别用subplots和subplot，add_subplot3种方法画组合图

题目要求：要求1.一个画布上，有四个子图，画布大小设置为662.左上子图，折线图，y=xx3.右上子图，散点图，x轴范围（0-10）之间整数，y轴为（0-1）之间正太分布数据4.左下子图，饼图，数值见图下，分别标记各个块为 ABCD，同时，突出表示B代表的块5.右下子图，条形图，ABCDE五个类别的数值分别是15，20，25，30，35用三种不同的方法做出下图方法一 plt.subplots()from matplotlib import pyplot as pltimport

2022-01-11 23:24:20 853

原创 lightgbm早停失败

使用lightgbm，设置早停参数early_stopping_rounds=1000,但迭代到100轮就停止了。后来发现是没有设置树的数量，默认情况下，树的数量就是100棵，就是最多只能迭代100次，这样early_stopping_rounds=1000其实就相当于失效了...

2021-10-11 17:52:57 1214

原创 TypeError: not supported between instances of ‘treeNode‘ and ‘treeNode‘ PF-growth

参考博客

2021-09-06 20:15:11 242

原创 hive 经纬度距离计算方法

select 6378.137*2*ASIN(SQRT(POWER(SIN((${arrival_lat}-${hotel_lat})*ACOS(-1)/360),2)+COS(${arrival_lat}*ACOS(-1)/180)*COS(${hotel_lat}*ACOS(-1)/180) *POWER(SIN((${arrival_lon}-${hotel_lon})*ACOS(-1)/360),2))) as

2021-09-02 11:02:48 1622

原创计算两经纬度之间距离

def haversine(latlon1, latlon2): """ 计算两经纬度之间的距离 """ if (latlon1 - latlon2).any(): lat1, lon1 = latlon1 lat2, lon2 = latlon2 dlon = lon2 - lon1 dlat = lat2 - lat1 lon1, lat1, lon2, lat2 = map(radians,

2021-09-01 17:23:31 459

原创 AttributeError: module ‘numpy‘ has no attribute ‘ndarray‘

费了好大功夫，卸载安装多次，最终1.20.0版本的是可以的pip uninstall numpypip install numpy==1.20.0

2021-08-31 16:09:20 8064 2

原创 ValueError: numpy.ndarray size changed, may indicate binary incompatibility. Expected 88 from C head

费了好大功夫，卸载安装多次，最终1.20.0版本的是可以的pip uninstall numpypip install numpy==1.20.0

2021-08-31 16:08:31 1206 2

原创 pandas读取大文件

文章目录两种方法1 使用参数chunksize2 使用参数iterator两种方法1 使用参数chunksizereader = pd.read_csv('./data/my_data.txt', sep='\t', chunksize=4) # chunksize=4其实就是4行4行地读取reader.get_chunk(4) # 查看四行reader.get_chunk(4) 多次运行会有不同的结果，因为是迭代的，第一次显示的是0~3行，第二次则显示的是4-7行，以此类推。2 使用

2021-07-28 17:14:04 1949

原创 word2vec 使用大语料库边读边训练

使用gensim中word2vec训练词向量时，需要将语料处理成列表形式。1 一般训练过程：corpus=["我是中国人","北京是中国首都","学生向往北京大学"]sentence=[i.split() for i in corpus]from gensim.models.word2vec import Word2Vecimport multiprocessingworkers=multiprocessing.cpu_count() #获取cpu核数，使用最大的核数，并行d

2021-07-28 15:50:35 701

原创 Python yield理解

可以使用一个例子理解。设计一个函数输出0到n的平方，设计第一版函数：def sum_n(n): for i in range(n+1): print(i**2)运行函数，sum_n(3)得到以下结果这个函数可以打印出我们需要的结果，但是函数的可复用性比较差，因为函数的返回值是None，其他程序无法使用此函数产生的结果。如果要提高函数的复用性，则可以使用列表将结果保存，第二版函数如下：def sum_n(n): sum_list=[] for i in range(n+1): su

2021-07-28 14:38:28 196 1

原创数据仓库之事实表和维度表

直接上例子吧1 事实表一个销售表有四列用户商品数量时间，记录着 “用户” 在某个 “时间” 购买了 “多少” “商品” 。这样的表不仅包含了维度列（用户商品）还包含了度量列（数量），是事实表。事实表中一般不包含维度列的具体信息。如，此销售表是事实表，事实表并没有展示用户的具体信息。2 维度表维度表主要用来展示某一维度具体信息。如用户表。表中含有用户id，用户姓名，用户年龄等各个维度的用户信息。...

2021-07-09 11:14:58 1231

转载 2021-07-09 csdn markdown语法

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-07-09 11:00:20 91

原创 selenium安装 +chromedriver.exe安装

1 selenium安装可以直接使用pip 安装。如果要快速，可以配合镜像pip install --user selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com2 chromedriver.exe安装使用selenium配合webdriver使用。需要安装chromedriver.exe（如果使用谷歌浏览器的话）首先查看自己浏览器的版本然后去下载符合版本的chromedriver下载网址选择

2021-01-21 14:25:39 604

原创特征选择方法总结

1、方差筛选法移除低方差的特征。低方差说明特征比较均匀，区分度低。如，一列数值全为1，则这列数值的方差为0。这一列特征对于训练模型是没有意义的。使用方差筛选法的代码：from sklearn.feature_selection import VarianceThreshold# 6个样本，3维的特征向量X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1

2020-11-30 15:07:19 709 1

原创 Learning to Build User-tag Profile in Recommendation System 论文阅读

introduction用户画像时推荐系统中很重要的部分，准确的用户画像能够提高推荐系统的推荐效果。figure1展示了用户画像是如何在推荐系统中起作用的。由图可知，推荐系统包括了四个部分。用户画像、新闻画像、召回、排序。RQ1:如何自动选择有用的特征并且学习同一field内部以及不同field之间的交叉特征？3 our model在这一部分，开始介绍本文的提出的用户标签画像模型。其中包括共享向量的多头注意力机制、基于FM的特征交叉方法以及一种新颖的标签组合方法。模型共包括了五层。分别是输入层

2020-11-24 17:01:42 1183 4

原创如何快速在线生成latex表格？

知乎链接

2020-10-19 18:13:16 179

原创 elsevier论文模板下载

链接添加链接描述

2020-09-19 12:05:44 2477 1

原创安装CTEX注意最好安装full版本的，不然运行的时候错比较多

清华大学开源软件镜像站：https://mirrors.tuna.tsinghua.edu.cn/ctex/legacy/2.9/下载full那一个版本刚开始的时候我下载的CTeX_2.9.2.164.exe在编译时就出现elsarticle.cls not found的错误换成full这个版本就没有错误了...

2020-09-19 11:45:12 1444 1

原创 python 版本3.6.5+tensorflow==2.0.0安装

之前一个电脑上python版本是3.6.1配合tensorflow2.1.0安装成功。但是这一个是python3.6.5安装tensorflow2.1.0版本一直不成功。有的显示安装成功，但import tensorflow时会显示以下错误：看到博客上很多经验是说版本不匹配。后来换了tensorflow=2.0.0（在anaconda prompt下）直接输入如下命令：pip install tensorflow==2.0.0 --user -i http://pypi.douban.com/

2020-09-19 11:38:53 1276

原创 join/left join条件写在on后面和where后面的区别

首先需要说明，连接的具体结果和数据库语言是有关系的，不同的数据库语言遵守的规则有细微的差别，不能一概而论，我这里是mysql。首先，贴出两张表。成绩表：score学生表：student1、left join 在on后增加条件含左表字段SELECT * FROM studentleft join score on score.s_id=student.s_id AND score.s_name='赵雷';结果：可以看到，on后面的限制条件score.s_id=student.s_id AND

2020-08-12 22:57:53 2092

原创 pd.get_dummies()默认str类型才会变成onehot

以泰坦尼克号死亡率预测数据为例，(1) pd.get_dummies()不指定列如果直接使用pd.get_dummies()而不指定列，则只有那些数据类型为object，也就是str类型的列会被变成onehot如果把Cabin的类型修改为int，则此特征不会被处理为onehot(2)指定需要被onehot的列当指定了columns时，只有指定的列被处理为onehot，不管这个列数据类型是什么，都可以进行处理。...

2020-07-22 16:45:45 417

原创往数据库的表中导入数据，导入不报错但表中无数据

有时候我们需要将一些数据从csv等文件中导入到mysql数据库中，但mysql默认的数据编码格式是latin，我们的文件数据很多时候是utf8，这个时候由于编码格式不匹配，并不能将文件数据成功导入到数据库中。为了解决这个问题，我们可以采取两种方法。（1）建表时指定表的编码格式为utf8这种方法只会将当前表的格式改为utf8，其他表还是latin格式可以在建表时设定格式，如下图：如果表已经存在了，则可以使用下面的语句修改：ALTER TABLE table_name DEFAULT CHARAC

2020-07-19 20:41:02 2285

原创 navicate连接mysql失败解决方法

我的是因为mysql服务没开启。将MySQL80开启之后，就可以建立连接了

2020-07-14 08:17:17 441

原创 Undefined citation warnings/I found no \citation commands --while

latex 插入文献，使用菜单键进行编译时一直出错，换成在命令行编译，成功了elsarticle-template-num是.tex文件的名字依次四个命令：pdflatex elsarticle-template-num #使用pdflatex compilebibtex elsarticle-template-num #使用bibtex compilepdflatex elsarticle-template-numpdflatex elsarticle-template-num参考：

2020-07-04 16:07:43 408

原创 xgboost objective和eval_metric的区别

之前对于xgboost中的两个参数objective和eval_metric一直分不清楚，不知道它们各自的作用。后来通过查找资料理清了他们之间的关系。这里记录一下。1、objectiveobjective参数代表的是模型的损失函数，也就是我们进行优化的目标。这里要注意损失函数与目标函数的区别，一般情况下，我们说的损失函数就是目标函数，但是一些模型如xgboost要求目标函数要有一阶导数和二阶导数才能进行优化，而很多目标函数是没有一阶导数或二阶导数的，所以这时就用具有相似结果的损失函数来代替（如果损失函

2020-06-28 13:52:50 3624 3

原创 ERROR setFile(null,true) call failed.xxx hive.log (Permission denied)

借鉴博客参考博客部分内容：我的解决办法和参考博客基本一致。切换用户：su root

2020-06-21 18:34:20 491

原创明明安装了lightgbm 使用时却报错：No module named lightgbm

我的是因为我使用的是anaconda，安装lightgbm时直接在cmd面板上pip install 镜像安装的。查看到一个博客（找不到了）说是anaconda的python和在的位置有点特别啥的，不能直接在cmd里安装。打开anaconda 的prompt，在里面安装就成功了。我试了，真的成功了...

2020-06-19 18:09:00 4789 2

原创论文解读：A content-based recommender system for computer science publications

摘要：计算机科学和信息技术对我们的生活产生了深远的影响，越来越多的论文向计算机科学杂志和会议投稿。为了帮助作者决定将论文投到哪里，本文提出了计算机科学领域期刊和会议推荐系统，这个推荐系统是基于内容的推荐系统。这一推荐系统的网址是： http://www.keaml.cn/prs/。这个系统可以基于论文的摘要推荐合适的期刊或者会议。为了紧跟计算机科学与技术的进展，使用网络爬虫来持续更新训练集以学习模型。为了达到在线交互，提出了一个基于卡方特征选择和softmax回归的高效的混合模型。本文的实验效果表明这个系统

2020-06-14 19:33:22 578

原创生成requirements.txt文件，用于记录所有依赖包及版本号

1.python项目中必须包含一个 requirements.txt 文件，用于记录所有依赖包及其精确的版本号。以便新环境部署。requirements.txt可以通过pip命令自动生成和安装。2.生成requirements.txt文件：pip freeze > requirements.txt3.安装requirements.txt依赖：pip install -r requirements.txt（想要速度快可以设置镜像安装）镜像安装：pip install -i http://p

2020-06-12 20:03:15 907

原创将虚拟机本地csv文件导入hive

1、首先，先将windows系统下的csv文件上传到虚拟机目录中。我的是在/my_dbdata/下2、启动hive，我提前创建了一个名为toutiao的hive业务数据库。创建时使用的命令：create database if not exists toutiao comment "user,news information of 136 mysql" location '/user/hive/warehouse/toutiao.db/';之后再数据库中创建tablehive (default)

2020-06-01 11:43:20 1628

空空如也

空空如也