自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Yale-曼陀罗

数据挖掘/机器学习

  • 博客(198)
  • 资源 (2)
  • 收藏
  • 关注

原创 re正则[,;\s,]+一次性替换所有的空格、制表符、换行符、逗号等为指定的标点符号

【代码】re正则[,;\s,]+一次性替换所有的空格、制表符、换行符、逗号等为指定的标点符号。

2024-04-13 07:42:57 102

原创 如何将list中元素有复合嵌套分隔符的展平

【代码】如何将list中元素有复合嵌套分隔符的展平。

2024-04-11 17:05:13 77

原创 一次性将字典中所有value值的字符串中的分隔符统一替换为中文逗号,而不管它们原来是什么分隔符。

一次性将字典中所有value值的字符串中的分隔符统一替换为中文逗号,而不管它们原来是什么分隔符。注意,正则表达式中的中文字符需要使用正确的编码,确保你的Python源文件也使用了相同的编码(通常是UTF-8)。

2024-04-10 18:44:36 366

原创 使用字典推导式删除值为NaN的键

【代码】使用字典推导式删除值为NaN的键。

2024-04-10 17:52:57 360

原创 如何在Python中使用列表展开多行

在Python中,如果你有一个包含列表的DataFrame,并且你想要将这些列表中的每个元素都展开为多行,你可以使用pandas库中的explode方法。explode方法会将列表中的每个元素转换为一行,同时保留原始DataFrame中的其他列。

2024-04-10 16:02:22 161

原创 Mac中用python安装lightgbm报错image not found

在执行 import lightgbm 报错,显示 image not found。问题:Mac - Anaconda - Jupyter notebook。完成后退出重新import lightgbm就可以了。

2024-03-20 17:25:29 371

原创 解决UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 0: invalid start byte

问题:思路:这个错误表明你正在试图以UTF-8编码方式解码一个不能被识别为UTF-8的字节序列。这可能是因为该文件并非UTF-8编码,或者文件在传输过程中被损坏。

2024-03-12 15:42:19 458

原创 如何在jupyter Notebook中下载第三方包

【代码】如何在jupyter Notebook中下载第三方包。

2024-03-12 14:03:51 481

原创 Mac电脑如何长截图?

2、按下组合快捷键【command+option+i】,出现“html”界面,如图。4、在搜索框内输入Capture full size screenshot,如图。3、按下组合快捷键【command+shift+p】,出现搜索界面,如图。5、按下回车键,弹出保存界面,选择保存位置,按下保存按钮即可。1、打开需要截图的网页(小编随意输入的内容),如图。

2023-12-28 19:27:29 546

原创 MySQL中修改注释+报错1067错误时的解决方法

首先执行MySQL语句:SET sql_mode = ‘ALLOW_INVALID_DATES’;

2023-11-14 16:09:15 252

原创 groupby的复杂用法

【代码】groupby的复杂用法。

2023-11-09 15:36:33 127

原创 客户类型:城市合伙人、经销商、代理商、分销商和终端客户的区别

1. 城市合伙人:在传统分销渠道的基础上融合了粉丝经济,会员经济,合伙人制度等一系列中心思想从而形成的新的商业模式。不需要缴纳加盟费,可以象征性地收取品牌保证金,但是金额不会很多,因为他本身既是股东还是合伙人,所谓的“品牌保证金”其实就相当于入股,双方共同经营品牌,按协议进行分红,合伙人自己的销售额还有提成。2. 经销商:直接从厂家或一级总代进货,再转手卖出,赚取其中差价。

2023-10-20 10:55:23 750

原创 CSDN发表文章的常用语法说明

二、文本样式文本样式语法:文本样式效果:强调文本 强调文本加粗文本 加粗文本标记文本删除文本H2O is是液体。210 运算结果是 1024。列表语法:列表效果:图片效果:图片效果:图片: 带尺寸的图片: 宽度确定高度等比例的图片: 高度确定宽度等比例的图片: 居中的图片: 居中并且带尺寸的图片: 居右的图片: 链接语法:链接效果:链接: link目录语法:目录效果:表格语法:表格效果:注释语法:注释效果:Markdown将文本转换为 HTML。自定义列表语法:自定义列表效果:La

2023-07-18 00:20:59 245

原创 字典的切片方法

【代码】字典的切片方法。

2022-12-02 16:16:16 928 1

原创 Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

Penn Treebank是NLP中常用的PTB语料库,Penn Treebank是一个项目的名称,该项目对语料进行标注,标注内容包括:【词性标注】和【句法分析】。语料来源:1989年的华尔街日报语料规模:1M words,共2499片文章语料价格:1500~1700$tokenizing(分词)tagging(词性标注)chunking(分块)parsing(句法分析)"""treebank示例目录中包含的文件,分别为raw,tagged, parsed,combined。

2022-10-24 16:27:05 1834

原创 torch.randint(len(training_data), size=(1,)).item()的理解

只要是只有一个元素,不论维度如何,都可以使用item()方法,取出该元素。如果对包含多个元素的torch.tensor使用。得到【只有一个元素的张量】里边的【元素值】。torch.randint()函数中,torch数据类型的。

2022-10-21 17:12:13 1979

原创 from __future__ import division和from __future__ import print_function的作用

如果某个版本中出现了某个新的功能特性,而且这个特性与你电脑中当前部署的Python版本中使用的不兼容,也就是它在该版本中不是语言标准,那么我如果想要使用的话就需要从future模块导入。如果你本地电脑部署的python版本是python2.X,而你要运行的Python脚本是Python3.X版本的,那么按照python3.X那样使用这些函数。加上这些,如果你系统的python版本是python2.X,你也将按照python3.X那样使用这些函数。

2022-10-19 15:13:13 437

原创 一键筛选出所有DataFrame的列类型为‘datetime64[ns]‘的各个列&判断DataFrame的各个列数据类型

【代码】一键筛选出所有DataFrame的列类型为'datetime64[ns]'的各个列&判断DataFrame的各个列数据类型。

2022-10-18 10:11:17 581

原创 一次性删除DataFrame中为空的各个列

【代码】一次性删除DataFrame中为空的各个列。

2022-10-17 17:39:57 894

原创 常见的数据扩展方式unsqueeze与expand的用法与区别

相反地,squeeze()函数用于减小维度,它只能减少size=1的维度;

2022-10-17 14:37:27 771

原创 NLTK语料库nltk.download()安装失败及下载很慢的解决方法

使用NLTK.download()时出现的问题nltk_data数据下载链接:https://gitee.com/qwererer2/nltk_data/tree/gh-pages/

2022-10-14 16:51:28 906

原创 Python中collections模块(高性能集合操作)的用法详解

(1)namedtuple 功能详解:namedtuple() 定义一个返回值为tuple的类。(2)namedtuple语法说明:namedtuple('名称', [ 属性list])(3)namedtuple定义的tuple类的元素访问方式:使用【下标】获取元素;使用【属性】直接获取元素。

2022-10-14 16:48:29 686

原创 Python中计算程序的运行时间——timeit模块

在使用timeit模块时,可以直接使用timeit.timeit()、tiemit.repeat(),还可以先用timeit.Timer()来生成一个Timer对象,然后再用TImer对象用timeit()和repeat()函数,后者再灵活一些。但是,很多时候我们只想对某些代码片段或者算法进行执行时间的统计,这时候,使用timeit模块就比较方便。时,只能导入 Timer 类(有全局变量。time.time() 计算的是程序的运行时间,会受到机器负载的影响,除了 windows 以外的平台精度比较高。

2022-09-28 16:24:23 4668

原创 张量的基本概念+张量的聚合、拼接、比较、随机化采样、序列化等操作+升维、降维

在做张量的运算操作时,dim设定了哪个维,就会遍历这个维去做运算(也称“沿着该维运算”),其他为顺序不变。在做张量的运算操作时,dim设定了哪个维,就会遍历这个维去做运算(也称“沿着该维运算”),其他为顺序不变。时,则结果变为两个向量的运算,维度变形。为了使结果保持正确的维度,聚合操作提供了。:常见的张量聚合运算包括:求平均、求和、最大值、最小值等。)也是类似的,通过指定维度dim,获得不同的拼接结果。维发生变化,其余维度不变。维发生变化,其余维度不变。(n>2) 时,则结果的。

2022-09-28 14:16:27 883

原创 NLP之【点互信息PMI】——衡量两变量之间的相关性

M = M / expected # Silence distracting warnings about log(0): with np . errstate(divide = 'ignore') : # np.errstate()用于浮点错误处理的上下文管理器。M = np . log(M) M [ np . isinf(M) ] = 0.0 # log(0)=0 # np.isinf()用于按元素测试正无穷或负无穷 if positive : M [ M < 0 ] = 0.0 return M。

2022-09-27 16:44:30 1565

原创 np.dot、np.outer、np.matmul、np.multipy、np.inner、np.outer与np.cross几个函数之间的区别

向量的,也叫做向量的、。对两个向量执行点乘运算,就是对着两个向量对应位置一一相乘之后求和的操作,点乘的结果是一个标量。定义: 两个向量 aaa 与bbb 的内积为 a∙b=∣a∣∣b∣cos∠(a,b)a\bullet b = |a||b|cos∠(a, b)a∙b=∣a∣∣b∣cos∠(a,b),特别地,0∙a=a∙0=00\bullet a =a\bullet 0 = 00∙a=a∙0=0;若a,ba,ba,b是非零向量,则 aaa 与 bbb 正交的充要条件是a∙b=0a \bullet b = 0a

2022-09-26 17:00:35 2342

原创 Python中数组切片的用法详解

将输入数组[1,5,7,2]和数组[0,3,1,2]产生笛卡尔积,就是得到(1,0),(1,3),(1,1),(1,2);就是按照坐标(1,0),(1,3),(1,1),(1,2)取得 x所对应的元素4,7,5,6,(5,0),(5,3),(5,1),(5,2)取得 x 所对应的元素20,23,21,22…花式索引根据索引数组的值作为目标数组的某个轴的下标来取值。

2022-09-26 12:01:17 21311 2

原创 numpy的广播机制的计算原理详解

之所以说这种复制是“轻量级”的,是因为广播机制仅仅在逻辑上改变了张量的尺寸,只待实际需要时才真正实现张量的赋值和扩展。这种优化流程节省了大量计算资源,并由计算框架(如NumPy)隐式完成,用户无须关心实现细节。(例如:两个数组的加、减、乘、除等运算) ,而不是矩阵乘法的运算。,就是张量自动扩展,它是一种轻量级的张量复制手段。3. 广播(broadcast)运算的计算规则。1. 广播(broadcast)运算的前提。2. 广播(broadcast)运算的定义。(element-wise)的。

2022-09-23 16:34:55 671

原创 chp2-2-2_fmm_word_seg通过最大正向匹配算法对句子进行切分

【代码】chp2-2-2_fmm_word_seg。

2022-09-20 20:30:12 306

原创 自然语言处理——基础篇01

自然语言处理(Natural Language Processing,NLP):是用计算机来理解和生成自然语言的各种理论和方法。自然语言:指的是人类语言,特指文本符号,而非语音信号。自然语言处理的代表性应用:机器翻译、智能助手、文本校对、舆情分析、智能教育、知识图谱。自然语言处理属于认知智能任务:认知智能是人类与动物的主要区别之一,它需要更强的抽象和推理能力。

2022-09-16 19:45:10 697

原创 Markdown中表格中内容换行、左对齐等基本操作

Markdown中表格中内容换行、左对齐等基本操作

2022-09-15 18:50:16 8258

原创 Python——zip的用法_list-dict复合字典+dict.get()函数用法

zip()函数,接受多个序列,然后将每个序列对应位置的元素组织在一起组成一个新的元组,最后返回由这些元组组成的列表。它的长度有参数序列中最短的长度决定。zip()函数,返回N个元组的迭代器,其中每个元组包含了N个序列里对应的元素。

2022-09-14 18:52:05 597

原创 增量表、全量表、拉链表的应用场景及优缺点详解

维度表:业务过程的业务实体,如:商品,用户,订单。代理键(自增列,可以充当主键)自然键(唯一区分,商品id,订单id)维度属性(商品的大小,颜色等)事实表:业务内特定事件的数据(大量的行),如:商品的销售记录。事实表的常见分类包括:全量表、增量表、流水表、拉链表。接下来,我们将重点介绍什么是全量表、增量表、快照表和拉链表。\quad表中常见的i、s、a,分别代表增量表、快照表、全量表。全量表:记录更新周期内的全量数据,无论数据是否有变化都需要记录;...

2022-08-30 21:20:55 9154

原创 《产品经理必读:五种经典的创新思维模型》的读后感

分享5个经典的 创新思维模型 。效率创新:本质就是你 能不能用标准化、差异化的方法,提高效率,降低生产成本 ?如果能,你将会得到奖励,奖励就是利润!巴菲特提出 利润 分为四个部分——无形资产、成本优势、网络效应、迁移成本。模式创新:本质就是降低 交易成本。著名经济学家科斯提出过一个“”理论,它意思是, 只要有交易,这个过程中就会出现损耗,出现损耗就会出现成本,这个就是交易成本。 简单理解,就是我们常说的信息不对称!举个例子:一件产品,在工厂的生产成本只需要1元,如果他的利润率是100%,那么,应该售价是2元

2022-07-05 11:11:15 284

原创 Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块

可以用numpy 中的 也能求得简单平均数。此外,它也可以求出 加权平均数 。(average 里面可以跟一个 weights 参数,里面是一个权数的数组)例如:方差:典型实例:标准差:典型实例:二、利用Numpy模块计算均值、方差、标准差等对于 pandas ,也可以用里面的 mean 函数可以求得所有行或所有列的平均数,例如:若计算 某一行或某一列的平均值,则可以使用 选取该行或该列数据,后面跟 就能得到,例如:pandas 中的 可以计算 样本方差(注意不是),可以得到 样.....

2022-07-01 19:16:05 15085 1

原创 CDA数据分析——AARRR增长模型的介绍、使用

AARRR增长模型:将产品的营收路径拆分为。下面是对 AARRR增长模型 中各渠道的定义及运营方式做详细讲解:

2022-06-15 12:47:19 670

原创 CDA数据分析——Excel数据处理的常见知识点归纳

Excel的重要性不言而喻,日常数据处理、分析、作图、数据透视、报表管理模板都离不开Excel。其中,需要熟练运用数据透视表和常用函数。数据透视表: 可以快速完成对。常用函数: Excel中常用的函数包括关联匹配类函数、计算类函数和逻辑运算类函数:......

2022-06-15 11:18:09 501

原创 Python时间戳和日期格式之间的相互转化

java默认精度是毫秒级别的,生成的时间戳是13位,而python默认是10位的,精度是秒。那么python是如何生成13位时间戳,以及时间戳如何转换为日期(年-月-日 时-分-秒) Python实现【时间戳】与【日期格式】之间相互转化的应用函数汇总表:二、将10位或13位时间戳转为日期格式(年-月-日 时-分-秒)函数4 millisecond_to_time(millis):13位时间戳转换为日期格式字符串参考链接:【1】在线时间转换工具:https://tool.lu/timestamp...

2022-06-14 12:31:02 9147 2

原创 Python函数定义的高级用法

函数定义时的几类常见参数:看如下代码发现 country 这个参数 基本都 是”CN”, 就像我们在⽹网站上注册⽤用户,像国籍这种信息,你不不填写,默认 就会是 中国, 这就是通过默认参数实现的,把country变成默认参数⾮常简单这样,这个参数在调⽤用时不不指定,那默认就是CN,指定了了的话,就⽤用你指定的值。另外,你可能注意到了了,在把country变成默认参数后,我同时把它的位置移到了了最后⾯面,为什么 呢?这是语法强制的,默认参数放在其他参数后边,为啥呢? 假设允许这样:那调⽤用时你告诉.

2022-06-02 23:11:09 842 2

原创 python 两个等长list的各对应位置元素相加+两个字典相加,相同键元素累加,不同键元素取全集

常规操作汇总两个等长list的各对应位置元素相加两个字典相加,相同键元素累加,不同键元素取全集两个等长list的各对应位置元素相加list1=[1,2,3,4,5]list2=[2,3,4,5,6]import numpy as nplist3=np.sum([list1,list2],axis=0).tolist()print(list3)>>>[3, 5, 7, 9, 11]两个字典相加,相同键元素累加,不同键元素取全集r1_dic={'a':1,'b':2,'c

2022-05-13 10:18:06 1760

python获取连接对象conn,建立数据库的连接,并执行常规的增、删、改、查、插入等操作;

python获取连接对象conn,建立数据库的连接,并执行常规的增、删、改、查、插入等操作;

2022-09-14

Neo4j-Cypher-Quick-Reference-v2018-PART-1.pdf

Neo4j-Cypher-Quick-Reference-v2018-PART-1.pdf

2021-10-14

d2lzh_pytorch.zip

d2lzh_pytorch源代码,适合自学pytorch教程所需的d2lzh_pytorch第三方模块import d2lzh_pytorch as d2l

2021-03-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除