michellechouu-CSDN博客

原创 python--遇到SyntaxError: Non-UTF-8 code starting with ‘\xb8‘ in file， git-对某个文件取消跟踪

在运行python中因为添加了中文注释，遇到SyntaxError: Non-UTF-8 code starting with '\xb8' in file。2. 找到python的安装路径：打开cmd命令输入Python输入importsys输入print(sys.path)列表中的第四个将是你的安装路径。3. python--遇到SyntaxError: Non-UTF-8 code starting with '\xb8' in file。----对某个文件取消跟踪。

2022-12-12 15:51:48 1302 1

原创 python获取当前目录，创建目录，digui 创建目录，重命名文件

训练机器上：tensorboard --logdir --host=0.0.0.0 --port=8000。2. 获取上级目录：os.path.dirname(os.getcwd())把cuda 11.3 加入环境变量： source ~/.bashrc。本地机器上： http://10.128.11.200:8000/1. 获取当前目录： os.getcwd()os.makedirs递归创建目录。# 当前路径的上一级下递归创建目录。#当前路径的上一级下创建单层目录。

2022-12-12 15:49:42 679

原创 numpy和torch的一些操作

np.zeros_like(W) 返回一个和W行列数一样单元素全为0的矩阵，这函数方便的构造了新矩阵，无需参数指定shape大小；np.stack(all_data)，可以直接生成一个（10，5，2）的矩阵，不用sum+=all_data[i]来计算。ret[0][0].cpu().detach().numpy().round(3) #转换成numpy数组并保留三位小数。fbank = fbank[None, :] #把fbank（2，172，384）变成（1，2，172，384）

2022-12-12 15:47:00 487

原创 Anaconda 查看、新建、退出环境，pip安装环境、设置源等

anaconda 查看所有环境 conda info -e或者conda env list。conda装虚拟环境 conda create -n python=3.9。安装依赖环境：pip install -r requirements.txt。退出依赖环境： pip freeze requirements.txt。查看python的路径: 进入环境， which python。退出当前环境：conda deactivate。查看包的版本：pip show

2022-12-12 15:45:22 1019

转载 import win32api ImportError: DLL load failed: 找不到指定的模块。

安装pywin32最好用conda安装，它会自动判断有哪些依赖，并且自己拷贝一些需要的dll文件到system32文件夹下，用pip安装就会出现题目里面的错误。把里面的所有的文件复制到：C:\Windows\System32，然后在VSCODE上继续执行py脚本，执行正常。ImportError: DLL load failed: 找不到指定的模块。

2022-12-01 22:27:31 3397

原创不增加维度地把list转为numpy，从concatenate

注：虽然torch也有torch.Tensor(audio)的方式把list转换为tensor然后再处理，但这样是从内存到GPU，很慢，官方文档说的extreamely slow, 建议先像下面的代码一样通过np.concatenate(list)转换为numpy array后，再使用torch.from_numpy(array)转为tensor使用。

2022-11-16 10:04:45 119

原创不增加维度地把list转为numpy，从concatenate

注：虽然torch也有torch.Tensor(audio)的方式把list转换为tensor然后再处理，但这样是从内存到GPU，很慢，官方文档说的extreamely slow, 建议先像下面的代码一样通过np.concatenate(list)转换为numpy array后，再使用torch.from_numpy(array)转为tensor使用。

2022-11-16 09:58:30 481

原创不扩充维度地将list转换为numpy 数组

注：虽然torch也有torch.Tensor(audio)的方式把list转换为tensor然后再处理，但这样是从内存到GPU，很慢，官方文档说的extreamely slow, 建议先像下面的代码一样通过np.concatenate(list)转换为numpy array后，再使用torch.from_numpy(array)转为tensor使用。

2022-11-16 09:35:50 810

转载 MFCC和fbank的区别

一步一步讲解和实现ASR中常用的语音特征——FBank和MFCC的提取，包括算法原理、代码和可视化等。完整Jupyter Notebook链接：https://github.com/Magic-Bubble/SpeechProcessForMachineLearning/blob/master/speech_process.ipynb语音通常是指人说话的声音。从生物学的角度来看，是气流通过声带、咽喉、口腔、鼻腔等发出声音；从信号的角度来看，不同位置的震动频率不一样，最后的信号是由基频和一些谐波构成。之后被设

2022-11-14 10:36:03 534

原创 json.load()和json.loads（）

因为line已经是字符串了，这里json就要用load string（loads）的方式读才对。dump 和 dumps 都实现了序列化, 把json data存成文件。load 和 loads 都实现反序列化，从文件读取json data。dump：是将dict类型转换为json格式字符串，存入文件。load：是将里json格式字符串转化为dict，读取文件。loads：是将string转换为dict。dumps：是将dict转换为string。例如这段代码就会出错。...

2022-08-28 14:38:51 729

原创两种不同json file转csv的操作

读一个列表形式，列表里是dict的json file。

2022-08-28 12:14:05 101

原创 google colab 安装requirements.txt

https://colab.research.google.com/notebooks/io.ipynb#scrollTo=c2W5A2px3doP&uniqifier=1from google.colab import filesuploaded = files.upload()for fn in uploaded.keys(): print('User uploaded file "{name}" with length {length} bytes'.format( .

2022-05-07 21:19:21 957

原创吴恩达新书Machine learning yearning笔记

如果开发集上运行性能良好，却在测试集上效果不佳。如果此时开发集和测试集的分布相同，那么你就能清楚地明白问题所在：算法在开发集上过拟合了（overfit）。解决方案显然就是去获取更多的开发集数据。但是如果开发集和测试集服从不同的分布，解决方案就不那么明确了。此时可能存在以下一种或者多种情况：1. 算法在开发集上过拟合了。2. 测试集比开发集更难进行预测，尽管算法做得足够好了，却很难有进一步的提升空间。3. 测试集不一定更难预测，但它与开发集性质并不相同（分布不同）。因此在开发集上表现良好

2021-11-12 22:07:02 233

原创 windows10/centos 把json文件导入到mongodb

C:\Program Files\MongoDB\Server\4.4\bin>mongoimport --db c2eDB --collection c2ecol --file D:\CS5014\An-aid-to-learning-to-read-foreign-languages\database\cedict.json --jsonArray

2021-07-13 01:54:57 153

转载奇异值分解(SVD)原理与在降维中的应用

奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量　　　　我们首先回顾下特征值和特征向量的定义如下：Ax=λxAx=λx　　　　其中A是一个n×nn×n的实对称矩阵，xx是一个nn维向量，则我们说λλ是矩阵A的一个

2021-06-14 06:12:45 794

转载矩阵乘法

大多数人在高中，或者大学低年级，都上过一门课《线性代数》。这门课其实是教矩阵。刚学的时候，还蛮简单的，矩阵加法就是相同位置的数字加一下。矩阵减法也类似。矩阵乘以一个常数，就是所有位置都乘以这个数。但是，等到矩阵乘以矩阵的时候，一切就不一样了。这个结果是怎么算出来的？教科书告诉你，计算规则是，第一个矩阵第一行的每个数字（2和1），各自乘以第二个矩阵第一列对应位置的数字（1和1），然后将乘积相加（ 2 x 1 + 1 x 1），得到结果矩阵左上角的那个值3。也就是

2021-06-14 05:49:15 15477 1

转载矩阵的特征向量和特征值

原文https://www.matongxue.com/madocs/228/

2021-06-14 05:47:45 236

转载机器学习中Bias（偏差）和Variance（方差）

本文转自https://blog.csdn.net/program_developer/article/details/79829034目录：1. 为什么会有偏差和方差？2. 偏差、方差、噪声是什么？3. 泛化误差、偏差和方差的关系？4. 用图形解释偏差和方差。5. 偏差、方差窘境。6. 偏差、方差与过拟合、欠拟合的关系？7. 偏差、方差与模型复杂度的关系？8. 偏差、方差与bagging、boosting的关系？9. 偏差、方差和K折交叉验证的关系？10. 如何解决偏差、方差.

2021-05-03 05:29:56 2030

原创 pandas 把其中一列移动到最后一列出现unbounded slice error

我的dataframe长这样用pandas.pop(columns) 然后再pandas.insert() color = data.pop('color') data.insert(loc=-1, column='color', value=color, allow_duplicates=False)pop成功可以看到color列已经没有了，列数从448变为了447。但insert报错ValueError: unbounded slice查了才知道lo

2021-04-23 15:48:12 5485

原创 sklearn不能对单列数据进行独热编码的问题

OneHotEncoder无法直接对字符串型的类别变量编码，也就是说OneHotEncoder().fit_transform(testdata[['pet']])这句话会报错(不信你试试)。已经有很多人在 stackoverflow 和 sklearn 的 github issue 上讨论过这个问题，但目前为止的 sklearn 版本仍没有增加OneHotEncoder对字符串型类别变量的支持，所以一般都采用曲线救国的方式：方法一先用 LabelEncoder() 转换成连续的数值型变量，再用 On

2021-04-06 09:23:28 400

原创 numpy取最值增加行列，获取行列数

取某行某列的最大值：print("max value in each column: ", np.max(p, axis=0)) #取每一列的最大值并打印print("max value in each row: ", np.max(p, axis=1)) #取每一行的最大值并打印import numpy as npp = np.array([[4,6,2,], [5,1,8]])print("p: ", p)print("max value in each column: "

2021-03-25 07:28:37 543

原创 pandas， dataframe获取最后一行的三种方法

这次为了做NLP的第一个作业：隐马尔科夫模型的此行判断，开始接触pandas，numpy和pandas我真的很不熟，导致了作业晚交，理解了原理但代码写得很痛苦。用测试集计算了词性之间的转移概率，转换成矩阵；以及词性到单词的发射概率，转换成矩阵，记得import numpy as np。veterbi 算法获取预测的词性结果，因为我传进去的观察序列，也就是测试句转换成的单词表，是训练集的每个句子的单词在测试集的单词列表中的对应索引，所以生成的词性列表就要和传进去的观察序列重新匹配上，才能判断到底预测得

2021-03-25 07:15:28 47665 2

原创 python的 is，==， eq()

test = [('Out', 'ADP'), ('of', 'ADP'), ('business', 'NOUN'), ('?', 'PUNCT')]expt = [('Out', 'ADP'), ('of', 'ADP'), ('business', 'NOUN'), ('?', 'PUNCT')]print(test is expt)print(test == expt)print(test.__eq__(expt))FalseTrueTrueis 是检查两个对象的id（）是否一.

2021-03-25 07:13:36 525

原创 logistic regression notes

Simplified Cost Function and Gradient DescentNote: [6:53 - the gradient descent equation should have a 1/m factor]We can compress our cost function's two conditional cases into one case:\mathrm{Cost}(h_\theta(x),y) = - y \; \log(h_\theta(x)) - (1 - y

2021-03-03 04:22:37 78

转载并发\分布式之顺序一致性和线性一致性

https://lotabout.me/2019/QQA-What-is-Sequential-Consistency/https://wudaijun.com/2018/09/distributed-consistency/线性一致性(Linearizability)也叫做strong consistency或者atomic consistency，于 1987年提出，线性一致性强于顺序一致性，是程序能实现的最高的一致性模型，也是分布式系统用户最期望的一致性。与顺序一致性相比，线性一致.

2021-02-28 08:27:23 1659

转载双进程互斥的Dekker‘s 算法， algorithm sero， one，two算法，Peterson算法

https://zhuanlan.zhihu.com/p/125739705（algorithm one， two， peterson 算法）https://zhuanlan.zhihu.com/p/87387993（mutex和semaphores）https://zhuanlan.zhihu.com/p/332649743（semaphores更多内容）

2021-02-28 04:25:21 334

原创 CLion的Toolchains are not configured和no CMAKE profiles问题

很多年没有用C/C++了，VS太大我的小电脑装不下，听说Jetbrains出了针对C/C++变成的IDE，我就去下了CLion，结果嘞，第一个hello world就跑不起来，报错是“Toolchains are not configured”，摸不着头脑，原来是编译器没装，跑去下了MinGw。这方面CLion还挺智能的，file-settings-build，execution，deployment里选择toolchains,点+,搜MinGw，就显示没有，然后戳那个蓝色的download，就会跳转到Mi

2021-02-27 02:09:07 5488 6

转载为什么概率不能推事件？

之前学习数据分析的时候有接触到蒙特卡洛分析法，本质上就是穷举，然后给出了一个很有意思的例子：抛硬币正面和反面的概率各为1/2，那么1/2这个概率是怎么来的呢？很多人的直觉中觉得硬币不就是两面嘛，要么正面要么反面，所以正反面的概率各是1/2。但是这个1/2是直觉上或者“理论上”的1/2，并不严格，因为准确来说硬币有三面，如果不靠直觉的话抛完硬币后硬币立在地上这个结果也是会发生的可能之一，但是在大量的实验中发现，立起来的情况少之又少，在抛的次数越来越多后，立起：正面：反面的的比例越来越接近0:1:1（最起码

2021-02-22 05:52:39 7783

转载正则表达式和自动机的相互转化

定理 DFA 到正则表达式终止状态集的处理例子正则表达式到 NFA 例子 NFA 到 DFA 自动机等价和确定化 NFA的确定化之子集法构造思想无ε空边NFA转换为DFA—子集法带ε空边NFA转换为DFA—子集法定义1：状态集I的ε闭包定义2：状态集I的a转换（状态集I经过输入a的转换状态集合）算法例子参考资料定理对任一确定有限自动机A，存在一正则表达式e,使得L(A)=L(e),反之亦然。

2021-02-19 22:09:43 2676

转载详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

声明：本文为原创文章，发表于nebulaf91的csdn博客。欢迎转载，但请务必保留本信息，注明文章出处。本文作者: nebulaf91本文原始地址：http://blog.csdn.net/u011508640/article/details/72815981最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，

2021-02-13 06:47:23 448

单片机简易电子琴设计

空空如也