自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 数据分析3(svm)

通俗易懂举栗子–怎么理解支持向量机(SVM)?1. 讲解SVM# coding = utf-8"""@目的:展示svm"""import numpy as npfrom sklearn import svmimport matplotlib.pyplot as plt# 生成随机数据集np.random.seed(2)x = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]]y = [-1

2021-11-11 22:37:11 1719

原创 数据分析2(决策树和随机森林)

用决策树来实现鸢尾花的分类python实现决策树、随机森林的简单原理

2021-11-11 22:32:35 1074

原创 数据分析1(Logistic回归)

这周讲数据分析,我主要讲svm,但是听别人讲Logit回归模型和决策数时,我发现自己有些不清楚的地方,看来接触一个东西就需要学透彻一点,所以,我想好好看看Logistic模型、决策树和SVM,然后总结一下。目录1. Logistic回归和Logit回归区别2. Logistic回归在机器学习、计量经济中的应用3. 如何使用python实现4. 如何使用R实现1. Logistic回归和Logit回归区别Logit回归模型等式的左边可以理解为log-it,it指odds,也就是胜率,即p1−p\frac

2021-11-11 22:26:39 1767

原创 用python写程序的一些小积累(4)

目录1. Python 中正则表达式(.*?) 的理解2. 不知道dict的key的情况下,怎么取到key3. python两个dict怎么比较元素4. python 获取list中元素的索引1. Python 中正则表达式(.*?) 的理解.*? 表示非贪心算法,表示要精确的配对。.*表示贪心算法,表示要尽可能多的匹配。参考:Python 中正则表达式(.*?) 的理解2. 不知道dict的key的情况下,怎么取到keyname_dict = {'xi': 18, 'ming': 20}ke

2021-11-07 22:23:18 232

原创 安装pyltp过程记录

今天上午就在倒腾python环境了,感觉每次做这个都是玄学。就记录一下我怎么做的,后续在台式机上安装也好有个经验。我首先在vscode的terminal中输入pip install pyltp,结果安装失败了,一查资料原来大家都失败了,然后按照另一种方法,去下载对应的安装包,下载链接和安装过程见下面的链接。pyltp安装教程及简单使用对,忘记了,当我满心欢喜地安装pyltp时,又出现了我的python版本是3.7,而不是3.6,但是下载的这个wheel版本适用于3.6,安装不成功,于是我得先去创建一个

2021-11-04 19:56:55 181

原创 离散选择模型(Discrete Choice model)

目录1. 什么是离散选择模型?1.1 基本概念1.2 效用最大化1.1 连续变量1.2 分类变量1.3 计数变量2. 线性概率模型3. Probit模型4. Logit模型5. 最大似然估计1. 什么是离散选择模型?日常生活中,我们会面临各种各样的选择问题,比如出行是打车、坐地铁还是坐公交?比如选择去不去某个餐厅吃饭或去哪个餐厅吃饭等等。回想一下我们是如何做决策的呢?本文要讲的离散选择模型(Discrete Choice Model, DCM)提供了一种有效的建模思路,该方法在经济学、社会学领域有着广泛

2021-10-22 19:05:28 6407 1

原创 用python写程序的一些小积累(3)

写程序时的一些积累。目录1. 文件夹中有多个txt文件,怎么读取里面的数据2. yield()1. 文件夹中有多个txt文件,怎么读取里面的数据将多个txt文件里的内容进行合并# -*- coding:utf-8 -*- #os模块中包含很多操作文件和目录的函数 import os #获取目标文件夹的路径 meragefiledir = os.getcwd()+'\\MerageFiles'#获取当前文件夹中的文件名称列表 filenames=os.listdir(meragefi

2021-10-19 17:09:52 154

原创 python的查漏小知识(3)

双休或者放假期间,我就适合不工作然后学点自己想学的、感兴趣的。[捂脸]目录1. map()2. filter()3. 异常机制4. 文件读写4.1 常见的打开方式4.2 中文乱码问题4.3 f.write()与f.writelines()4.4 f.read()、f.readline()和f.readlines()4.5 csv文件读写5. os模块6. 模块和包1. map()map()用于对容器中元素进行映射,省掉了遍历这一步,很方便。def f(x): return x * 2d

2021-10-17 21:04:39 416 1

原创 python的查漏小知识(2)

上一个博客汇总了一些常用的、我又还不太熟悉的知识点,但还都是简单的,比较难的部分是函数、类。之前通过一些例子学习过函数和类,还做过笔记,这次当成复习吧。目录1. 函数1.1 概念1.2 函数的分类1.3 函数定义与调用1.4 return语句1.5 全局变量与局部变量1.6 lambda表达式2. 类1. 函数1.1 概念一个程序由一个个任务组成,函数就代表一个任务;函数是可重用的代码块。编写函数时,涉及到函数体、函数调用、传递参数和返回结果等内容。1.2 函数的分类很基本也经常打交道的概

2021-10-17 17:05:15 84

原创 python的查漏小知识(1)

虽然用python已经有很长一段时间了,但是从没有系统的学习过,因而知识不成体系。在写代码过程中,不考虑代码的整洁与简单性,导致我写出的程序跑起来很慢,看起来就是菜鸡写的。于是下定决心不定时更新python查漏小知识。文章目录1. 使用\行连接符2. 对象3. python命名规范4. 系列数据赋值5. 字符串中的一些常用函数5.1 split()和join()5.2 a.startswith()和a.endswith()5.3 format()6. 列表6.1 推导式创建序列6.2 常用的函数6.3 二

2021-10-16 19:00:19 127

原创 python基础和MySQL基础

目录1. 答疑1.1. python的安装1.2. python如何安装包2. python中数据的读写2.1 几种常用的数据类型2.2 数据的读写3. MySQL3.1 介绍MySQL3.2 MySQL安装3.3 MySQL基础操作3.3.1 出现连接不上数据库怎么办?3.3.2 基础操作1. 答疑1.1. python的安装安装教程:全网最详细的Python安装教程1.2. python如何安装包python安装包有三种方法:1. 在cmd中用pip install安装;2. 在pycharm

2021-10-14 13:15:52 380

原创 MySQL相关的基础知识

下午要给本科生讲一下MySQL,虽然我自己没用过,就了解了点基础知识,现总结一下。文章目录1. MySQL安装2. 基础知识1. MySQL安装参考资料:超详细 MySQL8.0的下载、安装配置教程2. 基础知识MySQL 教程MYSQL常用命令MySQL Workbench使用教程mysql 约束( key constraints )mysql-8中delete语句使用MySQL中SELECT语句简单使用...

2021-10-14 11:35:00 49

原创 用python写程序的一些小积累(2)

我又来了,总结一下昨天编程遇到的问题,方便以后查看。目录1. dict与list的嵌套使用(dict.setdefault()与list.append())2. 如何将汉字数字转换为阿拉伯数字3. 如何跳过异常继续执行程序4. 怎么让程序创建文件夹5. 网页源码中xpath总结1. dict与list的嵌套使用(dict.setdefault()与list.append())list.append()import numpy as npa = [1, 2, 3, 4]b = a.copy(

2021-10-14 10:59:57 68

原创 用python写程序的一些小积累

多积累,将查过的语法、知识点总结下,免得之后遇到类似的问题又要花时间来查。1. csdn中如何打空格 '&emsp'后面再加上英文‘;’ ,因为打整体的话就显示空格了。2. python中将列表每个元素除以一个数 product_info = [2,3,4,1,3] ratio = [round(x / 13, 2) for x in product_info]3. list数据怎么求平均值、标准差、最大值、最小值 star_ = [] v_max = np.max(sta

2021-10-13 12:06:28 265

原创 我理解的因果推断

  最近一段时间看了很多博主写的因果推断方面的博客,觉得有必要按照自己的理解整理一下,当作自己的一个总结工作吧。目录1. 什么是因果推断2. 因果推断在业界都有哪些应用2.1 A/B test2.2 用户增长2.3 推荐2.4 评估政策是否有效2.5 智能营销3. 我现在需要学习什么4. 参考博客1. 什么是因果推断  因果推断就是推断X与Y是否存在因果关系。因果关系与相关关系不同,相关关系是X与Y关联的一种浅层关系,比如,通过机器学习拟合x的函数f(x),然后根据预测值f(x)与真实值Y之间的差距对

2021-09-26 21:02:01 520

原创 数据可视化中常见的问题

在数据可视化这一块,我掌握的还很粗浅,但是记录一下常用的一些命令,免得之后写的时候要到处去查找相关的命令,比较杂。限制x坐标与y坐标的刻度plt.xlim(650, 4000) or plt.ylim(650, 4000)画散点图plt.scatter(t, posts, color='g', label='posts')画曲线图plt.plot(t, posts, linestyle='-', linewidth=2, color='g', marker= 's', l

2021-09-14 16:01:07 1060

原创 解决“在压缩包中修改文件并保存后却找不到了”的问题

昨天事情比较紧急,就直接打开压缩包,对里面的ppt进行了更改,点了保存准备发给别人时却发现没有更改后的内容,而且怎么找都没有,快急死!劝告大家压缩包一定要解压之后,再在文件夹中进行修改,如果你身上发生了和我一样的事情,可以按照下面的方法进行解决:首先,要坚信你保存了的东西一定在电脑里,那它们在哪呢?第一步:打开你的压缩包,然后点开修改后的那个ppt,之后点击文件,再点击信息,查看文件路径第二步:复制路径后到我的电脑中查找,翻到Temp目录下第三步:按照修改时间排序,进行查找。最后希望大家不要

2021-09-14 15:25:12 54725 10

原创 假设检验以及数据清洗

最近给一个医生做个孕检的数据分析,特别简单,用到了我本科时候的一点知识,几乎都快忘光了,现在整理一下。硕士的时候还记得万老师给我们上概率论与数理统计的时候说“你们专业课上学的东西才是最重要的,跟你们老板做的那些东西你有兴趣搞研究弄一弄,不要把精力放错了位置” 哈哈哈哈哈,当初还觉得老师是看我们在他课上不听讲就低头看打印的论文引起了他的不满才说的,现在觉得是清醒的劝告啊,虽然当时学的并不认真,但好歹接受过熏陶,现在捡起来也会比别人快。所以,对自己专业的东西一定要夯实,强化技能。首先,我拿到的数据是一个e

2021-07-29 15:15:18 86

原创 vscode中安装spacy

好久不写博客了,这段时间每天都在摸鱼,确实没干点实事,要改变一下了。之前在colab中运行一个文本相似度的程序,用到了spacy包,但我想在本地上跑,需要重新装一下。安装过程如下:首先确定当前python环境,在terminal中输入conda info --e然后切换到你想将spacy安装的环境中,输入 conda activate xxx (xxx为自己的环境名)之后就是安装了,我看很多教程上写的用pip安装,但我没有成功,选择了官网上说的用conda安装的方法,如下:conda

2021-07-20 16:46:12 300

原创 GloVe原理与代码实现

周末完成总结

2021-05-28 23:25:00 1597

原创 如何使用calab

跑本地跑githubgithub代码怎么克隆,我以前的方法都是学习目标:提示:这里可以添加学习目标例如:一周掌握 Java 入门知识学习内容:提示:这里可以添加要学的内容例如:1、 搭建 Java 开发环境2、 掌握 Java 基本语法3、 掌握条件语句4、 掌握循环语句学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出..

2021-05-28 21:48:46 774

原创 skip-gram模型原理与pytorch实现代码讲解

这个博客初衷是

2021-05-26 11:48:12 627

原创 python3.7.3+cuda9.2安装pytorch

不靠谱的博客太多了。。。网上各种方法搞得人头大,明明超级简单,但信息接收太多反而对心理造成极大负担我试了很多方法,包括各博客用清华源等等下载的、怎么离线安装、还有下载cudann啥的,其实重点很明确,就是确定自己的cuda版本和python版本,然后去官网复制命令安装。不知道折腾了这么久 我的电脑会不会有啥影响,众多没装成功pytorch会崩掉我的电脑吗。。下面是我的安装过程:先确定python版本win+R,输入cmd,打开命令窗口,然后输入python即可看到自己的版本确定是否有

2021-05-24 19:58:36 493

原创 调用gensim实现word2vec却出现_pickle.UnpicklingError: invalid load key, ‘7‘.

感觉安装一些包什么的就在劝退。。。果然还是要耐心一点啊 不然搞一天还错误百出。model.wv.save_word2vec_format('learning/nlp_learning/result/text8_word2vec.model', binary=False) # 保存模型然后直接调用model来实现一些功能就好了,不需要加载模型加载模型仍会报这个错,但是注释掉这行就不会了最近安装pytorch就费老大力气了,还没搞好,总之出现很多问题,弄得我又重装了Anaconda,配置过程还

2021-05-24 16:20:31 1779

原创 初学文本挖掘

今天才算是真正开始走了一小步。初衷是学习Bert,然后发现自己有很多不懂的地方,所以开始学习word Embedding相关知识好多都是曾经接触过的,离散形式的就不讲啦,各种方法的发展过程以及优缺点可以参考这篇博客(资源侵删)【NLP-01】词嵌入的发展过程(Word Embedding)(我天 我竟然还没看到word2vec那里 崩溃 明天继续看)主要是看到LDA了,正好我之前报告的两篇文章都是LDA相关以及改进的,所以我想要不去实现一下吧。主要参考的是这篇博客,写的很详细,基本上对应了

2021-05-19 23:22:37 115

原创 最近学习总结

最近写程序,遇到了一些问题然后整理一下解决方法。怎么将一句话中的中文数字转换为阿拉伯数字比如 “第两千三百二十章” —> 2320方法一: 可以使用cn2an参考链接:Python使用cn2an实现中文数字与阿拉伯数字的相互转换有normal模式和smart模式,分别可以将“一二三”转换为“123”、“一万二”转换为12000但是我安装这个包出错了,所以没有用。方法二:Python实现中文数字转换为阿拉伯数字的方法示例python将中文数字与阿拉伯数字互换代码如下:def

2021-05-13 20:49:41 148

原创 vscode配置Anaconda

打脸了 = =我之前写过一篇python和vscode安装的博客,觉得自己用的包少不需要安装anaconda。后来实在受不了安装出错等等问题了,就装了一个anaconda安装过程参考的这篇博客,写的非常好,也让我加深了conda命令的印象链接如下:(资源侵删)Anaconda + VSCode 最详细教程...

2021-05-11 15:25:56 466

原创 使用screen在服务器后台跑程序

学习了一下screen,虽然最后还是没在后台挂程序,但也总结一下screen -S xxx # 建立一个xxx的会话screen -ls # 查看会话screen python xxx.py # 执行py文件如果是在线的就是Attach,想将在线的会话变成离线的,用screen -d xxx screen -r xxx # 重新连接会话screen -X -S xxx qui

2021-05-06 16:50:53 384

原创 两台电脑上传送文件

在实验室会用到自己的笔记本还有实验室电脑,所以文件之间会有共享的需求如果用qq、微信啥的就特别麻烦,这里登一次,那里再登一次,有时候这边传送了文件但另一边还没有,导致我觉得很恼火另外用硬盘、U盘啥的传,也觉得麻烦,除了我要去找U盘啥的花时间,还占U盘个位置,懒得倒腾。然后我想两台电脑能不能共享文件呢,答案是肯定可以不过学校里一个账号只能连一台电脑,所以我的两台电脑连的不是同一个网,还有设置共享用户前需要打开网络发现啥的,因为这是个公共网络,我有点担心不安全就没有按照这种方法弄。然后就用了就近共享,

2021-05-06 11:54:13 577 2

原创 安装xlrd和openpyxl遇到的ValueError: check_hostname requires server_hostname的解决方案

python版本是3.9几的,不知道为啥昨天白天还能运行的程序,到昨天晚上就不能运行了。原因是因为xlrd版本太高要我安装openpyxl。然后我想安装一个低版本的xlrd==1.2.0也行啊,但一直报错。先遇到了ValueError: check_hostname requires server_hostname就按这个博客的方法试了一下python遇到ValueError: check_hostname requires server_hostname解决方案 (侵删)但并没有什么卵用,

2021-05-01 22:03:31 772

原创 使用Selenium爬虫

之前就用requests包爬的,但爬的过程中出现了一些错误,导致我以为爬的太多ip被禁了,后来就想了其它的方法,用到了Selenium包。程序写出来之后发现还是有错误,后来排查发现是碰到了网页链接失效导致的问题。不过Selenium爬虫是真的慢,但是感觉比requests包爬的要安心一点。下面就总结一下我最近学习的Selenium。Selenium讲解、安装以及Chrome浏览器配置,可结合下面两个链接参考python爬虫之selenium的使用selenium 安装与 chromedriver

2021-05-01 02:51:39 350 1

原创 写程序用到的python知识

目录python如何在字符串中提取数字数据类型为字符串的数字比较大小python将字典中的值写入到txt时,中文出现了\u等乱码现象?// 将字典写入txt文件中将列表数据写入到txt、csv中将dict数据写入到excel中读取数据如何判断5个表格中数据是否重复,如果重复就删除,没有重复的数据整合到一个表格中怎么知道程序运行的时间1.python如何在字符串中提取数字?import rewords = '1.1万'word1 = re.sub("\D", "", words)

2021-05-01 01:51:25 120 1

原创 python安装+vscode配置python环境

我真的是一个无敌巨懒的人在第一次安装配置的时候就觉得这么麻烦我肯定不会再安装第二次了。。。结果打脸,现在换了台式电脑跑程序,所以也得重新弄一下,于是又重新去查了安装和配置的资料,麻烦啊啊啊!!事实证明,好记性不如烂笔头,现在记录一下参考的资料,免得以后要用又到处找。资料侵删安装过程:先去安装python(其实也可以安装Anaconda,日后用起来会更方便,考虑到我之前用啥包就下载啥也挺顺手的,就没有考虑装这个。)python 安装教程可以参考这个:Window下安装Python下载re

2021-04-28 23:18:26 344

原创 爬虫总结

之前一直没动手试过爬虫,最近需要,所以赶忙了解了一下。了解的过程种借鉴了很多别人的博客,开了很多窗口,为了关电脑,现在复盘一下。首先,作为一个懒癌,我想到的是用一下现在市面上的爬虫软件,比如集搜客、火车头啥的。然后去下载了一个集搜客,学习了好几个教学视频,基础的是怎么爬一个商品的标题、商铺、价钱之类的,高阶一点就是翻页、还有如何爬商品的详情页等。但操作过程学的我头大,还有好多必须做的规定,我又经常忘记,所以纠结了一下之后放弃了,还是自己动手写个python爬虫吧。所以,我觉得怕麻烦的人更适合自己写代

2021-04-26 23:10:39 107

原创 .ipynb转换为.py

一般习惯于用python编译器,但下载的code里既有.py文件又有.ipynb文件 就有点懵查了一下 发现.ipynb文件是有Jupyter编译的,可以转换为.py文件,现在记录一下过程:cmd打开Jupyter然后找到想要转换的文件 先打开然后download as .py文件即可最近在学习爬虫,在网上查了一些资料,主要是以解决问题为导向的,所以能用就过去了,没有细究哪种方法更好之类的,晚点会复盘一下传上来,当成学习回顾了~...

2021-04-26 17:50:35 264

原创 中文文本生成词云不显示问题

对于中文文本生成词云,可能会出现中文显示不出,显示为方框,经过测试发现只要在WordCloud的参数里添加font_path='msyh.ttc’ 就可以from wordcloud import WordCloudimport matplotlib.pyplot as pltimport jiebapath = 'school/bookcontent/data/wordcloud.txt'with open(path, encoding='utf-8') as f: mytext.

2021-04-19 12:28:18 7543 5

转载 如何找一篇论文的源码

作者:Jason Gu链接:https://www.zhihu.com/question/21980275/answer/19929480来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 1. 如果这论文很老,论文里的算法在该领域有举足轻重的地位。那么网上很可能有工具包。例如我做的机器学习方向,经典的聚类、分类算法,MATLAB, python等常用语言都有丰富的工具包可供使用,一般有名的算法都会包括在其中。 2. 如果论文非常新...

2021-04-19 10:59:42 678

原创 python安装时的一些小问题

 最近要学xgboost,但是一直安装不上,找了网上的教程又觉得特麻烦,最后看到一种最偷懒的方法,亲测后成功,现在记录一下。首先,得知道自己的python版本,不知道的可以在cmd中输入python进行查找,如下我的是3.6版本的,电脑64位,因此,下载下面网址的这个xgboost-0.72-cp36-cp36m-win_amd64文件,网址如下:https://www.lfd.uci.edu/~...

2018-06-12 16:08:06 195

原创 针对pycharm出现的could not find or load the Qt platform plugin ''windows''

今天下午遇到pycharm出现这种问题,最后通过查找相关的博客解决了,于是详细写一写出现这件事情应该怎么解决,供以后的遇到这种情况的童鞋参考。首先,遇到的问题是:解决方法:首先找到plugins这个文件夹,在anaconda3>library>plugins。选中plugins文件夹,单击鼠标右键,点击属性复制文件的路径。然后要创建一个环境变量。选中我的电脑,单击鼠标右键,点击属性,点...

2018-04-13 16:55:51 5310 7

原创 区间估计

一.实验目的    分别使用Excel、SPSS和Python软件做区间估计,探究哪种软件可以实现哪几种区间估计。二.实验内容参数的点估计给出了一个具体的数值,但其精度如何,点估计本身无法给出回答。在实际中,度量一个点估计的精度最直观的方法是给出未知参数的一个区间。1.    区间估计的概念设 是总体的一个参数, 是样本,在得到样本观测值后...

2018-03-17 15:01:31 5100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除