自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 python 隐马尔可夫模型的中文分词和词性分类实验 hmm

一、研究背景及意义1.1 研究背景和研究意义在中文里面,词是最小的能够独立活动的有意义的语言成分,分词和词性标注都是中文自然语言处理的基础工作,能够后续如句法分析带来很大的便利性。1.2 研究内容简要介绍第一章是中文分词实验,先讲了中文分词是什么、中文分词的常用方法、中文分词的难点,再介绍隐马尔可夫模型并描述隐马尔可夫模型运用到中文分词的原理,接下来是实际操作与遇到的问题第二章是词性标注实验,先介绍词性标注与词性标注的难点,然后介绍隐马尔可夫模型如何应用到词性标注,最后是实际操作。第

2020-07-11 14:26:45 8179 11

原创 Python 分类和聚类结果的可视化 绘制出点的外接多边形 ConvexHull函数

以iris为例,最终画出来的图在最下面,真的很好看。#########################################################################Call required librariesfrom sklearn import datasetsimport numpy as np # Data manipulationimport pandas as pd # Dataframe manipulati

2020-09-26 09:51:15 1641

原创 R 利用回归分析与时间序列预测北京市PM2.5

摘要现代社会科技进步,人们的生活质量逐步提高,但伴随着各类工业和科技的发展,环境问题凸显,最初人们粗放式的经济发展方式在一定程度上对环境造成不可逆转的破坏。在各种环境污染问题,空气污染问题又是如今人们关注的重中之重。北京是我国首都,同时也是我国空气污染较为严重的几个北方城市之一,因此关注北京市空气污染情况是我国观测空气污染情况的重要关注对象之一。在本文中,首先,我就北京市PM2.5及其他污染物和气象情况的近几年观测数据做出相应回归分析,建立回归模型试图利用已知的其他污染物和气象情况信息对PM2.5做出预

2020-09-25 22:40:34 13140 15

原创 R 评分卡 scorecard包

library(knitr)library(klaR)library(scorecard)一、数据预处理1.读取数据setwd("C:\\Users\\91333\\Documents\\semiester5\\RegressionAnalysis\\hw2")base_info <- read.csv(file = "base_info.csv", header = TRUE)hive <- read.csv(file = "hive.csv", header = TRUE)

2020-09-25 22:26:01 868

原创 Python 房价预测 kaggle 线性回归 SVM 神经网络 随机森林 集成模型

摘要现如今房产成为大多数家庭总资产中占比最大的一部分,也成为国人投资的重要渠道,研究和预测房产价格对我国人民和宏观经济发展都有重要价值。本文对包含房产各项基本信息及价格的数据进行处理,利用包括线性回归、核岭回归、支持向量回归、神经网络、决策树以及集成方法等多种数据挖掘算法对房产价格构建预测模型,并利用均方误差作为指标对各模型作出了相应评价。总体来看,本文根据房产信息对房产价格做出了较好的预测模型,为房地产相关行业与从业人员提供了较有力的决策依据。关键词: 房价预测;模型比较;线性模型;集...

2020-09-25 21:51:55 5893 1

原创 R 携程评论可视化

第一部分 爬虫爬取阿坝州主要景点携程评论数据import reimport requestsimport jsonimport timeimport pandas as pdhead = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'}postUrl = "https://sec-m.ctrip.com/restapi/soa2/12.

2020-06-21 12:30:41 716

原创 R 四姑娘山每日客流量爬虫 时间序列建模 ARIMA 指数平滑 TBATS拟合与预测

一、数据来源数据来自四姑娘山景区首页新闻的每日客流量发布处,利用python爬虫读取2015年9月29号到2020年6月8日的每日客流量和对应的日期。import urllib.requestfrom bs4 import BeautifulSoupresponse = urllib.request.urlopen('https://www.sgns.cn/news/number') soup = BeautifulSoup(response,'html.parser')numb...

2020-06-21 11:50:32 2556

原创 R基本数据结构

R基本数据结构零、各种基本数据结构通行规则(一)创建 : 向量,数据框和列表涉及函数:c()data.frame()list()1. 直接创建a <- c(name1 = 1, name2 = 2)mydata <- data.frame(name = c("Mike", "Tom", "Tony"), height = c(160, 180, 170), stringsAsFactors = F )mylist <- list(vector1 = c(...

2020-06-21 11:18:50 1058

原创 python 批量读取数据 同时读取一个文件夹下的所有文件数据

导包import pandas as pd # Dataframe manipulatioort os # For os related operationsimport sys # For data sizeimport glob读取数据# use your pathpath = r'C:/Users//VScode Python/week10_data' # advisable to u

2020-05-24 13:26:43 3236

原创 python 自编FCM模糊聚类

导入包from sklearn import datasetsfrom sklearn.utils.linear_assignment_ import linear_assignmentimport seaborn as snsimport matplotlib.pyplot as pltimport copyfrom sklearn.metrics import confusion_matrixfrom sklearn import metricsimport pandas as pdi

2020-05-24 13:17:09 749

原创 python 编写聚类指标purity纯度和jaccard函数

自编purity纯度和jaccard函数,最后运算速度都挺快的,另外,似乎用scipy中的混淆矩阵也可以编写scipy,而且要比我写的jaccard简便一些,可能是把我写的一些封装了吧。from sklearn import datasetsfrom sklearn.utils.linear_assignment_ import linear_assignmentimport seaborn as snsimport matplotlib.pyplot as pltimport copyfrom

2020-05-24 12:32:49 2115 5

原创 python 实例 混合数据聚类k-prototypes gower距离

对连续变量和分类变量混合的数据进行聚类,用了两种方法,k-prototypes和gower距离+kmeans,两种方法都是python直接编写没调包。import pandas as pdimport numpy as npimport warningsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import metricsimport seaborn as snsplt.rcPa

2020-05-24 12:21:19 4261 2

原创 python 实例 SVM SVR cv 核函数 LinearSVR、RBFSampler、 SGDRegressor和 Nystroem的使用

SVM实例,两个数据,两个例子。cancer data样本量小,分类数据用svc函数,较为简单;houseprice样本量大,连续数据,用了支持向量回归SVR,函数先用了RBFSampler和 Nystroem做核映射,然后用SGDRegressor做支持向量回归,使用的这三个函数都很适合大样本。I. 准备1.import...In[1]:import pandas as pdimport numpy as npimport warningsimport matplotlib..

2020-05-24 12:01:38 6226 1

原创 python 实例 神经网络 MLPClassifier ann

I.准备1.import...In[112]:import pandas as pdimport warningsimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.neural_network import MLPClassifierplt.rcParams['font.sans-serif'] = ['SimHei'] # 绘图时可以显示中文plt.rcPara.

2020-05-24 11:50:50 2332

原创 python 实例 Naive Bayes 决策树(ID3 CART)

I.准备1.import...In[8]:import pandas as pdimport matplotlib.pyplot as pltimport matplotlib.mlab as mlabimport warningsimport numpy as npimport seaborn as snsfrom sklearn.model_selection import train_test_split from sklearn.naive_bayes import .

2020-05-24 11:48:04 391

原创 python iris 自编PCA和LDA dict转dataframe 平行坐标图

文章内容:使用鸢尾花数据,将sklearn自带的iris从字典dict格式转化为dataframe格式,用平行坐标图进行可视化,由图认为有必要做PCA和LDA,利用PCA和LDA的原理自编函数实现降维分析,分别绘制图像import pandas as pdimport matplotlib.pyplot as pltimport matplotlib.mlab as mlabimport warningsimport numpy as npimport seaborn as snsfrom

2020-05-24 11:43:17 722

原创 python 单变量数据预处理 缺失值 异常值

python 单变量数据预处理 缺失值 异常值0.准备In[201]:import pandas as pdimport matplotlib.pyplot as pltimport matplotlib.mlab as mlabimport warningsimport numpy as npimport seaborn as snsfrom sklearn.model_selection import train_test_split from sklearn impor.

2020-05-24 11:33:52 707

原创 python R 空间自回归模型SAR 参数估计 统计模拟 实验

一、编写一次估计函数1. 载入numpy、固定随机种子import numpy as np np.random.seed(1)2. 编写makeY函数,生成用于模拟实验的Ydef makeY(rho, sigma2true, Ysize): I = np.identity(Ysize) W = I/rho # 使用while语句,...

2020-04-23 12:33:09 4412 1

原创 R 实例 判别分析LDA 聚类分析 因子分析

1.读取数据setwd("C:\\Users\\91333\\Documents\\semiester5\\MultivariateStatisticalAnalysis\\DiscriminantAnalysis")rain_data <- read.table(file = "HW1.csv", sep = ",", header = TRUE)rain_data$Rain &lt...

2020-04-23 11:17:19 2427

原创 R 实例 葡萄牙森林火灾数据 : forestfires 方法:绘图可视化 回归分析 因子分析

knitr::opts_chunk$set(warning = FALSE, comment = NA)library(knitr)一、数据读取数据来自uci,葡萄牙森林火灾数据forestfires <- read.table(file = "C:/Users/91333/Documents/semiester5/R course/hw3/forestfires.csv", he...

2020-04-23 10:58:47 9470 3

原创 R 对数正态 极大似然估计MLE 统计模拟

1.产生100个随机样本set.seed(100)lnormdata1 <- rlnorm(100, 2, 3)2.利用不同方法计算参数的极大似然估计Step1: Set the initial valuetheta0 <- c(1, 2)data0 <- log(lnormdata1)Step2: Give the likelihood functionNo...

2020-04-23 10:11:45 5700

原创 R 二分法与牛顿迭代法Newton-Raphson求线性方程和线性方程组

二分法与牛顿迭代法Newton-Raphson求线性方程和线性方程组 R这是R语言编程的一次作业,bisection函数似乎是网上找到,日子久了,懒得找函数出处,原作者抱歉!1)使用二分法STEP1:编写二分法求根的bisection函数bisection <- function(fun, a, b, xi){ f <- match.fun(fun) if (f(a)...

2020-04-23 09:20:20 5530

原创 R 快速入门

这一年CSDN帮我解决好多问题,我决定把我整理的正在上的R语言编程的笔记上传,也回馈社会,虽然总结的挺垃圾的。像一个正经博主一样起了一个系列式的名字,还不知道自己能写满几篇。下面的思维导图是我上的第一次课的主要内容R的快速入门。...

2019-10-31 17:21:25 1605

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除