自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (4)
  • 收藏
  • 关注

原创 NLP实战 文本关键词提取

+是加法。行尾的\在下一行继续当前语句或表达式,即续行。实战项目简介、项目代码的框架、项目涉及的语言数据集&技术与算法简介、运行 结果、其他(思考、结果优化等)写摘要,实时会议关键词(科大讯飞),我当时问他们是不是最基础的每个词做,他们说那是最早的方法了,现在都是用机器学习,直接跳过机理。...

2021-11-23 02:32:12 2616

原创 python基础语法与双向最大匹配分词

基础语法1、命名规则 Python语言有一套自己的命名规则。命名规则并不是语法规定,只是一 种习惯用法。 变量名、模块名、包名 通常采用小写,可使用下划线。例如: rulemodule.py #模块名,即文件名 _rule= ’rule information’ #_rule变量名,通常前缀有一个下划线的变 量名为全局变量2、代码缩进与冒号 • 对于C、C++、Java等语言,代码缩进只是作为编程的一种良好习惯。 • 对于Python而言,代码缩进是一种语法。Python语言中没有采用花括号 或be

2021-10-19 15:04:11 367

原创 数据采集-3

HDFS简介HDFS - Hadoop Distributed File System分布式文件系统➢ Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了 系统底层细节透明的分布式基础架构 ➢ 主要解决海量数据的存储和海量数据的分析计算问题 ➢ 广义上来说,Hadoop通常指一个更广泛的概念——Hadoop生态圈HDFS是Hadoop的核心2nn机制:冷备,导回namenode10分到15分画框图:1 第一阶段: namenode 启动1)第一次

2021-10-15 15:57:27 153

原创 数据分析与数据挖掘

biasbias+variance,简单的模型方差小,偏差大(可以用射击环数来理解方差和偏差),同理复杂模型方差大,偏差小。

2021-10-15 14:02:01 123

原创 unix网络编程-3

Python的UDP套接字编程(服务端+客户端)_**kwargs的博客-CSDN博客服务端流程socket ----> bind ----> recvfrom ----> sendto ----> close创建数据报套接字sockfd = socket(AF_INET,SOCK_DGRAM)绑定地址sockfd.bind(addr)消息收发data,addr = sockfd.recvfrom(buffersize)功能: 接收UDP消...https://blog.csdn.n

2021-10-15 09:28:37 90

原创 机器学习-5

线性回归回顾:解析解(矩阵),数值解随机,p ,小p-梯度下降(mini-batch)L1正则化对应岭回归,L2对应lasso回归分类评价:混淆矩阵:正例,反例,预测结果,真实情况--查准率,查全率--PR图(调和平均),BEP(1.看曲线能否包出,2.平衡点,在外性能更好)多混淆矩阵(宏)分类模型的评价指标--混淆矩阵,ROC,AUC,KS,Lift,Gain_shy19890510的博客-CSDN博客_lift对于分类模型,常用的指标有混淆矩阵、ROC曲线,AUC

2021-10-11 19:17:45 326

原创 大数据分析与数据挖掘-4

笔记(由于之前接触过相关知识,记的笔记相对比较随意,但是关键步骤操作都在)练习• 为什么计算函数极值用梯度下降算法而不直接令 (偏)导数为0求解? 理论上是可以数学方法求解是没问题的。但是实际上有些函数很复杂,导致方程解析解很难求甚至没有解,也并不是所有函数都可以根据导数求出取得0值的点的;我们知道实际问题往往都是很复杂的,能直接被数学解决的问题也不需要计算机了,尤其是当数据量极大时,将数据全部带入计算不切实际,而梯度下降支持对数据分批处理;最重要...

2021-10-11 07:30:00 463

原创 数据可视化-4

目录csscss构造div标记span标记JavaScript用途语法爬虫反爬虫反反爬虫python爬虫相关库爬虫的保存网页前端基础csscss构造继承,就是大的套小的,继承大的属性。1.将CSS样式定义在html标记的style属性里,多个属性分号分割(困困困????????????,睡了20分钟,继续听课)2.内部定义样式表嵌入,把别人的复制一份放自己口袋里;链接,一个链接到别人的东西。<style text="

2021-09-26 20:53:26 86

原创 大数据分析与数据挖掘-3

目录数据集成与变换简单变换简单变换的作用:box-cox变换​时间非平稳序列-时间平稳序列(一阶差分)数据规范化数据白化连续属性离散化属性构造算法的学习方法主成分分析数值规约数据集成与变换简单变换对原始数据进行数学函数变换,如:平方、开方、取对数、差分运算等简单变换的作用:数据范围的拉伸与压缩(图像对比度提升、年收入)非正态-正态分布(开发,取对数,box-cox变换它包括了平方变换(),平方根变换(),对数变换()

2021-09-24 14:06:06 279

原创 unix网络编程-3

TCP套接字创建和通信的流程套接字socket相关函数: 原 语 含 义 SOCKET 创建一个新的通信端点 BIND 将本地地址关联到套接字上 LISTEN 声明愿意接受连接,给出队列长度 ACCEPT 被动创建一个入境连接 CONNECT 主动...

2021-09-24 10:10:07 139

原创 数据可视化课堂笔记-3

目录网页标记列表超链接表格网页首页pycharm-既能写html,又能写python。Html:基础架构;CSS:层叠样式表(Cascading Style Sheet),美化界面;JavaScript:动态网页,交互性头部:定义标题、样式;主体<head></head>charset网页编码,pycharm默认是utf-8:<meta charset='UTF-8'><!--可写在<html&

2021-09-22 20:58:43 243

原创 2021-08-18lasso回归

function [data]=getdata()%读取数据data0=xlsread('练习数据.xlsx');%对数据进行归一化,映射到[0,1]%data=(data0-min(data0))./(max(data0)-min(data0));data=(data0)./(max(data0)-min(data0));endfunction value=hanshu(data,pos,ss,namuda)%pos为序号,ss为所有系数的向量%value1=sum(data(..

2021-09-18 16:07:38 86

原创 大数据分析与数据挖掘课堂笔记-2

数据预处理必要性原始数据问题:-数据清洗数据不一致 噪声数据:明显错误,异常值 数据缺失整理数据使其适合数据分析与挖掘工具-数据规约数据清洗1.缺失值处理:1.1舍忽略元组(分类问题中数据标签丢失,重要的数据丢失)一条记录中某些属性缺失,则将该条记录丢弃。忽略属性/字段(非必须的、独立性较低的属性字段)某个属性缺失过多70%以上,这个属性就不要了1.2补使用中心度量值填充:对称分布用均值填充,倾斜分布用中位数填充 使用全局常量填充:0或一些标准值 使用可

2021-09-17 11:59:21 392

原创 2021数学建模国赛B题

(1)乙醇转化率、C4 烯烃的选择性与温度的关系(附件1)350 度时给定的催化剂组合在一次实验不同时间的测试结果进行分析(附件2)(2)不同催化剂组合及温度对乙醇转化率以及 C4 烯烃选择性大小的影响(3)选择催化剂组合与温度,使得在相同实验条件下 C4 烯烃收率尽可能高低于350的情况(4)第4问语文建模...

2021-09-17 10:18:07 3879

原创 数据可视化课堂笔记-2

这几天注意到两个更强的数据可视化:动态数据采集可视化静态数据采集动态可视化:视频动态数据采集动态可视化:可交互视频,游戏模拟动态的问题:抗干扰性静态的问题:效率低,有过滤,可能反应不了实际情况,或者忽略实际因素...

2021-09-17 10:15:26 141

原创 数据采集笔记-1

java编写,搭建在linux系统上,数据采集感觉有的离谱呀,很多没学过hhh

2021-09-17 00:01:18 80

原创 大数据分析与挖掘笔记-1

课前一些话作业提交及命名规则:大数据分析方法(定义):不是随机分析法(抽样调查)这样的捷径,而是采用所有数据进行分析处理。——《大数据时代》问题在于可能存在一些离群值,脏数据。需要先清洗。数据价值:大数据特点:规模大,速度快(最重要是流动快,实时性高),种类多,价值密度低。大数据基本类型:数据库数据(二维表),数据仓库数据,事务数据(订单),图和网路数据,其他类型数据数据分析的四个层次:描述分析,诊断分析(数据变化的原因),预测分...

2021-09-16 22:50:02 392

原创 机器学习课堂笔记-1

目录课程概述机器学习定义机器学习应用与发展机器学习常用术语课程概述期末60+平时40回归算法、神经网络分类、聚类算法、降维算法机器学习学习流程图如下:1.回归分析:线性回归 非线性回归2.分类算法:神经网络 支持向量机 朴素贝叶斯 K-近邻 决策树(随机森林) 深度神经网络3.聚类算法:K-means聚类 层次聚类 密度聚类 谱聚类 高斯混合聚类4.降维算法:主成分分析 线性判别分析 局部线性嵌入参考书目:.

2021-09-16 21:44:52 259

原创 unix网络编程课堂笔记-1

课程概述一、主要包括2方面内容1.基于socket通信的编程每次写2个程序,开2个终端:编程情况如下,具体服务器一般用已有的服务器就够了。2.简单的服务期器编程:本课程主要用c语言写的。接下来介绍apache服务器(已有的服务器),nginx是新出的性能更好的服务器,microsoft不是开源的,我们不用,因为一个人是写不出来太大的程序的,我们了解原理即可。网上可以找到很多简单的服务器,但是突发情况的处理没有现有的服务器做的好。二、上课3.方式概述课程流...

2021-09-16 21:39:15 104

原创 大数据可视化 课堂笔记-1

目录​一、什么是数据可视化?目的是“让数据说话”,提供感性的数据认知方式我觉得一种很强的学习方法就是文科知识理科方法学,理科知识工科方法学,可以让你立于行业不败。因为你是独一无二的,你的学习是立体化的。而数据可视化是技术和艺术的结合。二、数据可视化基础2.1数据对象,属性:2.2数据的基本统计描述插一嘴:全国计算机设计大赛B类赛事,3,4月,专门有一个专题叫数据可视化,现在很看中应用能力。2.5视觉通道2.6可视化的组件三、数据可视化流程数据处...

2021-09-08 22:30:01 1183

原创 安徽大学在校生如何校外访问图书馆资源

忽略获取路径可直接进入step3,安大咱自己买下的资源可不能浪费。step1.http://www.ahu.edu.cn/2e/7a/c181a11898/page.htm点击这个网站,我们看到如下内容:校外访问图书馆电子资源的使用方法1、图书馆易瑞授权访问系统(新开通)使用方法:1)浏览器登录地址:http://210.45.210.34:8000/login2)根据提示登录:用户名及密码均为您的读者账号和密码,登录后请立即修改您的密码。3)进入界面点击所需使用的数据库,

2021-08-20 00:39:52 5051

小黑课堂计算机二级WPSOffice题库1.2.exe

小黑课堂计算机二级WPSOffice题库1.2.exe

2021-09-24

week2-python编程基础.html

week2-python编程基础.html

2021-09-14

NLP学习之python2小时速成-1.ipynb

NLP学习之python2小时速成-1.ipynb

2021-09-14

【考纲】6⃣️级考纲单词表.pdf

【考纲】6⃣️级考纲单词表.pdf

2021-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除