天甜费，-CSDN博客

转载 @1.转载文章_用作备忘（linux下ls -l命令查看文件的显示结果分析）

1.linux下ls -l命令（即ll命令）查看文件的显示结果分析:转自：https://blog.csdn.net/LEON1741/article/details/82386520本文全部转载，如有收获，去原文点赞评论，多谢配合。持续更新，，，，

2021-04-23 22:16:14 171

原创 #10生活小妙招：如何转行it行业（python入行）

#各位如果看了我之前的博客，也就知道我一直在学习python，但其实我是一个新能源行业的电池系统测试工程师；为什么要学习python呢，我和很多人都不一样，我是真的喜欢敲代码这个事情，会让我感觉很有意义，这种感觉不是当时的工作所能给予的。选择python，也有几个原因，代码的简洁，附属库很多，给人一种无所不能的感觉，所以我坚持了一年多，然后想着找一份相关的工作；最开始是因为通过爬虫进入python的世界，之后又学习了Django，做了个博客系统，然后又学习了数据分析方面：pandas，numpy，matp

2021-04-14 23:18:40 278 2

原创 #9生活小妙招：python基础知识补充（详解装饰器及可能你没注意到的一些知识点）

#装饰器就是一个帽子,一个背包,有了他你就有了新功能,你的代码运行之前会先在装饰器里走一圈；先大致了解一下相关概念：'''python装饰器的本质是函数闭包代码更规范的一种表现形式；装饰器的作用就是为已经存在的函数或对象添加额外的功能。什么是闭包函数：函数中可以（嵌套）定义另一个函数时，如果内部的函数引用了外部的函数的变量，则可能产生闭包（或者这么理解：一个函数，其参数和返回值都是函数：用于增强函数的功能，面向切面编程（AOP））。语法糖：指的是计算机语言中添加某种语法，这种语法对语言的功能没

2021-03-13 18:42:55 230 1

原创 #第30篇分享：乳腺癌预测及SVC的探索（python语言：sklearn支持向量机svm）（6）

⑥.SVM：（可做分类预测及回归预测，选择不同的核函数即可）①算法概念：支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。②.算法思路：初识SVM；加深理解；公式推导，声音磁性，讲解透彻，爱了爱了；③优缺点：　优点：可以解决高维问题，即大型特征空间；能够处理非线性特征的相互作用；无需依赖整个数据；可以提高泛化能力

2021-03-08 15:28:28 1623 1

原创 #第29篇分享：房价预测（python语言：sklearn 线性回归）（5）

b.回归算法：①.线性回归：①算法概念:线性回归才是真正用于回归的，而不像logistic回归是用于分类，其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化，找到误差函数最低点的线性系数w：②.算法思路：线性回归线性关系模型：损失函数：找损失函数最低点有两个办法：第一个：正规方程：111第二个：梯度下降：③优缺点：优点：实现简单，计算简单；缺点：不能拟合非线性数据；④.代码实例：#coding=gb2312from sklearn.datasets impor

2021-03-08 10:59:01 403

原创 #第32篇分享：一个评分卡的数据挖掘（python语言：sklearn 逻辑回归）（8）

⑤.逻辑回归：111①算法概念Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。Logistic 回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。②.算法思路：③Logistic回归优缺点：优点：实现简单；分类时计算量非常小，速度很快，存储资源低；缺点：容易欠拟合，一般准确度不太高；只能处理两分类问题（在此基础上衍生出来的softmax可

2021-03-07 21:52:38 527

原创 #第31篇分享：泰坦尼克生存预测（python语言：sklearn 随机森林）（7）

④.随机森林（分为分类随机森林及回归随机森林）：非常好用，及其常用，要弄明白①算法概念：随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的；随机森林运行快速的一个原因是他一棵树只选部分特征进行建立。②.算法思路：每棵决策树都是一个分类器，那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging （Bagging的特点“随机采样”）思想，回归就

2021-03-07 20:53:34 415

原创 #第30篇分享：泰坦尼克生存预测（python语言：sklearn 决策树）（6）

③.决策树：分为分类树及回归树①算法概念：决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。决策树中很重要的一点就是选择一个属性进行分枝，因此要注意一下信息增益的计算公式，并深入理解它，简单理解就是信息增益越大，用来区分约

2021-03-07 20:46:23 259

原创 #第28篇分享：数据聚类及降维（python语言：sklearn 聚类算法KMeans）（4）

c.聚类算法（无监督学习：）：①.K-means（k-means clustering algorithm）：①算法概念k均值聚类算法是一种迭代求解的聚类分析算法：其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心（质心），然后计算每个对象与各个种子质心之间的距离，把每个对象分配给距离它最近的质心；接着根据距离的均值更换质心，直到质心不变或者变化较小后，聚合结束。从上面可以看出，质心的选择及K的选择会影响最终的聚类效果。②.算法思路：添加链接描述③优缺点：优点：算法容易理解，聚

2021-03-07 19:37:08 816

原创 #第27篇分享：数据无量纲化（python语言：sklearn 预处理及特征工程）（3）

4.数据无量纲化：数据预处理，提升算法的准确度：a.无量纲化（nondimensionalize 或者dimensionless）：是指通过一个合适的变量替代，就是通过计算，将数据转变为更适合模型计算的数值，经过实践发现无量纲化后确实会加快算法速度及提升准确度。b.机器学习的特点：是数据训练之前的数据需要人工处理一下，因为sklearn模型是不接受字符串类型的数据，我们需要把字符串等类型数据统一转换为模型可识别的数值类型，比如对三分类变量用[0，1，2]代替；c.我们想提升模型的准确度:仅仅把字符串转

2021-03-07 18:40:49 2157

原创 #8生活小妙招：数据集的获取（python语言：sklearn 数据集）

附录2：机器学习中的数据集：**数据集：面对自己的任务肯定有自己的数据集，sklearn有内置的数据集，在datasets模块下面；还可以去网站：UCI数据集，kaggle数据集，和鲸社区。#9.===========================================数据集划分：训练集+测试集（75%+25%）====================建立模型，评估模型from sklearn.model_selection import train_test_splitfrom sk

2021-03-07 14:49:15 148

原创 #第26篇分享：一个文本分类的数据挖掘（python语言：sklearn 朴素贝叶斯NB）（2）

②.朴素贝叶斯算法：(朴素贝叶斯分类常用于文本分类，尤其是对于英文等语言来说，分类效果很好；它常用于垃圾文本过滤、情感预测、推荐系统等)①算法概念：（小数据，以概率计算，假设特征之间独立）朴素贝叶斯（NB）属于生成式模型（即需要计算特征与类的联合概率分布），计算过程非常简单，只是做了一堆计数。NB有一个条件独立性假设，即在类已知的条件下，各个特征之间的分布是独立的。②.算法思路：NB属于娱乐的概率是0，显然是不太好的，所以出现了拉普拉斯平滑系数，就是加上个系数，不让他的值是0：拉普拉斯平滑（模块内

2021-03-07 14:35:03 441 1

原创 #7.生活小妙招-工业标准化数据简单处理（python数据处理）

#本人主要是做新能源动力电池测试的，在未和python相遇的时候还手动进行数据处理，有时候项目进度紧急需要找好几个同事帮忙处理，效率缓慢，而且容易出现错误；使用python：pandas、matplotlib之后实现了数据处理的自动化，大大提升了效率与准确度：1.实例1：电池模组循环寿命数据处理：a.处理目标：①.需要从原始数据里面筛选出如下表数据，b.原始数据格式：①.文件夹(命名有规律，有利于数据处理)：②.文件夹内部数据（excle数据）：③.数据格式（根据列标签对应的值和shee

2021-03-06 23:51:26 366

原创 #6.生活小妙招-搜索及排序算法(python实现)

#排序及搜索算法虽然我们做应用或者数据分析时只要调用底层模块即可，但是我觉的这些算法都非常经典，对思维及理解算法实现都有很大的帮助，正好最近正在看一本python的算法书，特来分享：1.搜索算法：以下代码均成功运行，并输出理论结果：主要介绍的算法：顺序搜索，二分搜索：a.顺序搜索：①.算法思路：搜索数值与列表中数字从头到尾开始比对，找到或者全部搜所完成没有找到：②.算法实例：#顺序搜索：def sequentialSearch(alist,item): pos = 0 fou

2021-03-02 16:45:10 179

原创 #5.生活小妙招-大O计算法(计算算法的时间复杂度)

#我们运行一个程序总是说时间多长，有时候会牺牲空间来换取时间，那么程序运行时间在代码界有什么好的表示方法吗？我们来瞅一瞅。持续更新，，，，

2021-03-01 19:45:17 984

原创 #第25篇分享：一个用户签到位置数据挖掘实例（python语言：sklearn KNN）（1）

#sklearn支持向量机，支持向量机是一个相对较难的算法，但是也是非常有用的，无论是回归还是离散的数据预测都可以进行，那么我们就来见识一下他的魅力吧：1.支持向量机的思想：2.实例：持续更新，，，，，，...

2021-02-28 20:01:36 563

原创 #第24篇分享：网络编程-知识点笔记（python）

HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。HTTP使用统一资源标识符（Uniform Resource Identifiers, URI）来传输数据和建立连接。URL是一种特殊类型的URI，包含了用于查找某个资源的足够的信息URL,全称是UniformResourceLocator, 中文叫统一资源定位符,是互联网上用来标识某一处资源的地址。客户向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与

2021-02-18 12:41:28 190 2

原创 #第23篇分享：一个北京二手房价格数据挖掘实例（python语言：sklearn随机森林）

#本次是做一个北京二手房的数据挖掘案例，主要是汇总一下学过的知识，并且通过实例加深一下印象，话不多说，开干：目的：预测二手房的价格；工具：语言python；爬虫模块scrapy，数据清洗：xpath；数据分析：pandas，matplotlib，numpy三剑客；数据预测：sklearn；操作流程：先爬取数据，然后清洗数据及分析数据，最后选择合适的机器学习算法进行房价预测。1.数据爬取（；爬虫模块scrapy，数据清洗：xpath）：2.数据分析（pandas，matplotlib，numpy）

2021-02-15 22:32:12 2617 1

原创 #4.生活小妙招-pycharm下面print数据打印显示不全解决办法？全是...

#print数据打印，显示窗口显示不全解决办法:问题：今天在进行pandas数据处理的时候，我把数据读取进来了，但是因为下方显示空间有限，所以有很多数据都被…代替了，很耽误我查看数据之间的关系，所以要想个办法把数据全部显示出来，我觉得人家设计的时候肯定想到了：解决办法：pandas给出了解决办法，我觉得好用，分享一下（参数可以自己改一下，或者注释感受一下效果）：#conding=gb2312import pandas as pdimport numpy as npfrom matplotl

2021-02-02 10:48:52 3667

原创 #第22篇分享：python初识大数据(4)-yarn-spark计算集群搭建

#yarn-spark计算集群搭建-----yarn用于计算资源分配，spark进行计算

2021-01-27 23:22:10 268

原创 #第21篇分享：python初识大数据(3)-kafka集群搭建

#kafka集群搭建------配置一些文件，实现数据的获取及上传（消息队列）配置需求：配置三台Linux系统，hadoop1/2/3主机:包含：kafka,zookper，(https://blog.csdn.net/czz1141979570/article/details/80373480)1.安装kafka：2.安装zk:3.,持续更新，，，，，，，，，，，，，...

2021-01-20 00:26:49 148

原创 #第20篇分享：python初识大数据(2)-HDFS集群搭建

#HDFS分布式存储系统的搭建--------其实就是配置，但是涉及很多，问题也很多1.Linux之间添加信任：2.系统相关文件配置：3.Hadoop HDFS相关文件配置：4.HDFS web 端介绍：持续更新，，，，，，，，，，，，，，...

2021-01-16 16:54:22 155

原创 #第19篇分享：python初识大数据(1)-Hadoop开发环境搭建（Hadoop+jdk）

#走进数据的世界-大数据1.什么叫大数据：2.大数据行业做什么？3.我们需要使用哪些工具，做什么:

2021-01-10 18:20:21 289

原创 #3.生活小妙招-centos7发现忘记安装图形界面怎么办？镜像哪里找？

#centos7安装图形界面：今天下载了centos7的镜像，然后以虚拟机的方式进行安装，安装完成后发现没有图形界面，用了很多办法都没有调出来，发现原来是忘记安装了，没办法，那就找找安装办法吧；这个还是不错的#linux镜像文件查找：有的人又会问了，镜像怎么找：阿里巴巴开源镜像不错持续更新，，，，，，...

2021-01-08 21:18:55 384

原创 #2.生活小妙招-实现没有加速选项的视频加速操作

#浏览器视频（video）加速操作：当我们看一些录播的视频或者刷一些网课的时候，一倍速总是觉得还是有点慢的，但是苦于找不到视频加速的按钮，于是就有人研究从代码下手，解决这一问题：1.我们可以看到下面的视频没有加速按钮；2.转到调试区域，照着打出调试语句，回车即可（返回数字证明成功），倍速可以按照自己想法调节；document.querySelector('video').playbackRate = 2.0; //修改此值设置当前的播放倍数以上就是视频加速的全过程了，针对不同的视频肯定有不一

2021-01-08 13:49:39 1598 5

原创 #1.生活小妙招-联想小新潮7000电脑摄像头打不开

#联想小新潮-7000电脑摄像头打不开，上网找了很多回答，但是真正好用的不是很多，经过整合信息发现其实很简单：故障就是这个样子：1.摄像头的指示灯是可以亮的，说明摄像头没啥问题；然后检查了设备管理器，看了一下驱动，发现已经是最新的状态，基本也不会有啥问题；2.解决办法：a.右键设备管理，电池管理开启：b.我们看到电池变绿，左键单击，把摄像头打开即可：这个摄像头以前还用过，最近想着拍些视频突然就不好用了，于是就搞了一下，发现竟然有个这个东西，可能是更新系统的时候被改了一下，网上解决办法

2021-01-04 14:21:54 6888 8

原创 #第18篇分享：python机器学习-sklearn简介（初识0）

#python机器学习-sklearn学习笔记：1.sklearn做什么的：2.与其他模块的区别：3.了解一下各个部分：#持续更，，，，，，，

2020-12-28 17:20:08 490

原创 #第17篇分享：python数据处理-pandas,numpy,matplotlib

#python数据处理-pandas,numpy,matplotlib:1.说说各个模块的作用：a.pandas：b.numpy:c.matplotlib:2.各个模块通过实例讲解：#持续更新，，，，，，，，，，，

2020-12-27 22:04:51 1600 1

原创 #第16篇分享：python网站开发-Django源码及视频分享

#以blog项目讲解Django的实际应用1.基础架构2.注意事项：

2020-12-21 22:26:27 699 2

原创 #第15篇分享：Mongodb数据库介绍-NoSQL

#Mongodb学习笔记：1.简介：2.安装及注意事项：3.如何操作：#持续更新

2020-11-06 17:06:41 66

原创 #第14篇分享：Redis数据库介绍-NoSQL

#第一个非关系型数据库介绍1.Redis简介：NoSQL的出现是为了解决大规模数据集合及多重数据种类带来的挑战；说白了就是现有技术不足以支撑现有的市场，所以在实际项目的压力下，Redis应运而生，不必要比较谁更优秀，配合好才能共同发展。a.Redis是一个开源的，键值（key-value）方式存储数据的非关系型数据库，主要应用在缓存方面；b.Redis是运行很快的数据库，因为数据读取是在内存（电脑重启数据丢失）中的，但又是持久化的，因为可以将数据备份到磁盘（重启后数据可以加载使用）中；c.Redis

2020-11-06 15:55:49 104

原创 #第13篇分享：docker介绍（项目管理系统）

1.简介docker：docker的诞生也是适应时代的进步，因为正常我们的开发和运维是分开的，所以就会出现这样一个问题，由于两个开发人员电脑系统，环境的问题，导致程序出现问题；所以docker也就应运而生了，这个系统的作用就是把代码+环境封装在一起，这样不论到了哪台电脑都可以运行一致，要是真的出现bug，就可以放心大胆的找开发理论了。在前进的路上有巨人的肩膀我们一定要踩一踩，不浪费无用功，也可以走的更快，但是记住别踩脑袋，容易...

2020-11-03 22:05:20 731

原创 #第12篇分享：Git及GitHub的介绍（代码管理系统）

1.Git简介（分布式版本控制软件）：对于一些小型的程序，我们有一些修改的时候直接手动更新即可；但是随着系统开发的巨型化，项目根本不可能一个人完成，并且每个人只是对自己的一部分比较熟而已，所以手动更新显然是不太可取的，这时候Git诞生了，只要我们遵循他的规则，就可以很容易利用它进行代码的合并；但是Git只是本地合并代码比较管用，所以自然而然我们需要一个可以网络上操作的系统，这就导致了GitHub的诞生。总而言之，这个Git就是一个软件，为了适应时代改变，衍生出的代码管理软件。**Git工作流程图：**

2020-11-02 21:53:48 2448

原创 #第11篇分享：Linux操作系统--程序编写调试

#在linux 的海洋里畅游：1.介绍一下基本的工具：2.第一个Linux 程序：3.注意事项：

2020-11-01 17:55:43 274

原创 #第10篇分享：Linux操作系统--基础操作（学习笔记）

#重识Linux操作系统1，基本概念：操作系统：包含Windows、Unix、Linux（参考Unix编写，经过不断丰富形成现在的各种版本），Windows我们比较熟知，用在电脑上比较多，Unix系统一直被用做高端应用或服务器系统，Linux在服务器及嵌入式中应用较多。Windows与Linux区别：a.Windows诞生之初的目的就是应用在计算机上，作为单用户操作系统使用；Linux设计理念是多用户操作系统，很多人都可以同时公用，并建立自己的操作空间（用户文件夹，后续具体介绍）；b.Window

2020-10-30 21:57:06 194

原创 #第9篇分享：python数据存储-MySQL数据库

要想选择一款适合自己的数据库，我们首先要对数据库有个了解：数据库从字面上的理解就是数据的仓库，其实我们平时说的数据库是指数据库管理系统(Database Management System)，它是一种操纵和管理数据库的大型软件，用于建立、使用和维护数据库，简称DBMS。严格来说数据库是数据库管理系统的实例，一个数据库管理系统可以有多个数据库实例。数据库种类繁多，选择关系型数据库是个明智的选择：数据库不仅仅有我们平时学到的关系型数据库，还有键值（Key-Value）数据库、列存储数据库、文档数据库和搜索

2020-10-14 16:31:55 315

原创 #第8篇分享：python-爬虫selenium-开启数据收集新时代（4）

#selenium爬虫的秘密武器，终不终级还不敢说：1.初识selenium:在之前的文章中说过，模拟浏览器在现在的python库中有两个选择Mechanize与Selenium：然而Mechanize不支持JavaScript，Selenium是一套完整的Web应用程序测试系统。所以对于爬虫开发来说selenium就成了爬虫开发的核武器，可以有效的帮助我们(1.无脑的执行JavaScript渲染页面;2.规避反爬)。Seleninm: 它能控制你的浏览器, 有模有样地学人类”看”网页。2.基本语法

2020-09-21 10:18:23 258

Django自己敲的代码.zip

动力电池测试版数据，，

收集的几个数据集：签到位置数据集，癌症预测数据集，泰坦尼克数据集。

空空如也