4 我满眼的欢喜都是你

尚未进行身份认证

人生键暂停一段时间了

等级
TA的排名 3w+

python数据清洗

#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:@context:数据清洗"""f1 = open("all.txt", encoding='utf-8', errors='ignore').read().split('\n')#f = open('/data/all.txt').read().split('\n')print(len(f1))# 查看文本条数#选取指定行,写到新txt里out =

2020-05-27 22:13:54

“西游记之大圣归来”关键词提取-textrank

功能输出文本关键词以及热度值工具python2 spark2.0.2数据集两个字段(评论人,评论内容),480条短评;结果脚本主函数#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@file:@time:"""from __future__ import print_functionimport sys,os,time,jiebareload(sys)sys.setdefaultencodi

2020-05-27 15:51:45

hdfs常用命令

查看hadoop fs -ls /创建文件夹hadoop fs -mkdir <file路径>删除文件夹hadoop fs -rm -r -skipTrash /User/model_testhadoop fs -rm -r /User/model移动,原本路径下的文件移走便不存在了hadoop fs -mv <被复制文件地址> <目的路径>复制,原本路径下的文件仍然存在hadoop fs -cp <被复制文件地址> &l

2020-05-27 11:37:24

实体标注工具

功能:文本实体标注,用于做ner nre等的训练测试集;工具:python2输入:输出:脚本:#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@context:对每行每个实体做清洗,其中每个实体需要从第一个字开始依次滑动遍历查找。"""import sys,xlrdreload(sys)sys.setdefaultencoding("utf-8")#数据读入data=xlrd.open_workbo

2020-05-26 18:15:10

“西游记之大圣归来”短评主题分析-Latent Dirichlet Allocation

功能:1.输出影评主题 2.输出每份评论在各个主题上的权重分布工具:python2 spark2.0.2etl#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:"""from __future__ import print_functionfrom pyspark.sql import SparkSessionimport os,ConfigParser,sysreload(sys)sys.se

2020-05-25 17:12:59

doc2vec方法判断文本相似度

功能:输出两段文本的语义相似度工具:python2 gensim:version = '3.4.0’清洗、分词词典构造、去数字、去停用词清洗,输入.txt,一条文本占一行,分词、加载分词词典去数字、停用词#!/usr/bin/python# -*- coding: utf-8 -*-"""@author:@contact:@time:@content:预处理"""import sys,jieba,time,re,codecsreload(sys)sys.setd

2020-05-25 14:26:20

Crf++使用说明

资料训练crf_learn template_file train_file model_file测试crf_test -m model_file test_file参数说明输入参数(可选):-f, –freq=INT使用属性的出现次数不少于INT(默认为1)-m, –maxiter=INT设置INT为LBFGS的最大迭代次数 (默认10k)-c, –cost=FLOAT 设置FLOAT为代价参数,过大会过度拟合 (默认1.0)-e, –eta=FLOAT设置终止标准FLOAT

2020-05-19 16:26:01

python报错

报错1TypeError: parse() got an unexpected keyword argument ‘transport_encoding’解决办法:环境:Anaconda3-5.0.1-Windows-x86_64安装pymongo库时遇到如上报错,解决办法如下:1.在命令窗口输入:conda install -c anaconda html5lib会更新很多内容,如果解决不了,就采取下面这种方式。2.在命令窗口输入:conda install pip会更新很多内容,更新

2020-05-19 14:21:07

PyCharm代码缩进

整体缩进:鼠标选中代码块,按tab键。反向缩进:鼠标选中代码块,按shift+tab.

2020-05-18 11:19:08

pycharm Tab键设置成4个空格

file—>setting,选择Editor—>python设置方式:tab size:4indent:4continuation indent:8

2020-05-18 11:15:52

链接记载,方便查找

要换电脑了,之前用到的链接一段时间没用,又忘了,先存放这里,方便下次使用查找TOPSIS评价方法sklearn 翻译笔记:KNeighborsClassifierpython中matplotlib的颜色及线条控制如果用R进行单样本的卡方检验和KS检验?R语言中统计分布和模拟hadoop 基本文件操作命令比赛CCF天池gensim基于gensim的Deep learning w...

2019-08-28 13:35:43

支持向量机(SVM)理论总结系列.线性可分(附带R程序案例:用体重和心脏重量来预测一只猫的性别)

这篇最初也是发在公众号上的,所以图片水印部分会由于马赛克看不清。名词解释支持向量机中的机:在机器学习领域,常把一些算法看做一个机器,如分类机(也叫作分类器)问题描述空间中有很多已知类别的点,现在想用一个面分开他们,并能对未知类别的点很好的识别类别。算法思想由问题描述可知,现在算法要解决两个问题:找到一个平面,可以很好的区分不同类别的点,即使分类器的训练误差小,线性可分时要求训练误差...

2019-06-21 15:40:34

用箱形图寻找异常值

异常值检验有很多种方法,这里主要说箱形图。所谓的异常就是和大众不一样呗,就是指样本中出现的明显偏离大多数观测值的个别值。箱线图(boxplot)知识原理(我手画了下,因为最开始是发在公众号上的,现在移图想去水印,图上有些可能看不清)适用不要求数据服从正态分布;判断异常条件数据小于Q1-QR1.5或者数据大于Q3+1.5QR为异常值;实例数据来自:http://www.uni-...

2019-03-20 19:45:28

通俗易懂的理解数学期望

期望是针对随机变量而言的,是随机变量的均值。s:样本方差,分母是n-1μ:总体均值D(X):总体方差Xˉ:样本均值总体的均值又叫做总体期望,比如总体X的期望,即E(X)=μ;比如样本均值从某种意义上来说也是一个随机变量,因为在抽取样本的时候你不知道会抽取什么样子的样本,则对样本均值求期望,就是E(Xˉ)=μ,但是一旦样本抽出来了,那么样本均值就是一个固定的值了,就不能说均值的期望了;...

2019-03-20 19:19:17

spark dataframe笔记 -- 对两个df实现行的拼接

df=spark.read.json("E:/**/people.json")df1=df.select(df['age'],df['name'])df2=df.select(df['age'],df['weigh'])df1.unionAll(df2).show()

2019-03-20 19:07:37

如何在pyspark里引用上传到hdfs上的文件

stopwords= sc.textFile("hdfs://xx.x.xxx.xx:9000/an/stopwords.txt")

2019-03-20 18:58:07

svn

鼠标在桌面右击,小乌龟,进到SVN,提交的时候先update 再commit

2019-03-20 18:46:38

02改善深层神经网络:超参数调试、正则化以及优化(第二周:优化算法)

这是吴恩达深度学习第二模块第二周的内容,刚开始学习,文章里应该会有些理解错误的部分,多谢告知,qq: 2690382987目录Mini-batch 梯度下降指数加权平均数(在统计上被称作指数加权移动平均值)指数加权平均的偏差修正动量梯度下降法RMSpropAdam 优化算法学习率衰减局部最优的问题蓝色字体是我自己的理解,红色字体是疑问待补充的,其他内容为对课程知识点的梳理。为了加快训练速...

2019-01-28 15:37:07

spark dataframe笔记(链接汇总)

spark dataframe笔记 – dataframe行转列spark dataframe笔记 – 对dataframe一列值保留4位小数spark dataframe笔记 – 按照dataframe某一列的数值排序,并增加一列索引(2)降序排spark dataframe笔记 – 按照dataframe某一列的数值排序,并增加一列索引(1)升序排spark dataframe笔记 –...

2019-01-28 13:40:33

好用的工具(链接汇总)

数据库hbase语句汇总、sql sever语句汇总、mysql语句汇总xshellxshell–如何对shell脚本赋予可执行权限?xshell–xshell命令集合xshell–如何关机时让脚本还一直执行下去?vimvim-- vim语句汇总Notepad++ – Notepad++语句汇总Notepad++ – 使用Notepad++将多行数据合并成一行...

2019-01-28 10:13:09

查看更多

勋章 我的勋章
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。