自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 paddlenlp:社交网络中多模态虚假媒体内容核查(特征篇)

通过数据分析,我们发现了部分图片中存在文字且具有判断文本类别的作用。所以,本文采用paddleocr模型来提取图像中的文字特征。文本主要展现用什么方法来做数据特征加工。

2023-10-16 20:10:15 773

原创 paddlenlp:社交网络中多模态虚假媒体内容核查(代码篇)

本次记录主要还是以学习为主,抽了工作之余来进行baseline的翻译和整理。探索了一个带大家最快上手的路径,降低大家的入门难度。

2023-08-04 17:40:23 589

原创 paddlenlp:社交网络中多模态虚假媒体内容核查

本次记录主要还是以学习为主,花了一个周末的时间,调试和跑通流程。探索了一个带大家最快上手的路径,降低大家的入门难度

2023-08-03 23:01:49 1104

原创 stable-diffusion-webui 安装采坑日记

记录自己安装stable diffusion过程遇到的坑

2023-06-08 12:45:36 1829

原创 2023最新anaconda数据源

2023最新anaconda数据源

2023-02-12 20:19:04 1502 2

原创 倾听用户声音,从主流应用商城的APP评论开扒

想要充分了解自家公司的产品,光靠自测自用是远远不够的,还得从各个渠道收集用户的反馈。用户反馈的方法有:问卷调查、客服投诉、应用评价等方式。今天我们主要从应用评价的层面来分析一个产品的优劣。

2022-02-18 17:19:25 1356

原创 十个排序算法的原理与实现【python版】

在算法面试时,一般都会被面试官三连问,"这算法的时间复杂度是怎样的?空间复杂度呢?它的稳定性如何?” ,为了能够清晰的作答该类问题,我梳理了基础的排序算法。

2022-01-12 15:07:38 355

原创 【机器学习】分类算法–决策树(ID3/C4.5/CART)

前言决策树,是工业界常用的数据挖掘模型。其原理是根据一个或多个特征的划分来确定分类,易于理解。和K邻近算法一样,决策树是属于分类、有监督的算法决策树常用的有ID3算法、C4.5算法和CART算法。ID3算法和C4.5算法都是分类算法,CART算法是回归算法。我们今天通过一个天气-活动预测的数据来了解这三个算法上述数据集有4个属性,属性集合A={ 天气,温度,湿度,风速}, 类别标签有2个,类别集合L={进行,取消}正文本文要介绍的三种算法在特征选择的方法上存在差异:ID3用信息增益,

2020-06-29 09:59:48 1391

原创 【机器学习】分类算法--K近邻算法

K近邻算法通常写作Knn算法,它是一种十分有效的分类算法,是有监督的。Knn算法与K-means算法不同,K-means算法是用作聚类的,且是无监督的。Knn算法的优缺点优点:精度高、对异常值不敏感、无数据输入假定缺点:时间复杂度高、空间复杂度高适用数据范围:数值型和标称型Knn算法的工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分...

2020-06-18 17:24:32 1612

原创 解决pyinstall打包python文件遇到的问题

1、环境说明 Windows7,Anconda+Python3.5.2,64位系统。2、开始安装pip install pyinstall安装成功,一切看起来很顺利,但实际上当你运行打包代码的时候,可能出现如下问题pyinstaller -F test.pyAttributeError: 'str' object has no attribute 'items'...

2019-06-19 08:52:08 4817

原创 解决 No module named 'resource' 问题

最近在本地装了一个pyspark,在运行的过程中,总会遇到这样的报错。这是jupter notebook的cmd窗口。以下是我运行的一段代码stringJSONRDD = sc.parallelize((""" { "id": "123", "name": "Katie", "age": 19, "eyeColor":

2018-12-20 14:05:15 15807 10

转载 【Java】多线程的使用

简而言之:一个程序是由进程组成,一个进程是由线程组成的。一个程序中可以存在多个进程,一个进程中可以存在多个线程。单线程:一条主线执行下去,没有分支。public class TestMain { public static void main(String[] args) { method2("I LOVE JAVA"); } public static void method...

2018-08-18 17:30:58 108

转载 【Java】方法的重载

问: 什么是方法的重载呢?答: 如果同一个类中包含了两个或两个以上方法名相同、方法参数的个数、顺序或类型不同的方法,则称为方法的重载,也可称该方法被重载了。如下所示 4 个方法名称都为 show ,但方法的参数有所不同,因此都属于方法的重载:public void print() { System.out.println("无参的print方法");}public void pr...

2018-08-18 17:30:52 158

转载 手把手教你快速安装keras

安装环境:win7+anaconda3.5.12依次输入以下命令,注意所有命令都是用得conda命令,因为conda安装可能比pip安装更稳定conda install theanoconda install mingw libpythonconda install tensorflow //等几分钟或十几分钟conda install keras如果没报错的话,那...

2018-08-18 17:30:32 1495

原创 关于WordCount代码中的一些疑问解答

编码之前的操作我的项目是以Maven Project创建的,里面会涉及到GroupID和ArtifactID,简单解释一下:GroupID是项目组织唯一的标识符, 比如我的项目叫test 那么GroupID应该是 com.yever.test  域名.公司名.项目名 ArtifactID就是项目的唯一的标识符, 一般是 项目名-xxx   比如test-model为了测试方便,我的Gr...

2018-08-18 17:30:22 399

原创 【NLP】如何理解n-gram模型

最近在研究NLP的相关知识,然后就遇到了n-gram这个模型。拜读了高老师的博客后,觉得通俗易懂,所以对知识进行了以下整理。维基百科的定义:在计算语言学中,n-gram指的是文本中连续的n个item(item可以是phoneme, syllable, letter, word或base pairs)n-gram 中如果n=1则为unigram,n=2则为bigram,n=3则为trigra...

2018-08-18 17:29:46 2167 2

转载 【利用python进行数据分析】第4章numpy基础

Numpy的ndarray:一种多维数组对象NumPy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算。其语法跟标量元素之间的运算一样:from numpy.random import randndata=randn(2,3)print(data)print(data*10)print(da...

2018-07-28 09:26:02 584

原创 借助Kesci的K-Lab平台进行Iris数据分析

之前参加了Kesci网举办的中国联通“沃+海创”开放数据应用大赛,在比赛中认识了许多大牛,同时也认识了Kesci平台的一位李哥。应李哥邀请,帮他们推广一下该平台的实验室,前段时间由于自己事情太多,直到最近才闲下来,遂做了一下整理。尝试了一下这个在线实验室,不需要自己的线下的环境,可以在线编程。类似jupter notebook,你还可以将自己的ipynb文件从线下导入,方便快捷。它的公开数据集...

2018-07-28 09:24:54 1286

原创 在多版本python环境中搭建Django

什么是django呢,简而言之就是一个基于python的web框架。有了它,我们就可以将结果以网页的形式输出。下面就开始搭建django吧。实验环境:win7 64位,anaconda2、anaconda31.进入anaconda3的prompt,输入以下命令,然后就等待它安装完成吧conda install Django安装完成之后记得检查是否安装成功Python 3.5...

2018-07-28 09:24:04 647

原创 数据工程师的成长之路

最近,我和导师、同门一起交流,说到怎么才能成为一名合格的数据工程师,要学什么样的教材,对于技术的学习是否是有规律可寻进行了探讨。谈谈作为一名计算机专业的学生,我是如何来进行学习的。注重基础,《python学习手册》无疑是一本不错的入门手册,重点在前面九章。之后的内容都是计算机编程的,简单的看一看,会用就行了。爬虫基础,这将来或许会成为一个数据工程师必备的技能。《python数据抓取技术与实...

2018-07-28 09:23:29 800

转载 【利用python进行数据分析】第5章pandas入门

pandas的数据结构介绍要使用pandas,你首先就得熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有的问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。由于频繁的使用pandas、Series和DataFrame,所以我们将其引入本地命名空间中会更方便from pandas import Series, DataFrameimport pa...

2018-07-28 09:22:29 418

转载 【利用python进行数据分析】准备与实例(二)

MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表:评分、用户信息和电影信息。我们来试着读取数据,按性别计算每部电影的平均分:import pandas as pdencoding = 'lati...

2018-07-06 23:30:56 542

转载 【利用python进行数据分析】准备与实例(一)

我已经分享了本书的ipynb,所以跟着我一起来实验吧。如果你不懂怎么打开ipynb格式的文件,那也没关系,anaconda3让一切变得更简单(我像是打广告的)。安装玩anaconda之后,我们在开始里就可以找到它的文件夹,里面有一个Jupyter Notebook,就是它了。点开之后,弹出cmd的黑窗口,接着浏览器弹出网页,那么就启动成功了(这里别去关掉cmd的黑窗口,最小化就行),它的主页一般定...

2018-07-06 23:30:36 3106

原创 【汇总】软件、资料下载清单

有些实验类的读书笔记或者文章中的完整代码,我都有记录,慢慢分享吧,好东西都值得花时间整理。1、利用python进行数据分析(ipynb版本,纯手打)  密码: qjpt2、机器学习实战源代码+数据文件待更新...... 如果你有需要的软件和完整代码,请留言告诉我,我会及时更新。...

2018-07-06 23:30:11 273

转载 【python数据抓取技术与实战】单机数据抓取

1、单机顺序抓取这里使用的是Spynner库进行单进程抓取,通常用于目标明确及抓取内容数量不是很大的情况。加之我们用的python3,安装过程也复杂,所以我们就不必在这部分花时间了。但在这里,我们做一个简单的介绍。优点:Spynner基于pyqt库,pyqt封装了强大的webkit,具有执行JavaScript的能力,可以完全模拟一个浏览器的功能和行为。import spynner ...

2018-07-06 23:28:43 694

转载 【python数据抓取技术与实战】json

python提供了json库,专门用于json格式内容的解析处理。json的使用比较简单,常用的方法有load、loads、dump和dumps,我们这里结合mongodb,可以存储大量的json数据。查询北京大学地图的url,它返回的是json格式。我们可以通过该例子说明问题,网址如下:http://ditu.amap.com/detail/get/detail?id=B000A816R6,代码...

2018-07-06 23:28:17 463

转载 【python数据抓取技术与实战】BeautifulSoup

中文翻译:美丽汤。光听听名字就觉得是一个很棒的工具。言归正传,说说我们抓取的数据。其实返回的数据都是有结构化的。一般会遇到的三种结构化的返回数据,分别是HTML、XML和json。今天所介绍的BeautifulSoup就是python中处理HTML或XML的分析库,也就是说它能够解析这两种结构化文件。对于json的处理和分析,我们放到下一节再讲。BeautifulSoup能做抽取数据,提供各类方法...

2018-07-06 23:27:56 657

转载 【python数据抓取技术与实战】正则表达式

我之所以把正则表达式单独罗列出来讲,是因为我觉得它在爬虫技术中的地位真的非常重要。所以,这个章节你也要打起精神学习。先来看看它是个什么工具正则表达式是处理字符串的有力工具。python中有个re模块提供了大量的方法,能实现正则表达式相关的各类操作。re模块常用的函数包括match、search、findall,可以通过help('re')命令查看函数用法。>>> help('re...

2018-07-06 23:27:38 318

原创 MongoDB的安装教程

系统环境:windows 7首先,我们先准备工具,mongodb的解压包,由于新版本3.6才出来,为了稳定,我们选择mongodb-win32-x86_64-v3.4-latest.zip即可。下载完成后,我们将文件解压到D盘。为了简化路径名称长度,我们把“D:\mongodb-win32-x86_64-3.4.10-36-g1055daf”改为了“D:\mongodb34”键盘上win+R进入运...

2018-07-06 23:27:12 262

转载 【python数据抓取技术与实战】爬虫基础

第一个爬虫应用该代码主要爬取电子工业出版社http://www.phei.com.cn首页的内容。#引入requests模块import requests#定义get_content函数def get_content(url): resp = requests.get(url) return resp.text#"__name__ == '__main__'"的作用是被...

2018-07-06 23:26:45 525

原创 爬虫实战(二)猫眼电影动态数据爬取

爬虫部分的知识算是告一段落了,又是几天过去了,感觉挺充实的。里面可能还有一些需要改进的地方,慢慢完善吧。接下来我们就说说上次遗留下来的问题,如何爬取动态数据。先告诉你一下爬取的数据中为什么没有电影信息吧:因为我们请求的是静态页面地址。如果请求的是动态资源,会从数据库中取出数据等一系列操作后动态拼凑页面的展示内容,把所有的展示内容交给WEB服务器,之后通过WEB服务器将内容发送回客户端浏览器进行...

2018-07-05 18:14:37 2263 2

原创 爬虫实战(一)猫眼电影基础数据爬取

看完爬虫基础,是不是有点心动手痒了呢?那么接下来就让我们一起学习如何爬虫吧。写在爬虫之前选这个题目的初衷:本人是一个学生党,经济来源较少但平时又特别爱看电影,又没时间关注电影票价的变动,有了这个爬虫之后,这将会极大的缓解我的苦恼。爬取网页的说明:我们选择美团旗下的猫眼电影页面进行爬取,但不得不承认美团网站页面的反爬虫机制还是很厉害的。所以,我们将目标锁定在了它的客户端页面。页面地址...

2018-07-05 00:45:17 11849

原创 【python基础篇】常用内置对象与操作

交互式编写代码:使用win+R调出“运行”对话框,输入cmd,再输入python即可进入“交互模式”IDE方式,我使用的是pycharm,在左下方,找到“python console”即可进入“交互模式”使用“print”打印一个字符串和一个整数>>> print 'Hello world!'Hello world!>>> print 2 ** 8256 ...

2018-07-05 00:28:11 311

原创 【python入门篇】为什么选择python

1、选择python编程的主要原因:软件质量、开发者效率、程序的可移植性、标准库的支持、组件集成和享受乐趣2、python的创始人是谁:Guido van Rossum,龟叔3、python的哲学彩蛋:import this4、python可以拿来做什么:应用场景都实用,从网站和游戏开发到机器人和航天飞机控制例子:系统编程、GUI(用户图形接口)编程、Internet脚本、组件集成、数据库编程、快...

2018-07-05 00:18:27 178

Myeclipse8.6上搭建Aandroid开发环境

如果你想搭建Aandroid开发的环境,而且你安装了Myeclipse8.6,那还等什么呢,赶紧下载吧!

2013-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除