1 一行数据

尚未进行身份认证

数据挖掘 大数据开发

等级
TA的排名 5w+

java课程(54G)2019全套学习视频免费分享

相关数据下载,请关注公众号"一行数据",回复"java学习"可得对比了很多网上的java学习视频,传智钟老师上的很有意思,不像其它很多视频单纯是在读ppt,适合基础薄弱的人从0开始学,不过要是有点的基础的也可以2倍速度学习,其中一些小练习还是很不错的...

2019-06-03 09:07:16

python爬虫的实战思路

3.1Requests+正则表达式爬取猫眼电影TOP100抓取单⻚内容利⽤requests请求⽬标站点,得到单个⽹⻚HTML代码,返回结果。正则表达式分析根据HTML代码分析得到电影的名称、主演、上映时间、评分、图⽚链接等信息。开启循环及多线程对多⻚内容遍历,开启多线程提⾼抓取速度。保存⾄⽂件通过⽂件的形式将结果保存,每⼀部电影⼀个结果⼀⾏Json字符串。3.2分析Ajax请...

2019-06-01 12:07:14

python爬虫的Selenium库详解

文章目录1.Selenium介绍2.基本使用3.声明浏览器对象4.访问页面5.查找元素5.1单个元素5.2多个元素6.元素交互操作7.交互动作8.执行JavaScript9.获取元素信息9.1获取属性9.2获取文本值9.3获取ID、位置、标签名、大小10.Frame11.等待11.1隐式等待11.2显式等待12前进后退13.Cookies14.选项卡管理15.异常处理1.Selenium介绍自...

2019-05-30 11:13:20

python爬虫的BeautifulSoup库详解

文章目录1.解析库2.基本使用3.标签选择器3.1选择元素3.2获取名称3.3获取属性3.4获取内容3.5嵌套选择3.6子节点和子孙节点3.7父节点和祖先节点3.8兄弟节点4标准选择器4.1find_all(name,attrs,recursive,text,**kwargs)4.1.1name4.1.2attrs4.1.3text4.2find(name,attrs,...

2019-05-29 17:29:01

python正则表达式

文章目录正则表达式1.什么是正则表达式2.常见匹配模式3.re.match3.1最常规的匹配3.2泛匹配3.3匹配目标3.4贪婪匹配3.5非贪婪匹配3.6匹配模式3.7转义4.re.search4.1匹配演练5.re.findall5.1re.sub6.re.compile7.实战练习正则表达式1.什么是正则表达式正则表达式是对字符串操作的⼀种逻辑公式,就是⽤事先定义好的⼀些特定字符、及这些...

2019-05-29 16:30:03

python爬虫的requests库详解

文章目录1.requests是什么2.安装3.requests3.1实例引入3.2各种请求方式请求基本GET请求基本写法带参数GET请求解析json获取二进制数据添加headers基本POST请求响应reponse属性状态码判断高级操作文件上传获取cookie会话维持证书验证代理设置超时设置认证设置异常处理1.requests是什么Requests是⽤Python语⾔编写,基于urlli...

2019-05-29 16:23:54

数据结构之数组

1.数组基础把数据码成一排进行存放索引可以有语义;也可以没有语义数组最大的优点:快速查询数组最好应用于“所以有语意”的情况但并非所有有语义的索引都是用于数组身份证号2.操作数组1.向数组添加元素2.在数组中查询和修改元素3.在数组中搜索和删除元素3.使用泛型让数据结构可以放置“任何”数据类型不可使基本数据类型,只能是类对象boolean,byte,char...

2019-05-29 15:45:00

用爬虫来对csdn个人博客进行访问,刷访问量

(相关数据请关注公众号‘一行数据’,回复**“机器学习sklearn**”或者添加微信好友data_ecology可免费获得)写博客快一个月了,但是访问量总是一丢丢的增加,突发奇想能不能用爬虫增加csdn访问量nobb,showyoucodeimportrequests#fromlxmlimportetreeimporttimeimportreimportmat...

2019-05-28 19:38:25

机器学习、深度学习人工智能课程(632.45G)全套学习视频免费分享,资料下载

相关数据下载,请关注公众号"一行数据",回复"人工智能"可得人工智能越来越热,机器学习,深度学习,量化交易,数据挖掘等越来越受到人门青睐这里分享学习视频数据给大家,这样在知识的传递中,可以进行互相交流,探讨,促进学习的进步...

2019-05-28 19:37:33

python课程(68G)从入门到精通全套学习视频免费分享

相关数据下载,请关注公众号"一行数据",回复"python学习"可得

2019-05-28 19:37:10

python数据分析分析(8G)学习视频免费分享

相关数据下载,请关注公众号"一行数据",回复"python可视化"可得很多人学python是从作图开始的,一方面很容易产生成就感,另一方面也是添加了学习的乐趣。...

2019-05-28 19:36:57

python爬虫的urllib库详解

1.什么是Urllibpython内置的HTTP请求库urllib.request请求模块urllib.error异常处理模块urllib.parseurl解析模块urllib.robotparserrobots.txt解析模块2.相对于Python2的变化Python2importurllib2response=urllib2.urlopen(“http:/...

2019-05-28 17:54:55

python爬虫的基本原理

1.什么是爬虫网络爬虫,请求网站并提取数据的自动化程序2.爬虫基本流程发起请求获取响应内容解析内容保存数据3.什么是Request和Response?4.Request中包含什么请求方式主要有Get,POST两种类型另外还有HEAD,PUT,DELETE,OPTIONS等请求URLURL全称统一资源定位符,如一个网页文档、一张图片、一个视频等都可以用URL唯一来确...

2019-05-28 16:32:52

python的列表,字典,元组,集合的区别和各自使用方法

list,tuple,set,dict区别总结图:1.列表list[]列表是处理一组有序的数据结构,可以读写,添加和删除,或者搜索列表里的元素。因为可以添加和删除,所以称为可变的数据类型,即这种类型是可以被改变的,并且列表可以嵌套。res=[1,2,'yihang']#增加元素:extend和appendres.append(1)res.extend('6')#删除元素:de...

2019-05-23 22:41:22

十二道常见的Python面试题

文章目录1.这两个参数是什么意思:\*args,\**kwargs?我们为什么要使用它们?2.谈一谈Python的装饰器(decorator)3.简要描述Python的垃圾回收机制(garbagecollection)4.Python多线程(mlti-threading)。这是个好主意吗?5.说明os.sys模块不同,并列举常用的模块方法?6.什么是lmbda表达式?它有什么好处?7.Pytho...

2019-05-13 22:48:06

解决IntelliJ IDEA中git出现的 Could not read from remote repository问题

1.解决办法:在Settings->VersionControl->Git中,将SSHexecutable设置为Native即可,如图,红色箭头中是要修改的地方。2.出现原因:使用native的意思就是用本地SSH,因为一般我们都会把SSH配置在本地C:\Users\xxxxxx.ssh\下面...

2019-05-10 22:23:04

如何把本地文件夹的所有文件上传github

1.在GitHub上新建一个仓库,创建时有一个https地址,记录此地址2.打开gitbash,转到你需要上传的文件夹目录下,并输入gitinit3.将项目添加到仓库去:gitadd.4.将添加的文件提交到仓库:gitcommit-m"------注释-------"5.将仓库关联到github:gitremoteaddoriginhttps://x...

2019-05-10 22:08:14

2020年大数据开发面试题汇总(持续更新)

笔试题汇总20190422:在linux里找文件sql题mapreduce原理,排序算法大数据处理积累的经验----例如数据倾斜高效构建大数据仓库的认识和理解

2019-04-22 21:08:18

大数据开发项目-电信项目2-传输数据

文章目录1.配置flume文件2.数据采集部分打通2.1启动zookeeper及集群2.2启动kafka集群2.3启动flume集群2.4生产数据3数据消费环境准备3.1添加maven配置3.2添加maven配置4消费数据工具类4.1PropertiesUtil代码来调用配置的参数4.2ConnectionInstance实例化一个连接对象5.kafkaAPI消费数据5.1本地kafka...

2019-04-22 21:01:30

十分钟入门学习git和githhub

git是一个版本控制系统文章目录git是一个版本控制系统一、什么是版本控制系统?1.1、概念1.2、分类1.3、基本概念1.4、不同版本控制系统优缺点1.4.1本地:1.4.2集中式版本控制系统1.4.3解决------分布式版本控制系统:二、git分布式版本管理系统2.1由Linux创始人开发,作为Linux内核代码管理系统使用。2.2Git在设计时考虑了很多方面设计目标2.3Git原理:保存...

2019-04-22 13:50:04

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。