- 博客(52)
- 资源 (50)
- 收藏
- 关注
原创 python爬虫入门之————————————————第一节--了解爬虫
1.爬虫入门概述爬虫,又被称为网络爬虫,主要指代从互联网上进行数据采集的脚本后者程序,是进行数据 分析和数据挖掘的基础。 所谓爬虫就是指在给定url(网址)中获取我们对我们有用的数据信息,通过代码实现数据的大量获取,在经过后期的数据整理、计算等得出相关规律,以及行业趋势等信息。通常我们说的爬虫2.爬虫分类按照使用情况,主要分为两大类型:通用爬虫和聚焦爬虫 按照采集数据的过程进...
2018-11-25 18:12:30 2444 6
原创 利用Python爬取8684公交路线查询网站中全国公交站点信息
利用python语言结合requests、BeautifulSoup等类库爬取https://api.8684.cn/v3/api.php?do=citys&act=province对应接口中所有城市公交路线信息以及公交站点信息。在结合文件写入等操作将采集到的站点信息以及导航信息保存至对应城市的文件中。数据样例展示, 分隔符为。
2024-03-04 16:01:44 517
原创 利用微信小程序作为爬虫的目标URL进行全国手机号段归属地的数据采集
"""Version 1.1.0Author lkkEmail [email protected] 2019/2/14 11:09Desc TODO"""import requestsimport jsonimport timeimport toolsssurl = 'https://www.qqzeng-ip.com/api/phone'headers = ...
2019-02-21 15:46:36 760 2
原创 Python算法系列之常见的排序算法-------------------冒泡排序、选择排序、插入排序、快速排序、希尔排序、归并排序
排序算法定义:是一种能将一串数据依照特定的顺序进行排列的一种算法。1.冒泡排序思路:比较相邻的元素。如果第一个比第二个大,就交换他们两个。以此类推,对每一对相邻元素做相同处理,从开始第一队到结尾的最后一对。这不做完之后最后的元素就会是最大的数。然后对所有的元素进行重复以上的步骤,每次都出去最后的一个。冒泡排序无序的序列:[54,26,93,17,77,31,44,5...
2018-12-17 21:46:26 343
原创 爬虫入门之验证码的处理--------------------------pytesseract库的使用
前言 目前有许多网站针对爬虫采取了多种多样的措施进行反爬虫,为了不降低用户的体验度同时还能将爬虫拦截在网站之外的一个简单的措施就是验证码。随着技术的发展,验证码的种类也越来越多了,图形拼接、数字组合、简单的数学问题、点击图中的文字等等以及在文字渲染的同时加入干扰线条来增大爬取信息的难度。验证码也随之变得越来越复杂了,爬虫工作也变得越来越有挑战性了。1.1 图形验证码的识别在...
2018-12-11 14:29:37 405
转载 Python爬虫大战、 Scrapy分布式原理以及分布式部署
Python爬虫大战爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所...
2018-12-05 09:40:33 576
原创 python下使用scrapy-redis模块分布式爬虫的爬虫项目部署详细教程————————gerapy
1.使用gerapy进行分布式爬虫管理准备工作:首先将你使用scrapy-redis写的分布式爬虫全部完善模块准备:安装:pip install pymongo【依赖模块】pip install gerapy 2.在本地创建部署项目的文件夹2.1例如如图在本地创建workgreapy文件夹2.2进入该文件夹2.3输入cmd 回车2.4在命令...
2018-12-04 22:54:40 728
原创 python爬虫入门之————————————————第四节--使用bs4语法获取数据
1.装备工作:模块安装1.1命令安装方式:(开发环境:python3.6环境)官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html官方文档中文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ pip install be...
2018-12-01 19:49:42 853
原创 Python Web开发相关的面试题(Django )
Python Web开发相关的面试题(Django )解释一下 WSGI 和 FastCGI 的关系?CGI全称是“公共网关接口”(CommonGateway Interface),HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具,其程序须运行在网络服务器上。 CGI可以用任何一种语言编写,只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。FastCG...
2018-12-01 11:56:46 2062 1
原创 2018最常见的Python面试题(技术题)---------------------第三波福利
1.请说一下你对迭代器和生成器的区别?(1)迭代器是一个更抽象的概念,任何对象,如果它的类有 next 方法和 iter方法返回自己本身。对于 string、list、dict、tuple 等这类容器对象,使用 for 循环遍历是很方便的。在后台 for 语句对容器对象调用 iter()函数,iter()是 python 的内置函数。iter()会返回一个定义了 next()方法的迭代器对...
2018-11-28 22:52:59 203
原创 python爬虫入门之————————————————案例演练
源码"""Version 1.1.0Author lkkEmail [email protected] 2018-11-25 18:39DESC 电影天堂"""# https://www.dy2018.com/from urllib import requestimport timefrom lxml import htmlfrom fake_userage...
2018-11-28 22:42:28 395
原创 python爬虫入门之————————————————案例演练
目标url https://www.qiushibaike.com/8hr/page/数据持久化源代码:"""Version 1.1.0Author lkkEmail [email protected] 2018-11-22 21:57DESC sqlalchemy存储"""from sqlalchemy import Column, String, cre...
2018-11-28 22:36:53 361
原创 python爬虫入门之————————————————第三节requests详解
1.下载安装(1)命令安装方式Windows:打开命令窗口行,直接运行包管理命令安装 pip install requests or essy_install requests(简易版) unix/linux:打开 shell 窗口,运行包管理命令安装 pip install requests (2)离线安装 下载离...
2018-11-28 22:18:11 550
原创 python爬虫入门之————————————————第二节--使用xpath语法获取数据
准备工作⚫了解爬虫的数据处理体系结构⚫ 处理数据的软件准备 采集到的结构化数据[如 html 网页文档数据] python 开发环境 lxml 第三方库 结构化数据基本理论:DOM 模型 1结构化数据具备有一定的结构,有预定义规则的数据模型,统称为结构化数据 如:数据进行格式化展示的 HTML 文档中的数据、数据进行格式化传输的 XML 文档中的数据、数据进行格式化整理的 Exce...
2018-11-25 18:38:12 2394
原创 利用C#爬取网页HTML数据
//方法一using System.Text.RegularExpressions;public static void webClientMethod1() { WebClient wc = new WebClient(); wc.Encoding = Encoding.UTF8; //以字符串的形式...
2018-11-03 17:56:04 8136 4
原创 原生ajax请求的步骤如下——————————————————————————
通常,浏览器产生HTTP请求,是由于用户输入了新的网址、或者点击了超级链接,使页面跳转,这将导致页面的全局刷新。而Ajax(Asynchronous Javascript And XML:异步JavaScript和XML)技术,可以使网页悄悄地、偷偷地发起HTTP请求,请求回来的数据在页面局部刷新呈递。ajax的使用其实很简单:第一步,new出一个XMLHttpRequest对象: v...
2018-11-03 15:53:08 394
原创 2018最常见的Python面试题----------------------------第二波福利
1.为什么要有面向对象?面向对象中为什么要定义类型创建对象?面向对象是一种对现实世界理解和抽象的方法,是计算机编程技术发展到一定阶段后的产物。加之Python非常适合面向对象的编程(OOP),因为它支持通过组合(composition)与继承(inheritance)的方式定义类(class)。面向对象: Python既支持面向过程的函数编程也支持面向对象的抽象编程。在面向过程的语言中,程...
2018-10-24 10:49:28 314 2
原创 常见的网络传输协议
协议名称 描述 IP协议 是将多个包交换网络连接起来,在源地址和目标地址之间传输数据包并对 数据包进行拆分和重组以适应不同的网络大小 TCP协议 Transmission Control Protocal 传输控制协议 一种端对端的、可靠的、基于 IP 的传输层协议 特点:3 次握手建立连接;4 次挥手断开连接 UDP协议 User Datagram Prot...
2018-10-23 21:21:03 806
原创 python环境下Django入门 开发----------------------------------------web 基础知识
1.软件的分类 软件:计算机中按照特定的顺序组织的计算机数据和指令的集合,是一个或者一些功能实现的集合,换言之软件就是计算机中可运行的程序。软件在计算机中一般分为三大类:系统软件,应用软件,以及介于这两者之间的软件。1.1系统软件直接安装在计算机硬件上的进行数据交互的大型软件,是对计算机硬件的第一次扩展,其他软件都是在系统软件上运行的。常见的系统软件有:windows、Andr...
2018-10-23 21:20:21 234
原创 pytho中使用Django 的用途、特点、开发优势等
总结 Django 的用途、特点、开发优势 Django的用途:开发web框架Django:简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以“插件”形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很方便的开发出自己的工具包。Django的开发优势:Django是一个功能十分强大的web开发框架,为我们提供了在开发时需要用到的功能...
2018-10-23 16:17:14 2393
原创 爬虫工程师起薪2万!Python需学到什么程度才可以就业?
第一点:Python因为面试的是Python爬虫岗位,面试官大多数会考察面试者的基础的Python知识,包括但不限于: Python2.x与Python3.x的区别 Python的装饰器 Python的异步 Python的一些常用内置库,比如多线程之类的 第二点:数据结构与算法数据结构与算法是对面试者尤其是校招生面试的一个很重要的点,当然小公司不会太...
2018-10-19 21:39:45 535
原创 2018最常见的Python面试题----------------------------第一波福利
Python新手在谋求一份Python编程工作前,必须熟知Python的基础知识。编程网站DataFlair的技术团队分享了一份2018年最常见Python面试题合集,既有基本的Python面试题,也有高阶版试题来指导你准备面试,试题均附有答案。面试题内容包括编码、数据结构、脚本撰写等话题。本文为上篇。Q 1:Python有哪些特点和优点?作为一门编程入门语言,Python主要有以下特点和...
2018-10-19 17:27:43 717
原创 python 爬取指定图片并将图片下载到指定文件夹
"""Version 1.1.0Author lkkEmail [email protected] 2018-10-19 11:34DESC 下载指定网页的图片到指定文件夹"""import requestsimport osfrom urllib import requestimport reres = request.urlopen("http://www.27...
2018-10-19 13:55:22 5780
原创 python3.0环境下利用tkinter模块的可视化编写的基于TCP的可视化社交平台(客户端)的实现
源代码:"""Version 1.1.0Author lkkEmail [email protected] 基于TCP的界面社交平台(客户端)的实现"""import tkinterfrom tkinter import *import threadingimport socketimport time# 定义服务器信息HOST = '192.168.11.2...
2018-10-17 22:16:31 2743 3
原创 python3.0环境下利用tkinter模块的可视化编写的基于TCP的可视化社交平台(服务端)的实现
服务端源代码:# coding:utf-8"""Version 1.1.0Author lkkEmail [email protected] 基于TCP的界面社交平台(服务端)的实现"""import tkinterimport socketimport threadingimport timefrom tkinter import *# 定义服务器信息...
2018-10-17 22:10:37 1492
原创 python中的内存管理与分析以及垃圾回收机制
1.内存分析和处理程序的运行离不开对内存的操作,一个软件要运行,需要将数据加载到内存中,通过CPU进行内存数据的读写,完成数据的运算。1.1不可变数据类型VS可变数据类型python中根据数据是否可以进行修改提供了两种不同的数据类型⚫ 不可变数据类型:一般基本数据类型都是不可变数据类型⚫ 可变数据类型:一般组合数据类型或者自定义数据类都是可变数据类型怎么区分可变和不可变?为什么要有这样...
2018-10-17 22:01:02 653
原创 python、java、c++ 运行最小执行单元
PYTHON中程序最小执行单元是代码块JAVA中程序运行的最小执行单元是类C++中程序运行的最小执行单元是函数/方法
2018-10-16 10:30:01 758
原创 python中json.dump() 和 json.dumps() 有那些区别?
python json.dumps() json.dump()的区别首先说明基本功能:1.json.dumps() 是将 dict转化成str格式,下面演示如何将一个Python数据结构转换为JSON:import jsondata = { 'name' : 'ACME', 'shares' : 100, 'price' : 542.23}json_str = ...
2018-10-15 20:53:15 682
原创 python3.6 环境下的UDP网络编程
1.UDP编程1.1UDP概念UDP:User Datagram Protocal 用户数据报协议是 OSI/RM 模型中隶属于传输层的面向无连接的网络数据传输协议UDP 协议本身没有连接可靠性的保证,没有数据顺序 ACK 记录,没有数据重发等机制,因 为没有那么多的数据传输控制特性,所以 UDP 进行数据传输过程中延迟较小,数据传输效率较高,比较适合对可靠性要求不是很高的程序!由于 U...
2018-10-15 19:34:21 676
原创 python3.6环境下利用TCP传输控制协议模拟实现的端对端的聊天功能
服务端源代码"""TCP完整版聊天室端对端开发(服务端)version 1.1.0author lkkEmail [email protected]"""# 引入所需模块import socket, threadingimport logging# 定义服务器信息HOST = ''PORT = 8888ADDRESS = (HOST, PORT)BUFFER...
2018-10-12 20:35:48 580 2
原创 python3.0多进程编程————————————————————————————————浅谈
$1 多进程概述进程是正在执行中的应用程序,一个进程包含了该应用程序的所有信息,如加载数据内存空 间、代码、程序数据、对象句柄,执行单元等等,一个应用程序根据其功能的多样性,可以 通过多个进程并发的形式来实现。计算机中多线程的操作已经可以实现多任务的处理机制了,但是如果涉及到多核 CPU 或者 多个 CPU 的硬件主机,多进程并发编程的实现能比多线程并发机制更加有效的利用和发挥 硬件资源优势。...
2018-10-12 20:26:11 737
原创 python3.0的多线程
1.进程进程:计算机中一个程序在一个数据集上一次动态执行过程,主要包含三部分内容⚫ 程序:描述进程的功能以及处理流程⚫ 数据集:功能处理过程中需要的资源数据⚫ 进程控制:严格控制进程执行过程中的各种状态一个软件程序要运行,需要将软件依赖的数据加载到内存中,通过 CPU 进行运算并按照程 序定义的逻辑结构进行流程控制,知道数据处理完成后程序退出! 在程序实际执行过程中,进程只是分配需要的数...
2018-10-12 13:59:21 748
原创 python3.6 环境下的TCP网络编程
python环境下的tcp网络编程网络概念网络是由节点和连线构成,表示诸多对象及其相互联系。在数学上,网络是一种图,一般认为专指加权图。网络除了数学定义外,还有具体的物理含义,即网络是从某种相同类型的实际问题中抽象出来的模型。在计算机领域中,网络是信息传输、接收、共享的虚拟平台,通过它把各个点、面、体的信息联系到一起,从而实现这些资源的共享。客户端/服务端1.在计算机中,客户端和服务端的架...
2018-10-12 08:53:07 466
原创 python3.0下的SMTP/POP3 收发邮件的发送
文本邮件的发送1.邮件发送流程 邮件的发送是主动行为:主要通过 MUA/邮件客户端软件,将邮件内容发送给对应的服务器 暂存到投递服务区,然后由当前运营商根据邮件特征信息将邮件转发给目标服务器的投递服 务区,此时目标用户的邮件已经发送完成,等待对方收取即可。 邮件的收取也是主动行为,用户可以打开邮件客户端软件,通过点击类似于收取这样的行为 就可以从自己邮箱所属...
2018-10-10 22:37:50 2626
原创 Java面试题
多线程、并发及线程的基础问题 1)Java 中能创建 volatile 数组吗?能,Java 中可以创建 volatile 类型数组,不过只是一个指向数组的引用,而不是整个数组。我的意思是,如果改变引用指向的数组,将会受到 volatile 的保护,但是如果多个线程同时改变数组的元素,volatile 标示符就不能起到之前的保护作用了。 2)volatile 能使得一个非原子操...
2018-10-10 09:40:55 347
原创 python环境下实现的简易版的对讲机
在pycharm下运行首先把服务端开启服务端代码如下:"""tcp服务端开发version 1.1.0author lkkemail [email protected]"""import socketimport timeimport osfrom datetime import datetime# 创建可以操作tcp协议的socket对象HOST = ''...
2018-10-09 22:40:56 616
原创 python中模块、包 的相对引入与绝对引入
PYTHON 核心开发 1.包和模块的定义 python 中的包和模块,首先是按照代码的功能进行整理整合,想相似功能的代码/大量代 码整理到一起方便统一管理 模块(module):python 中每个 python 文件就是一个模块,每个 python 文件中,封装...
2018-10-08 22:30:49 536 1
原创 python面试常见知识点整理,你遗漏了几个?
python面试常见知识点整理,你遗漏了几个? Python是一个面向对象的解释型的交互式高级脚本语言:Python被设计成一种高可读性的语言,因为它大量地使用了英语中的单词作为关键字,而且不像其他语言使用标点符号构成复杂的语法结构,Python的语法结构非常少。Python是一种面向对象的语言:即Python是支持面向...
2018-09-29 15:43:29 320
火车飞机站点信息.xlsx
2021-04-04
上海市公交站点大全.rar
2020-04-22
五级城市联动数据大全.rar
2020-04-16
中型电商交易平台(完全可做毕设)
2018-11-25
django框架下开发的完整版的电商
2018-11-16
小型影院管理系统开题报告
2018-10-17
python3.0环境下利用tkinter模块的可视化编写的基于TCP的可视化社交平台的实现
2018-10-17
小型影院管理系统(计科专业毕业论文设计)文献综述
2018-10-13
计科专业(小型影院管理系统开题报告)
2018-10-13
小型影院管理系统(毕业论文)
2018-10-13
python3.0利用TCP传输控制协议模拟实现端对端的聊天功能
2018-10-12
python3.0模拟实现的对讲机功能
2018-10-09
Oracle实验指导书
2018-10-08
微机原理与接口技术B实验
2018-10-08
面向对象课程设计(人事管理系统 )
2018-10-08
计科电商系统
2018-10-08
网上购物系统
2018-10-08
电子商务系统
2018-10-08
利用python3.6与mysql 完成登录与注册功能
2018-09-28
专业前沿技术
2018-09-25
python写的个人博客管理系统
2018-08-30
计算机科学与技术Java课设
2018-08-29
计算机组成原理(模型机设计)
2018-08-28
计算机专业 c++面向对象课程设计(人事管理系统的课程设计)
2018-08-28
2014级计算机网络 课程设计
2018-08-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人