欢迎来到双子树教育网!
总站
切换分站
159-0741-2407
课程分类
双子树教育网 > 新闻资讯 > 计算机/IT资讯 > 大数据动态 >  python培训介绍之什么是python爬虫?

python培训介绍之什么是python爬虫?

发布时间:2020-10-07 17:20:27  来源:双子树教育网   浏览:   【】【】【

今天详细说明Python爬行动物的原理,python爬行动物是什么,python爬行动物的基本流程是什么等,希望对正在学习python爬行动物的学生有所帮助。‘’

简而言之,互联网是由一个网站和一个网络设备组成的一个大网络。我们通过浏览器访问网站,网站将HTML、JS和CSS代码返回浏览器。这些代码通过浏览器的分析和渲染来展示丰富多彩的网页。

python培训介绍之什么是python爬虫?

一、爬虫类是什么?

如果我们把互联网比作一个大蜘蛛网,数据管在蜘蛛网的各个节点,爬虫类是小蜘蛛

沿着网络捕捉自己的猎物(数据)爬行动物是指向网站提出要求,获得资源分析提取有用数据的程序

从技术层面来看,通过程序模拟浏览器要求站点的行为,将站点返回的HTML代码/JSON数据/二进制数据(图像、视频)登陆当地,提取自己需要的数据,保管使用

二、爬虫类的基本流程:

用户获取网络数据的方法:

方式1:浏览器提交请求->下载网页代码->分析为网页。

方式2:模拟浏览器发送请求(获得web代码)->提取有用的数据->存储在数据库和文件中。

爬虫要做的是方法2

1.开始请求。

使用http库向目标站点发送请求,即Request。

Request包括请求头、请求体等。

Request模块缺陷:JS和CSS代码无法执行。

2.获得应答内容。

如果服务器能够正常响应,就会得到Response。

Response包括html、json、照片、视频等。

3.分析内容。

html数据分析:正则表达式(RE模块),第三方分析库如Beautifulsoup、pyquery等。

json数据分析:json模块。

解析二进制数据:以wb的方式写入文件。

4.保存数据。

数据库(MySQL、Mongdb、Redis)

文件。

三、http协议请求及响应。

Request:用户将自己的信息通过浏览器发送给服务器

Response:服务器接收请求,分析用户发送的请求信息,返回数据(返回数据可能包含图像、js、css等其他链接)。

ps:浏览器在接收Response后,分析其内容向用户显示,爬虫类程序在模拟浏览器发送请求并接收Response后,必须提取有用的数据。

本文来源:
责任编辑:双子树编辑团队
相关评论我来说两句
© 双子树教育网 湘ICP备19016366号-1