Python 爬虫介绍

仁镜 Python编程 2018-12-21 09:14:10 1411 0 Python语言编程技术

一、什么是爬虫

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。

二、Python爬虫架构

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。

下面用一个图来解释一下调度器是如何协调工作的:

三、urllib2 实现下载网页的三种方式

#!/usr/bin/python

# -*- coding: UTF-8 -*-

import cookielib

import urllib2

url = "
http://www.baidu.com
"

response1 = urllib2.urlopen(url)

print "第一种方法"

#获取状态码，200表示成功

print response1.getcode()

#获取网页内容的长度

print len(response1.read())

print "第二种方法"

request = urllib2.Request(url)

#模拟Mozilla浏览器进行爬虫

request.add_header("user-agent","Mozilla/5.0")

response2 = urllib2.urlopen(request)

print response2.getcode()

print len(response2.read())

print "第三种方法"

cookie = cookielib.CookieJar()

#加入urllib2处理cookie的能力

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

urllib2.install_opener(opener)

response3 = urllib2.urlopen(url)

print response3.getcode()

print len(response3.read())

print cookie

四、第三方库 Beautiful Soup 的安装

Beautiful Soup: Python 的第三方插件用来提取 xml 和 HTML 中的数据，官网地址 https://www.crummy.com/software/BeautifulSoup/

1、安装 Beautiful Soup

打开 cmd（命令提示符），进入到 Python（Python2.7版本）安装目录中的 scripts 下，输入 dir 查看是否有 pip.exe, 如果用就可以使用 Python 自带的 pip 命令进行安装，输入以下命令进行安装即可：

pip install beautifulsoup4

2、测试是否安装成功

编写一个 Python 文件，输入:

import bs4print bs4

运行该文件，如果能够正常输出则安装成功。

五、使用 Beautiful Soup 解析 html 文件

#!/usr/bin/python

# -*- coding: UTF-8 -*-

import re

from bs4 import BeautifulSoup

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="
http://example.com/elsie
" class="sister" id="link1">Elsie</a>,

<a href="
http://example.com/lacie
" class="sister" id="link2">Lacie</a> and

<a href="
http://example.com/tillie
" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

#创建一个BeautifulSoup解析对象

soup = BeautifulSoup(html_doc,"html.parser",from_encoding="utf-8")

#获取所有的链接

links = soup.find_all('a')

print "所有的链接"

for link in links:

print link.name,link['href'],link.get_text()

print "获取特定的URL地址"

link_node = soup.find('a',href="
http://example.com/elsie
")

print link_node.name,link_node['href'],link_node['class'],link_node.get_text()

print "正则表达式匹配"

link_node = soup.find('a',href=re.compile(r"ti"))

print link_node.name,link_node['href'],link_node['class'],link_node.get_text()

print "获取P段落的文字"

p_node = soup.find('p',class_='story')

print p_node.name,p_node['class'],p_node.get_text()

版权声明

1.本站大部分下载资源收集于网络，不保证其完整性以及安全性，请下载后自行测试。
2.本站资源仅供学习和交流使用，版权归资源原作者所有，请在下载后24小时之内自觉删除。
3.若作商业用途，请购买正版，由于未及时购买和付费发生的侵权行为，与本站无关。
4.若内容涉及侵权或违法信息，请联系本站管理员进行下架处理，邮箱ganice520@163.com（本站不支持其他投诉反馈渠道，谢谢合作）

本文链接：http://apod.cc/index.php/post/32.html

2022-04-19利用python实现一个简单的计算器
2022-04-19[python]利用python tkinter模块编写一个数字时钟
2021-03-11Python之matplotlib基础
2021-02-23windows下面安装Python和pip教程
2020-08-03python实现自动获取IP并发送到邮箱
2020-07-28python脚本之借助树莓派24小时刷访问量
2019-12-10python实现简易云音乐播放器
2019-12-10python调用函数、类和文件操作简单实例总结
2019-12-10python实现超市商品销售管理系统
2019-12-10Python OpenCV视频截取并保存实现代码

发表评论

评论列表（0人评论 , 1411人围观）

☹还没有评论，来说两句吧...

树莓派

Arduino

树莓应用

Docker

编程设计

Python

易安卓

易语言

VBA

PHP

网站建设

源码推荐

zblog

maccms

linux教程

智能家居

HA

电视盒子

智能路由

IPTV

Excel

Word

PPT

加密解密

Python 爬虫介绍

二、Python爬虫架构

三、urllib2 实现下载网页的三种方式

四、第三方库 Beautiful Soup 的安装

五、使用 Beautiful Soup 解析 html 文件

版权声明

相关文章

发表评论

最近发表

标签列表

随机文章

好文推荐