15158846557 或

在线咨询

所在位置：首页 > 营销资讯 > 网站运营 > 3种网页抓取方法

3种网页抓取方法

时间：2023-06-08 03:21:02 | 来源：网站运营

时间：2023-06-08 03:21:02 来源：网站运营

3种网页抓取方法：3种抓取其中数据的方法。首先是正则表达式，然后是流行的BeautifulSoup模块，最后是强大的lxml模块。

1　正则表达式

如果你对正则表达式还不熟悉，或是需要一些提示，那么你可以查阅https://docs.python.org/2/howto/regex.html获得完整介绍。即使你使用过其他编程语言的正则表达式，我依然推荐你一步一步温习一下Python中正则表达式的写法。
由于每章中都可能构建或使用前面章节的内容，因此我建议你按照类似本书代码库的文件结构进行配置。所有代码都可以从代码库的code目录中运行，以便导入工作正常。如果你希望创建一个不同的结构，请注意需要变更所有来自其他章的导入操作（比如下述代码中的from chp1.advanced_link_crawler）。

当我们使用正则表达式抓取国家（或地区）面积数据时，首先需要尝试匹配``元素中的内容，如下所示。

>>> import re
>>> from chp1.advanced_link_crawler import download
>>> url = 'http://example.python-scraping.com/view/UnitedKingdom-239'
>>> html = download(url)
>>> re.findall(r'(.*?)', html)
['<img />
',
'244,820 square kilometres',
'62,348,447',
'GB',
'United Kingdom',
'London',
'<a>EU</a>
',
'.uk',
'GBP',
'Pound',
'44',
'@# #@@|@## #@@|@@# #@@|@@## #@@|@#@ #@@|@@#@ #@@|GIR0AA',
'^(([A-Z]d{2}[A-Z]{2})|([A-Z]d{3}[A-Z]{2})|([A-Z]{2}d{2} [A-Z]{
2})|([A-Z]{2}d{3}[A-Z]{2})|([A-Z]d[A-Z]d[A-Z]{2}) |([A-Z]{2}d[A-Z]
d[A-Z]{2})|(GIR0AA))$',
'en-GB,cy-GB,gd',
'<div><a>IE </a></div>
']

从上述结果中可以看出，多个国家（或地区）属性都使用了``标签。如果我们只想抓取国家（或地区）面积，可以只选择第二个匹配的元素，如下所示。

>>> re.findall('(.*?)', html)[1]
'244,820 square kilometres'

虽然现在可以使用这个方案，但是如果网页发生变化，该方案很可能就会失效。比如表格发生了变化，去除了第二个匹配元素中的面积数据。如果我们只在当下抓取数据，就可以忽略这种未来可能发生的变化。但是，如果我们希望在未来某一时刻能够再次抓取该数据，就需要给出更加健壮的解决方案，从而尽可能避免这种布局变化所带来的影响。想要该正则表达式更加明确，我们可以将其父元素``也加入进来，由于该元素具有ID属性，所以应该是唯一的。

>>> re.findall('<label for="places_area">Area: </label>
(.*?)', html)
['244,820 square kilometres']

这个迭代版本看起来更好一些，但是网页更新还有很多其他方式，同样可以让该正则表达式无法满足。比如，将双引号变为单引号，`标签之间添加多余的空格，或是变更area_label`等。下面是尝试支持这些可能性的改进版本。

>>> re.findall('''.*?<tds>(.*?)''', html)
['244,820 square kilometres']

虽然该正则表达式更容易适应未来变化，但又存在难以构造、可读性差的问题。此外，还有很多其他微小的布局变化也会使该正则表达式无法满足，比如在`标签里添加title属性，或者tr、td`元素修改了它们的CSS类或ID。

从本例中可以看出，正则表达式为我们提供了抓取数据的快捷方式，但是该方法过于脆弱，容易在网页更新后出现问题。幸好，还有更好的数据抽取解决方案，比如我们将在本章介绍的其他抓取库。

2　Beautiful Soup

Beautiful Soup

是一个非常流行的Python库，它可以解析网页，并提供了定位内容的便捷接口。如果你还没有安装该模块，可以使用下面的命令安装其最新版本。

pip install beautifulsoup4

使用Beautiful Soup的第一步是将已下载的HTML内容解析为soup文档。由于许多网页都不具备良好的HTML格式，因此Beautiful Soup需要对其标签开合状态进行修正。例如，在下面这个简单网页的列表中，存在属性值两侧引号缺失和标签未闭合的问题。

<ul>
<li>Area
</li><li>Population
</li></ul>

如果Population列表项被解析为Area列表项的子元素，而不是并列的两个列表项的话，我们在抓取时就会得到错误的结果。下面让我们看一下Beautiful Soup是如何处理的。

>>> from bs4 import BeautifulSoup
>>> from pprint import pprint
>>> broken_html = '<ul><li>Area</li><li>Population</li></ul>
'
>>> # parse the HTML
>>> soup = BeautifulSoup(broken_html, 'html.parser')
>>> fixed_html = soup.prettify()
>>> pprint(fixed_html)
<ul>
<li>
Area
</li><li>
Population
</li>
</ul>

我们可以看到，使用默认的html.parser并没有得到正确解析的HTML。从前面的代码片段可以看出，由于它使用了嵌套的li元素，因此可能会导致定位困难。幸运的是，我们还有其他解析器可以选择。我们可以安装LXML（2.2.3节中将会详细介绍），或使用html5lib。要想安装html5lib，只需使用pip。

pip install html5lib

现在，我们可以重复这段代码，只对解析器做如下变更。

>>> soup = BeautifulSoup(broken_html, 'html5lib')
>>> fixed_html = soup.prettify()
>>> pprint(fixed_html)
<ul>
<li>
Area
</li>
<li>
Population
</li>
</ul>

此时，使用了html5lib的BeautifulSoup已经能够正确解析缺失的属性引号以及闭合标签，并且还添加了和标签，使其成为完整的HTML文档。当你使用lxml时，也可以看到类似的结果。

现在，我们可以使用find()和find_all()方法来定位我们需要的元素了。

>>> ul = soup.find('ul', attrs={'class':'country_or_district'})
>>> ul.find('li') # returns just the first match
<li>Area</li>
>>> ul.find_all('li') # returns all matches
[<li>Area</li>
, <li>Population</li>

想要了解可用方法和参数的完整列表，请访问Beautiful Soup的官方文档。

下面是使用该方法抽取示例网站中国家（或地区）面积数据的完整代码。

>>> from bs4 import BeautifulSoup
>>> url = 'http://example.python-scraping.com/places/view/United-Kingdom-239'
>>> html = download(url)
>>> soup = BeautifulSoup(html)
>>> # locate the area row
>>> tr = soup.find(attrs={'id':'places_area__row'})
>>> td = tr.find(attrs={'class':'w2p_fw'}) # locate the data element
>>> area = td.text # extract the text from the data element
>>> print(area)
244,820 square kilometres

这段代码虽然比正则表达式的代码更加复杂，但又更容易构造和理解。而且，像多余的空格和标签属性这种布局上的小变化，我们也无须再担心了。我们还知道即使页面中包含了不完整的HTML，Beautiful Soup也能帮助我们整理该页面，从而让我们可以从非常不完整的网站代码中抽取数据。

3　Lxml

Lxml

是基于libxml2这一XML解析库构建的Python库，它使用C语言编写，解析速度比Beautiful Soup更快，不过安装过程也更为复杂，尤其是在Windows中。最新的安装说明可以参考http://lxml.de/installation.html。如果你在自行安装该库时遇到困难，也可以使用Anaconda来实现。

你可能对Anaconda不太熟悉，它是由Continuum Analytics公司员工创建的主要专注于开源数据科学包的包和环境管理器。你可以按照其安装说明下载及安装Anaconda。需要注意的是，使用Anaconda的快速安装会将你的PYTHON_PATH设置为Conda的Python安装位置。

和Beautiful Soup一样，使用lxml模块的第一步也是将有可能不合法的HTML解析为统一格式。下面是使用该模块解析同一个不完整HTML的例子。

>>> from lxml.html import fromstring, tostring
>>> broken_html = '<ul><li>Area</li><li>Population</li></ul>
'
>>> tree = fromstring(broken_html) # parse the HTML
>>> fixed_html = tostring(tree, pretty_print=True)
>>> print(fixed_html)
<ul>
<li>Area</li>
<li>Population</li>
</ul>

同样地，lxml也可以正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添加和标签。这些都不是标准XML的要求，因此对于lxml来说，插入它们并不是必要的。

解析完输入内容之后，进入选择元素的步骤，此时lxml有几种不同的方法，比如XPath选择器和类似Beautiful Soup的find()方法。不过，在本例中，我们将会使用CSS选择器，因为它更加简洁，并且能够在第5章解析动态内容时得以复用。一些读者可能由于他们在jQuery选择器方面的经验或是前端Web应用开发中的使用对它们已经有所熟悉。在本章的后续部分，我们将对比这些选择器与XPath的性能。要想使用CSS选择器，你可能需要先安装cssselect库，如下所示。

pip install cssselect

现在，我们可以使用lxml的CSS选择器，抽取示例页面中的面积数据了。

>>> tree = fromstring(html)
>>> td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0]
>>> area = td.text_content()
>>> print(area)
244,820 square kilometres

通过对代码树使用cssselect方法，我们可以利用CSS语法来选择表格中ID为places_area__row的行元素，然后是类为w2p_fw的子表格数据标签。由于cssselect返回的是一个列表，我们需要获取其中的第一个结果，并调用text_content方法，以迭代所有子元素并返回每个元素的相关文本。在本例中，尽管我们只有一个元素，但是该功能对于更加复杂的抽取示例来说非常有用。

本文摘自：《用Python写网络爬虫（第2版）》
作者：[德]凯瑟琳雅姆尔（Katharine Jarmul）、[澳]理查德劳森（Richard Lawson）
译者：李斌

针对Python 3.6版本编写。

提供示例完整源码和实例网站搭建源码，确保用户能在本地成功复现爬取网站环境，并保障网站的稳定性与可靠性以及代码运行结果的可再现性。

Internet上包含了许多有用的数据，其中大部分是可以免费公开访问的。但是，这些数据不容易使用，它们内嵌在网站的架构和样式中，在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络杭州量信息的方式，正变得越来越有用。

本书是使用Python 3.6的新特性来爬取网络数据的入门指南。本书讲解了从静态网站提取数据的方法，以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载，然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。

借助于PyQt和Selenium，你可以决定何时以及如何从依赖JavaScript的网站上爬取数据，以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包（比如mechanize）进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法，以及如何在真实的网站上实施所学的爬虫技巧。

本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。

关键词：方法

网站
营销
设计
运营
优化
效率
专注
电商
方案
推广

解决方案&服务

客户&案例

营销资讯

关于我们

解决方案&服务

客户&案例

营销资讯

关于我们

微信公众号

为了最佳展示效果，本站不支持IE9及以下版本的浏览器，建议您使用谷歌Chrome浏览器。点击下载Chrome浏览器

关闭

快捷入口

3种网页抓取方法

1　正则表达式

2　Beautiful Soup

3　Lxml

微信网页版Chrome扩展插件

Django实战教程: 开发餐厅在线点评网站(1)

三亚seo -三亚网站seo培训

想修家谱？想电子化家谱编写?家谱国际认亲APP宗亲社交平台满足不同用户的需

手机怎么搭建属于自己的网站

律师事务所网站建设如何制作？

林内热水器售后服务电话全国24小时统一客服热线

甲方疑问：做一个英文外贸网站需要多少钱？这里有答案！

国外空间和国内空间之间不同

蒙娜丽莎集团股份有限公司

快捷入口

3种网页抓取方法

1 正则表达式

2 Beautiful Soup

3 Lxml

推荐文章

五种方法查看Shopify，WordPress网站用了哪个模板主题和插件

杭州做网站公司：做个出色网站最快的方法是模仿

毕业论文怎么写？推荐几个写论文用的高效网站（内含论文书写方法）

5.jQuery 快速网页交互开发- jQ常用方法

零基础小白怎么做一个微信小程序？游戏小程序制作方法

WordPress 提示“此站点遇到了致命错误”的解决方法

你必须要知道的：网站标题导航设计方法

手把手教你另一种设计PCR引物的方法

网站建设中常见的21个安全漏洞及修改方法

找装修设计师上哪个网站？网上找装修设计师方法介绍

微信网页版Chrome扩展插件

Django实战教程: 开发餐厅在线点评网站(1)

三亚seo -三亚网站seo培训

想修家谱？想电子化家谱编写?家谱国际认亲APP宗亲社交平台满足不同用户的需

手机怎么搭建属于自己的网站

律师事务所网站建设如何制作？

林内热水器售后服务电话全国24小时统一客服热线

甲方疑问：做一个英文外贸网站需要多少钱？这里有答案！

国外空间和国内空间之间不同

蒙娜丽莎集团股份有限公司

1　正则表达式

2　Beautiful Soup

3　Lxml