-
2.12 Python爬虫:抓取多级页面数据
-
前面讲解的爬虫案例都是单级页面数据抓取,但有些时候,只抓取一个单级页面是无法完成数据提取的。本节讲解如何使用爬虫抓取多级页面的数据。在爬虫的过程中,多级页面抓取是经常遇见的。下面以抓取二级页面为例,对每级页面的作用进行说明:
.一级页面提供了获取二级页面的访问链接。
.二级页面作为详情页用来提取所需数据。
一级页面以<a>标签的形式链接到二级页面,只有在二级页面才可以提取到所需数据。
下面以电影天堂 2020 新片精品为案例进行讲解,将每部影片的名称,以及下载链接抓取下来。首先点击“更多”进入一级页面,如下图所示: