最近接到一个需求,需要用Python抓取知乎上某个文章上的图片信息。老板要的很急,上午10点下达命令,中午12点前就必须给他。当时心理一万只狂野动物在奔腾。做这个抓取图片的需求没什么,但是能不能拜托以后提需求别火急火燎,立马提需求立马就要。还好我珍藏了一段以前给老东家开发的爬取网页图片的代码,立马能用上。现在把这段代码分享出来,希望对于那些有类似抓取图片需求的小伙伴有所帮助。
Python抓取图片代码如下:
from selenium import webdriver import time import urllib.request // 堆代码 duidaima.com driver = webdriver.Chrome() driver.maximize_window() driver.get("https://www.zhihu.com/question/29134042") i = 0 while i < 10: driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) try: driver.find_element_by_css_selector('button.QuestionMainAction').click() print("page" + str(i)) time.sleep(1) except: break result_raw = driver.page_source content_list = re.findall("img src=\"(.+?)\" ", str(result_raw)) n = 0 while n < len(content_list): i = time.time() local = (r"%s.jpg" % (i)) urllib.request.urlretrieve(content_list[n], local) print("编号:" + str(i)) n = n + 1总结:
以上就是根据知乎的文章页面抓取文章内图片信息的Python代码,若有不足之处,欢迎大家留言指正。