问答请教一下，爬虫怎么爬取知乎话题下面所有回答的图片

自欺欺人尺 · 2021年10月09日 · 最后由自欺欺人尺回复于 2023年05月29日 · 9283 次阅读

先获取全部的回答，然后在去获取图片。但是一次性获取太多回答，前端页面会崩溃

2 个赞

最佳回复

自欺欺人尺 #1 · 2021年10月11日 Author

# -*- coding: utf-8 -*-
from time import sleep

import ahttp
import urllib.request
import re
import socket
import os
import requests
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/90.0.4430.93 Safari/537.36 "

}
a = []
b = []
cc = []
qq = 0

for i in range(0, 467):
    req = requests.get(
        url='https://www.zhihu.com/api/v4/questions/340990864/answers?include=comment_count,content,voteup_cou'
            'nt,reshipment_settings,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;data[*].a'
            'uthor.follower_count,badge[*].topics&limit=5&offset={}&platform=desktop&sort_by=default'.format(3 + qq),
        headers=headers)
    sleep(5)
    qq += 5
    if 3 + qq > 467:
        break
    reqq = req.text
    # print(reqq)
    # 先获取到界面上的回答，然后一个个去请求回答，在获取回答下面的图片
    aaa = re.findall(r'https://www.zhihu.com/question/340990864/answer/(\d*)', reqq)
    print(aaa)
    print(3 + qq)
    if len(aaa) == 0:
        continue
    else:
        for j in range(len(aaa)):
            b.append(aaa[j])

print(len(b), b)
bb = list(set(b))
print(len(bb), bb)

bbb = [f"https://www.zhihu.com/question/340990864/answer/" + str(bb[i]) for i in range(len(bb))]
print(len(bbb))
ress = ahttp.Session()
res1 = [ress.get(url) for url in bbb]
res2 = ahttp.run(res1)
tupian = []
m = 0
for j in range(len(bb)):
    res3 = res2[j].text
    tu = re.findall(r'https://pic2.zhimg.com/v2.*?\.jpg', res3)
    if len(tu) == 0:
        continue
    else:
        for k in range(len(tu)):
            tupian.append(tu[k])
    print(len(tupian), j)
tupian2 = set(tupian)
print(len(tupian2))
while m < len(list(tupian2)):
    print(list(tupian2)[m])
    urllib.request.urlretrieve(list(tupian2)[m], filename='./tupian2/' + str(m) + '.jpg')
    m += 1
    print(m)

共收到 42 条回复时间点赞

陈恒捷 #42 · 2021年10月09日

看你截图，你这个爬虫不是访问服务端接口么，为啥会说前端页面崩溃？没理解这个点。

自欺欺人尺 #2 · 2021年10月09日 Author

访问的不是服务器端口，是 url 链接。只能获取到前 20 几个回答，然后后面的回答获取不了，如果 offset 的值太大了，只能获取到一个回答

陈恒捷 #3 · 2021年10月09日

对

自欺欺人尺回复

抓包看看，是否可以直接获取到服务器接口数据？一般前端翻页都是用服务器接口翻页的，而且直接拿服务器接口数据，解析起来也更便捷。

自欺欺人尺 #39 · 2021年10月09日 Author

对

问答 请教一下，爬虫怎么爬取知乎话题下面所有回答的图片

问答 请教一下，爬虫怎么爬取知乎话题下面所有回答的图片

-- coding: utf-8 --

问答请教一下，爬虫怎么爬取知乎话题下面所有回答的图片

问答请教一下，爬虫怎么爬取知乎话题下面所有回答的图片