看到有人发了《爬虫爬取精品动漫区名字和链接》的帖子,试了一下发现代码有点问题,略作修改之后发了出来。方法应该是通用的,这里只是拿精品动漫区为例子。
代码如下:
import re
import pandas as pd
import requests
from lxml import html
from bs4 import BeautifulSoup
import cpca
import time
txt = open('link_name', encoding='utf-8', mode='w')
# 之前的帖子代码没有下面这部分,所以是爬不到结果的
headers = {
'Cookie': '你的Cookie',
'User-Agent': '你的User-Agent',
'Accept': '你的Accept'
}
for j in range(1, 459):
if j % 10 == 0 and j > 0:
print("第", j , "页,执行延迟策略.")
time.sleep(1)
url = 'http://23.225.255.86/forum/forum-565-{}.html'.format(j) # 这里是精品动漫区的网址,也可以改成其他板块的网址
response = requests.get(url=url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
target_table = soup.find_all("table")[1]
rows = target_table.find_all("tbody")
for i in range(1, len(rows)):
span = rows
.find('span').find('a')
txt.write('http://23.225.255.86/forum/'+span.get('href')+'\t'+span.text.strip()+'\n')
print('already', j)
txt.close()
结果展示:
http://23.225.255.86/forum/thread-11929585-1-2.html [中文][2024.05.15新漫][3D]LSP特异点01-03(完[AI漫画] [615MB/多空]
http://23.225.255.86/forum/thread-11929584-1-2.html [中文][2024.05.15新漫][3D]这个勇者有点强00-03[洗脑] [215MB/多空]
http://23.225.255.86/forum/thread-11929579-1-2.html [中文][2024.05.15新漫][3D]堕落01-24 設定 巫毒蒂法[黑丝] [1.05GB/多空]
http://23.225.255.86/forum/thread-11929419-1-2.html [中文][3D]LustFlight(欲望飞行)[273MB/XN]
http://23.225.255.86/forum/thread-11929418-1-2.html [中文][3D]第六特工组 黑寡妇[212MB/XN]
http://23.225.255.86/forum/thread-11929397-1-2.html 【5.15中文新漫】[中文][宮崎うの] 絶倫鬼の生贄妻 ~孕むまで注がれて…~ 1-5[绝伦鬼的祭品新娘~向里面注射到怀孕为止… 1-5][107MB/xn]
http://23.225.255.86/forum/thread-11929396-1-2.html 【5.15中文新漫】[中文][裏万屋 (万屋百八)] 彼女とDQN先輩の、寝取られリゾートバイト[77MB/xn]
http://23.225.255.86/forum/thread-11929262-1-2.html [中文][3D]《单本 家庭补习教師的福利 》[161MB/XN]
http://23.225.255.86/forum/thread-11929260-1-2.html [中文][3D]十二迷情 1-3 NTR 都市虐待调教[503MB/XN]
http://23.225.255.86/forum/thread-11929233-1-2.html [韩漫][DM出品]水电工日志[01-34][连载合集][JPG PDF][387MB/XN]
http://23.225.255.86/forum/thread-11929231-1-2.html [韩漫][DM出品]情定大阪[01-25][连载合集][JPG PDF][485MB/XN]
http://23.225.255.86/forum/thread-11929228-1-2.html [韩漫][DM出品]老师的课外教学[01-30][连载合集][JPG PDF][636MB/XN]
http://23.225.255.86/forum/thread-11929143-1-2.html [韩漫][DM出品]鲁蛇的多重宇宙[01-74][连载合集][JPG PDF][1.13GB/XN]
http://23.225.255.86/forum/thread-11929142-1-2.html [韩漫][DM出品]今天吃饱了吗?[01-27][连载合集][JPG PDF][327MB/XN]
http://23.225.255.86/forum/thread-11929141-1-2.html [韩漫][DM出品]继母的香味[01-44][连载合集][JPG PDF][747MB/XN]
关于headers里面cookie等参数的获取:鼠标右键-检查/审查-网络-找到下面这个文件

[ 本帖最后由 joeker 于 2024-5-16 22:58(GMT+8) 编辑 ]