打印

爬虫爬取帖子名字和链接(以精品动漫区为例)

!!!全体会员请注意!!!
任何VIP优惠活动,都是骗人的!
切勿上当受骗!



请大家记住并收藏备用访问地址:
地址一 地址二 地址三
地址四 地址五

忘记地址,请发email索取:
getsisurl#gmail.com(#换成@)
0

爬虫爬取帖子名字和链接(以精品动漫区为例)

看到有人发了《爬虫爬取精品动漫区名字和链接》的帖子,试了一下发现代码有点问题,略作修改之后发了出来。方法应该是通用的,这里只是拿精品动漫区为例子。

代码如下:

import re
import pandas as pd
import requests
from lxml import html
from bs4 import BeautifulSoup
import cpca
import time

txt = open('link_name', encoding='utf-8', mode='w')

# 之前的帖子代码没有下面这部分,所以是爬不到结果的
headers = {
    'Cookie': '你的Cookie',
    'User-Agent': '你的User-Agent',
    'Accept': '你的Accept'
}

for j in range(1, 459):
    if j % 10 == 0 and j > 0:
            print("第", j , "页,执行延迟策略.")
            time.sleep(1)
    url = 'http://23.225.255.86/forum/forum-565-{}.html'.format(j) # 这里是精品动漫区的网址,也可以改成其他板块的网址
    response = requests.get(url=url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    target_table = soup.find_all("table")[1]
    rows = target_table.find_all("tbody")
    for i in range(1, len(rows)):
        span = rows.find('span').find('a')
        txt.write('http://23.225.255.86/forum/'+span.get('href')+'\t'+span.text.strip()+'\n')
    print('already', j)
txt.close()

结果展示:
http://23.225.255.86/forum/thread-11929585-1-2.html        [中文][2024.05.15新漫][3D]LSP特异点01-03(完[AI漫画] [615MB/多空]
http://23.225.255.86/forum/thread-11929584-1-2.html        [中文][2024.05.15新漫][3D]这个勇者有点强00-03[洗脑] [215MB/多空]
http://23.225.255.86/forum/thread-11929579-1-2.html        [中文][2024.05.15新漫][3D]堕落01-24 設定 巫毒蒂法[黑丝] [1.05GB/多空]
http://23.225.255.86/forum/thread-11929419-1-2.html        [中文][3D]LustFlight(欲望飞行)[273MB/XN]
http://23.225.255.86/forum/thread-11929418-1-2.html        [中文][3D]第六特工组 黑寡妇[212MB/XN]
http://23.225.255.86/forum/thread-11929397-1-2.html        【5.15中文新漫】[中文][宮崎うの] 絶倫鬼の生贄妻 ~孕むまで注がれて…~ 1-5[绝伦鬼的祭品新娘~向里面注射到怀孕为止… 1-5][107MB/xn]
http://23.225.255.86/forum/thread-11929396-1-2.html        【5.15中文新漫】[中文][裏万屋 (万屋百八)] 彼女とDQN先輩の、寝取られリゾートバイト[77MB/xn]
http://23.225.255.86/forum/thread-11929262-1-2.html        [中文][3D]《单本 家庭补习教師的福利 》[161MB/XN]
http://23.225.255.86/forum/thread-11929260-1-2.html        [中文][3D]十二迷情 1-3 NTR 都市虐待调教[503MB/XN]
http://23.225.255.86/forum/thread-11929233-1-2.html        [韩漫][DM出品]水电工日志[01-34][连载合集][JPG PDF][387MB/XN]
http://23.225.255.86/forum/thread-11929231-1-2.html        [韩漫][DM出品]情定大阪[01-25][连载合集][JPG PDF][485MB/XN]
http://23.225.255.86/forum/thread-11929228-1-2.html        [韩漫][DM出品]老师的课外教学[01-30][连载合集][JPG PDF][636MB/XN]
http://23.225.255.86/forum/thread-11929143-1-2.html        [韩漫][DM出品]鲁蛇的多重宇宙[01-74][连载合集][JPG PDF][1.13GB/XN]
http://23.225.255.86/forum/thread-11929142-1-2.html        [韩漫][DM出品]今天吃饱了吗?[01-27][连载合集][JPG PDF][327MB/XN]
http://23.225.255.86/forum/thread-11929141-1-2.html        [韩漫][DM出品]继母的香味[01-44][连载合集][JPG PDF][747MB/XN]

关于headers里面cookie等参数的获取:鼠标右键-检查/审查-网络-找到下面这个文件



[ 本帖最后由 joeker 于 2024-5-16 22:58(GMT+8) 编辑 ]

TOP

0
重发了一下图,上面有点糊

TOP

当前时区 GMT+8, 现在时间是 2025-3-16 04:03