[宅男福利] 电影天堂最新合集、搜索脚本 [原创]

2018-03-06 17:12:32 122 muous 153673 13

宅男福利第四波带你逃离无止境的广告
多线程电影天堂最新资源爬取脚本、电影搜索脚本
PS：方便大家使用写到了HTML中生成表格。
~~线程可以在脚本里直接改，测试线程为30时IP可能会被限制访问。~~[阳光电影是电影天堂的马甲]

环境: Python3

最新电影爬取代码

# -*- coding: utf-8 -*-

# @Time    : 2018/3/5 下午2:43

# @Author  : MyPuppet

# @File    : ygdy8.py

# @Software: PyCharm

import random

import threading

import requests as req

from lxml import etree

from queue import Queue



BASE_URL_COM = 'http://www.ygdy8.com'

BASE_URL_NET = 'http://www.ygdy8.net'

THREADS = 20

PAGE_TOTAL = 100



HEAD = '<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>阳光电影 - 电影天堂</title><link href="https://cdn.bootcss.com/bootstrap/4.0.0/css/bootstrap.min.css" rel="stylesheet"></head><body><table class="table"><thead class="thead-dark"><tr><th scope="col">#</th><th scope="col">电影名</th><th scope="col">下载地址</th></tr></thead><tbody class="table-hover">'

FOOT = '</tbody></table></body></html>'



count = 1





def get_headers():

    user_agent_list = [

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1',

        'Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'

    ]

    UA = random.choice(user_agent_list)

    headers = {'User-Agent': UA}

    return headers





def get_url(list_queue, url_queue):

    while True:

        url = list_queue.get()

        try:

            res = req.get(url, headers=get_headers())

            res.encoding = res.apparent_encoding

            html = etree.HTML(res.text)

            tags = html.xpath('//div[@class="co_content8"]/ul//a')

            for tag in tags:

                href = tag.get('href')

                url_queue.put(href, 1)

                print('[Subscribe] [%s]' % href)

        except:

            print('[Subscribe Error] %s' % url)

        list_queue.task_done()





def get_list(list_queue):

    lists = [i for i in range(1, PAGE_TOTAL + 1)]

    list_url = 'http://www.ygdy8.com/html/gndy/dyzz/list_23_%d.html'

    for i in lists:

        url = list_url % i

        list_queue.put(url, 1)





def parse_download(url):

    res = req.get(url, headers=get_headers())

    res.encoding = res.apparent_encoding

    html = etree.HTML(res.text)

    title = html.xpath('//div[@class="bd3r"]//div[@class="title_all"]/h1/font')[0].text

    downloads = html.xpath('//div[@id="Zoom"]//table//a/@href')

    return title, downloads





def parse_html(url_queue, result_file):

    while True:

        global count

        url_path = url_queue.get()

        try:

            try:

                url = BASE_URL_COM + url_path

                (title, downloads) = parse_download(url)

            except:

                url = BASE_URL_NET + url_path

                (title, downloads) = parse_download(url)

            download = '<hr>'.join(downloads)

            tr = '<tr><th scope="row">%d</th><td>%s</td><td>%s</td></tr>' % (count, title, download)

            result_file.write(tr)

            print('[OK][%d] %s' % (count, title))

            count = count + 1

        except:

            print('[Parse error] %s' % url_path)

        url_queue.task_done()





def thread(thread_name, target, args):

    for i in range(THREADS):

        t = threading.Thread(target=target, args=args)

        t.setDaemon(True)

        t.start()

    thread_name.join()





def main():

    list_queue = Queue()

    url_queue = Queue()

    get_list(list_queue)

    thread(list_queue, get_url, (list_queue, url_queue))

    result_file = open('result.html', 'w')

    result_file.write(HEAD)

    thread(url_queue, parse_html, (url_queue, result_file))

    result_file.write(FOOT)

    result_file.close()

    print('End... 老铁记得顶我(TieZi)\nEnd... 老铁记得顶我(TieZi)\nEnd... 老铁记得顶我(TieZi)')





if __name__ == '__main__':

    main()

搜索电影代码

# -*- coding: utf-8 -*-

# @Time    : 2018/3/6 下午12:00

# @Author  : MyPuppet

# @File    : search.py

# @Software: PyCharm

import sys

import random

import requests as req

from urllib import parse

from lxml import etree

from multiprocessing import Pool



BASE_URL = 'http://www.ygdy8.com'

SEARCH_URL = 'http://s.ygdy8.com/plus/so.php?kwtype=0&searchtype=title&pagesize=1000&keyword='





# 关键字需要URL字符编码

def get_headers():

    user_agent_list = [

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1',

        'Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3',

        'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3',

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24',

        'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'

    ]

    ua = random.choice(user_agent_list)

    headers = {'User-Agent': ua}

    return headers





def search(keyword):

    keyword = parse.quote(keyword.encode("gbk"))

    url = SEARCH_URL + keyword

    res = req.get(url, headers=get_headers())

    res.encoding = res.apparent_encoding

    html = etree.HTML(res.text)

    tags = html.xpath('//div[@class="co_content8"]/ul//a')

    result_urls = []

    for tag in tags:

        url = BASE_URL + tag.get('href')

        result_urls.append(url)

    return result_urls





def parse_html(url):

    res = req.get(url, headers=get_headers())

    res.encoding = res.apparent_encoding

    html = etree.HTML(res.text)

    title = html.xpath('//div[@class="bd3r"]//div[@class="title_all"]/h1/font')[0].text

    downloads = html.xpath('//div[@id="Zoom"]//table//a/@href')

    print('[%s]' % title)

    for download in downloads:

        print('[下载链接] [%s]' % download)

    print('\n|----------------------------------------------------------|\n')







if __name__ == '__main__':

    if len(sys.argv) < 2:

        print("Usage: python %s movie_name" % sys.argv[0])

        exit(-1)

    urls = search(sys.argv[1])

    pool = Pool()

    pool.map(parse_html, urls)

关于作者

muous46篇文章694篇回复

评论122次

要评论？请先登录或注册

62楼

ty4z2008
2018-3-11 16:10

用Python写爬虫还真的方便与简洁

回复|@ta|踩(0)|顶(0)
61楼

v_king
2018-3-11 13:31

要是把几个大的资源站爬下来整合一下是不是资源大亨了

回复|@ta|踩(0)|顶(0)
60楼

wsdaj8
2018-3-11 10:35

老大这一波走得稳！赞一个。

回复|@ta|踩(0)|顶(0)
59楼

风中之殇
2018-3-10 22:53

膜拜大佬学xi了

回复|@ta|踩(0)|顶(0)
58楼

ID要五位
2018-3-10 22:45

很是厉害，以后nas可以实现

回复|@ta|踩(0)|顶(0)
57楼

list-yr
2018-3-10 21:24

厉害了，正在学xi。

回复|@ta|踩(0)|顶(0)
56楼

大悲咒
2018-3-10 09:19

不能筛选吗

回复|@ta|踩(0)|顶(0)
55楼

intosec
2018-3-9 22:18

技术宅拯救世界啊，要是再加个调用transmission接口添加下载任务的功能就更好了，以后想看什么电影美剧先弄个关注列表，每天自动取网站上爬，爬到新的电影和美剧就自动下载。。。

回复|@ta|踩(0)|顶(0)
54楼

muous
2018-3-9 17:40

Only_TF：
老哥贼吻
回复|@ta
1

很想知道你的-20TuBi怎么做到的，哪里能赊账？

回复|@ta|踩(0)|顶(0)
53楼

Only_TF
2018-3-9 17:02

老哥贼吻

回复|@ta|踩(0)|顶(0)
52楼

5ecurity
2018-3-9 01:00

这个厉害了，学xi中。

回复|@ta|踩(0)|顶(0)
51楼

or6521
2018-3-8 22:42

能够通配其他网站起来咋样

回复|@ta|踩(0)|顶(0)
50楼

success
2018-3-7 23:16

success：
可以从其他网站爬取吗
回复|@ta
1
muous：
改下规则问题应该不大
回复|@ta
2

我修改下测试

回复|@ta|踩(0)|顶(0)
49楼

tsbct
2018-3-7 15:29

正在学xipython，学xi了，看来python越来越强大了哈

回复|@ta|踩(0)|顶(0)
48楼

SMercenary
2018-3-7 14:09

输出到html学xi了

回复|@ta|踩(0)|顶(0)
47楼

Packing
2018-3-7 13:36

Charm：
经常在这站上下载大片看哈
回复|@ta
1
muous：
广告太多了，进入页面全屏广告，搜索输入框事件广告，列表页全屏广告
回复|@ta
2

电影站都是很多收费广告

回复|@ta|踩(0)|顶(0)
46楼

第五轻柔
2018-3-7 13:33

看到宅男我进来了。。。

回复|@ta|踩(0)|顶(0)
45楼

woody
2018-3-7 13:23

老兄 NB 谢谢分享

回复|@ta|踩(0)|顶(0)
44楼

Anonymous
2018-3-7 12:33

小A：
能否弄个91PRON 和xvideos的呢！
回复|@ta
1

大胸弟，贴出地址才能爬啊，贡献出你收藏的地址

回复|@ta|踩(0)|顶(0)
43楼

7sins
2018-3-7 12:32

宅男不是看普通电影的，求大片地址。。手动滑稽

回复|@ta|踩(0)|顶(0)

[宅男福利] 电影天堂最新合集、搜索脚本 [原创]

关于作者

评论122次

用Python写爬虫还真的方便与简洁

要是把几个大的资源站爬下来整合一下 是不是资源大亨了

老大这一波走得稳！赞一个。

膜拜大佬 学xi了

很是厉害，以后nas可以实现

厉害了，正在学xi。

不能筛选吗

技术宅拯救世界啊，要是再加个调用transmission接口添加下载任务的功能就更好了，以后想看什么电影美剧先弄个关注列表，每天自动取网站上爬，爬到新的电影和美剧就自动下载。。。

老哥贼吻

很想知道你的-20TuBi怎么做到的，哪里能赊账？

老哥贼吻

这个厉害了，学xi中。

能够通配其他网站起来咋样

可以从其他网站爬取吗

改下规则问题应该不大

我修改下测试

正在学xipython，学xi了，看来python越来越强大了哈

输出到html学xi了

经常在这站上 下载大片 看哈

广告太多了，进入页面全屏广告，搜索输入框事件广告，列表页全屏广告

电影站 都是很多收费广告

看到宅男 我进来了。。。

老兄 NB 谢谢分享

能否弄个91PRON 和xvideos的呢 ！

大胸弟，贴出地址才能爬啊，贡献出你收藏的地址

宅男不是看普通电影的，求大片地址。。 手动滑稽

热门文章

安全资讯霍尼韦尔关键基础设施闭路电视监控系统存在身份验证绕过漏洞

安全资讯大疆扫地机被Claude Code逆向并发掘漏洞可远程控制扫地机 目前已修复

渗透测试记一次SEO引流后门的webshell应急响应样本分析

安全资讯Anthropic称中国AI公司利用1600万次Claude查询复制模型

最新回复

精华推荐

Web安全Discuz X2.0-X3.2(20160601) 后台Getshell Exploit 分享

渗透测试开发PasswordsPro模块破解自定义算法hash

渗透测试window应急响应及实战演练

渗透测试T00LS Metasploit系列教程（第二季)

渗透测试postgres注入总结

要是把几个大的资源站爬下来整合一下是不是资源大亨了

膜拜大佬学xi了

经常在这站上下载大片看哈

电影站都是很多收费广告

看到宅男我进来了。。。

能否弄个91PRON 和xvideos的呢！

宅男不是看普通电影的，求大片地址。。手动滑稽

安全资讯大疆扫地机被Claude Code逆向并发掘漏洞可远程控制扫地机目前已修复