我用Python爬取了女神视界，爬虫之路永无止境「内附源码」

Python123 · 发表于 2021-10-17 16:10:03

我发现抖音上很多小姐姐就拍个跳舞的视频就火了，各人是冲着舞蹈水平去的吗，都是冲着颜值身材去的，能刷到这篇文章的都是lsp了，我就跟各人不一样了，一个个刷太麻烦了，我直接爬下来看个够，先随意展示两个。

登录/注册后可看大图

采集目标

爬取目标:女神世界

登录/注册后可看大图

结果展示

登录/注册后可看大图

工具使用

使用环境:Python3.7 工具:pycharm 第三方库:requests, re, pyquery

爬虫思路:

获取的是视频数据 (16进制字节)
在这个页面没有视频地址需要进去详情页所有需要从视频播放页开始抓取

使用快捷键 F12 进入开发者控制台:

登录/注册后可看大图

先不急, 找到视频地址去搜刮他看看在那里有包罗:

登录/注册后可看大图

定位他发现是静态页面返回的数据:

登录/注册后可看大图

上代码:

def Tools(url):# 封装一个工具函数用来做哀求的 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52' } response = requests.get(url, headers=headers) return responseurl = 'https://www.520mmtv.com/9614.html'response = Tools(url).textvideo_url = re.findall(r'url: "(.*?)",', response)[0] # 正则表达式提取视频地址video_content = Tools(video_url).content# 视频地址存储需要在代码同路径手动创建短视频文件夹with open('./短视频/123.mp4', 'ab') as f: f.write(video_content)# 下载了一个

登录/注册后可看大图

def main(): url = 'https://www.520mmtv.com/hd/rewu.html' response = Tools(url).text doc = pq(response) # 创建pyquery对象注意根据css的 class 类选择和id选择器进行数据提取 i_list = doc('.i_list.list_n2.cxudy-list-formatvideo a').items() # .类选择器中间有空格的记得更换成. meta_title = doc('.meta-title').items() # 标题 for i, t in zip(i_list, meta_title): href = i.attr('href') Play(t.text(), href)

登录/注册后可看大图

全部代码:

import requestsimport refrom pyquery import PyQuery as pqdef Tools(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52' } response = requests.get(url, headers=headers) return responsedef Play(title, url): # url = 'https://www.520mmtv.com/9614.html' response = Tools(url).text video_url = re.findall(r'url: "(.*?)",', response)[0] video_content = Tools(video_url).content with open('./短视频/{}.mp4'.format(title), 'ab') as f: f.write(video_content) print('{}下载完成....'.format(title))def main(): url = 'https://www.520mmtv.com/hd/rewu.html' response = Tools(url).text doc = pq(response) # 创建pyquery对象注意根据css的 class 类选择和id选择器进行数据提取 i_list = doc('.meta-title').items() # .类选择器中间有空格的记得更换成. meta_title = doc('.meta-title').items() # 标题 for i, t in zip(i_list, meta_title): href = i.attr('href') Play(t.text(), href)if __name__ == '__main__': main()

登录/注册后可看大图

下载比较慢网络不好，你网快的话，就下载快。

结果:

登录/注册后可看大图

工作时间

自定义表单系统源码及安装教程

discuz插件微信登录免费版,对接创意电子聚

discuz插件QQ登录免费版,对接创意电子聚合

苹果CMSV10,快猫视频二开苹果cms视频网站源

麻豆源码MDYS14,苹果CMS V10_油条视频_二开

我用Python爬取了女神视界，爬虫之路永无止境「内附源码」

相关帖子

it618视频直播网校视频加密VIP卡密拼课认证

修改各种模板，需要模板的老板可以看这里

it618联盟商家直播带货社区拼团线上线下会

it618钱包充值提现多功能生态版 v9.1.6

智能云采集任何内容众大云采集 9.6.4(去版

关于我们

积分管理

热门资源

快捷入口

在线客服邮箱

官方在线客服

TG群:@wxcydzcc

手机扫码查看手机版

扫一扫关注官方博客