创意电子

标题: 不能爬小程序,叫什么会爬虫 [打印本页]

作者: 好男人有点坏丫头    时间: 2021-5-6 11:51
转发了
作者: gg-hjjyfc    时间: 2021-5-6 12:21
转发了
作者: AQQO    时间: 2021-5-6 14:52
转发了
作者: 互动研究院    时间: 2021-5-6 15:24
转发了
作者: wxy201902    时间: 2021-5-7 13:23
转发了
作者: 常回家9    时间: 2021-5-8 01:04
好,有空看看
作者: 悯惜敏西    时间: 2021-5-8 10:50
有signature参数的你怎嘛搞?
作者: 甜心2318    时间: 2021-5-8 18:15
转发了
作者: Python之眼    时间: 2021-5-9 07:35
标题: 不能爬小程序,叫什么会爬虫
上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失效,孩子又没马骑了

谁叫他遇到一个程序员老爸呢?这点事儿难不倒我,开干

小程序的不同之处

与访问 H5 不同的是,小程序相称于一个 app,其上的操作是经过微信的封装的,所以无法直接获取到哀求链接和数据,同样也无法得到返回的数据

就像一个 app,他的哀求都是内置在程序内的

对于这种情况,就需要使用抓包工具,好比 Charles

它的原理是,作为哀求的代理,即小程序 或 app 发送哀求时,先将哀求发送给代理,然后再由代理将哀求发送给服务器,返回的过程也一样

这也是著名的 中间人攻击


                               
登录/注册后可看大图
中间人攻击
如果要获取 小程序或者 app 的具体哀求,就需要用这种方式,让代理获取哀求和相应的数据

具体这么玩呢?直接参考 Charles 教程或者在网上一搜,就知道了,这里推荐一篇Android抓包-Charles[2],供各位参考

飞越 Https 协议

如果配置好了之后,可能发现 Charles 抓的包全是乱码,这是由于 小程序必须使用 Https 协议

也就是在 Http 帮助之上对哀求数据做一次加密,以防止中间人攻击

Https 的原理也很简单,就是目标网址申请一个 https 证书,然后将其对称密钥的公钥发布在颁发证书的网站上

当由哀求访问目标服务器时,目标服务器会要求其进行加满哀求,这是客户端程序会自动去证书颁发网址下载目标网站的公钥,也就是证书

然后对哀求的数据用公钥加密,再发送到目标服务器上,目标服务器收到哀求后,会用自己的私钥解密哀求数据,转化为明文继承处理惩罚

当返反响应时也是一样的,不过目标服务器用自己的私钥加密,客户端用公钥解密

具体说明可参考 图解HTTP[3]

这里只需要按照 Charles 的说明,在手机端按照 Charles 颁发的证书就可以了

不过如果用的是 Android 系统的话,需要留意 Android 7.0 之后 谷歌升级了安全策略,不再支持用户自主安装的证书

有两个办理办法:

翻出了一台几年前的手机,充电,开机,查看版本,是 Android 6,哈哈,太荣幸了


                               
登录/注册后可看大图

安装好证书后,再次抓包,就可以看见哀求的数据了


                               
登录/注册后可看大图
Charles 抓包
轻车熟路

得到了哀求链接和哀求数据,就可以像上一次一样编写成 Python 脚本了

上一次是通过欣赏器中哀求的方式获取的哀求数据,在 Charles 中,获取也很方便,如下图


                               
登录/注册后可看大图
Charles 获取哀求
通过快捷菜单,获取 curl 命令的哀求数据,然后复制到 网站


                               
登录/注册后可看大图
Charles 获取哀求
然后将 python 代码拷出到文件里,执行即可,够简单吧,具体可以参考之前的文章: 这才是使用Python的正确姿势![6] 的文章描述

更进一步

这里还需要办理一个问题,可能是我这个做老爸的实在太懒了

由于正值五一假期,假期竣事后的一个周六是工作日,而之前的程序会预约每周六的课程,如果是工作日的话,刚好冲突了

所以需要避开工作日,那么首先想到的是有没有判断节假日的库可用,找了一圈,发现有些 api 可以,但是不是需要付费就是需要注册,比力麻烦,于是直接去万年历中去抓取

锁定的一个万能汗青网站,标志清楚,数据准确,而且免费


                               
登录/注册后可看大图
万年历
分析哀求,是通过链接获取一个月的数据,获取的结果是 xml 格式的数据

分析发现,日期类型是通过 css 的类来标志的,分别是 wnrl_riqi_banwnrl_riqi_mownrl_riqi_xiu,表示 上班,周末 和 休息

所以只需要对获取的 xml 进行解析就好了

这里我又再进一步 —— 由于获取的是一个月的,每次哀求获取又点费,而且是在抢预约,所以需要更高的服从(哈哈,实际上是想炫炫技而已),于是做了一个小缓存,每次看看有没有当月的 xml 文件,如果有直接读取,没有则获取,并存储起来

实现了节假日判断后,在主预约程序里加一个判断,如果要预约的日子是工作日,再后延一日,继承判断,直到遇到一个非工作日

这里展示一下判断日期类型的代码:

import requestsfrom lxml import etreeimport datetimeimport osdef getDaysInfo(ym):    cacheName = ym + ".html"    if os.path.exists(cacheName):        content = open(cacheName).read()    else:        content = requestsDayInfo(ym)        saveFile(cacheName, content)        return contentdef requestsDayInfo(ym=None):    headers = {        'sec-ch-ua': '"Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99"',        'Referer': 'https://wannianrili.bmcx.com/',        'sec-ch-ua-mobile': '?0',        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',    }    params = (        ('q', ym),        ('v', '20031912'),    )    response = requests.get('https://wannianrili.bmcx.com/ajax/', headers=headers, params=params)    return response.textdef saveFile(name, content):    print(name)    f = open(name,'w')    f.write(content)    f.close()def parse(content, d):    html = etree.HTML(content)    dayclass = html.xpath('//*[@id="wnrl_riqi_id_'+str(int(d)-1)+'"]')[0].attrib.get('class')    if dayclass is None or dayclass == 'wnrl_riqi_ban':        return 1    elif dayclass == 'wnrl_riqi_mo':        return 2    elif dayclass == 'wnrl_riqi_xiu':        return 3    else:        return 0def getDayType(date):    str_date = date.strftime('%Y-%m-%d')    ymd = str_date.split("-")    ym = ymd[0] + '-' + ymd[1]    d = ymd[2]    return parse(getDaysInfo(ym), d)if __name__ == "__main__":    delta = 1  # 探索步长为一日    date = datetime.date.today()    while(getDayType(date)




欢迎光临 创意电子 (https://wxcydz.cc/) Powered by Discuz! X3.4