运行平台:Windows Python版本:Python3.6 ide:Sublime Text 其他工具:chrome浏览器
- 获取单页内容 首先,在Chrome浏览器中打开猫眼电影首页,点击“榜单”,然后选择”TOP100榜”,即可查看所需内容。
接下来,我们通过编写代码来提取网页的html内容。
运行结果如下:
- 使用正则表达式提取关键信息 在上图中,我们已经标记了需要提取的内容,下面通过代码实现这一步骤:
运行结果如下:
- 存储获取的电影信息 在获取电影信息后,我们需要将这些数据保存起来,包括文本信息和电影封面。
保存结果如下:
- 下载TOP100所有电影信息 通过点击标签页,我们发现只是URL发生了变化:
修改main函数以动态改变URL:
至此,我们已经成功获取了TOP100的电影信息和封面。
以下是普通抓取和多进程抓取的时间对比:
以下是完整代码:
立即学习“Python免费学习笔记(深入)”;