博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬取豆瓣一周口碑榜
阅读量:3962 次
发布时间:2019-05-24

本文共 1292 字,大约阅读时间需要 4 分钟。

标题 Python爬取豆瓣一周口碑榜

@author XGan 2019/11/09 周六

获取豆瓣电影网一周口碑榜

网址:https://movie.douban.com/

在这里插入图片描述

python requests库以及xpath实现

import requestsimport randomfrom lxml import etreeimport json as josnimport encodingshead = [“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36”,“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36”]def gethtml(url):	res = requests.get(url,headers={
‘User-Agent’:random.choice(head) }) html = etree.HTML(res.text) return html #获取的xpath #电影标题 //div[@class=‘billboard-bd’]//td/a/text() #电影链接//div[@id=‘billboard’]/div[@class=‘billboard-bd’]//td//a/@hrefdef html_process(html): titles = html.xpath("//div[@id=‘billboard’]/div[@class=‘billboard-bd’]//tr//a") # href = titles.xpath(’/@href’).extract()[0] # print(href) with open(’…/aliyun/一周热映.josn’,‘w+’) as f: print(’’ * 30 + “开始保存josn文件完成” + '’ * 30) for title in titles: # 获取当前节点文本 title10 = title.xpath(’./text()’)[0] # 获取当前节点的所有属性 href = title.xpath(’./attribute::’)[1] dict ={
title10:href} f.write(str(dict)+"\n") print(’‘30+“保存josn文件完成”+’’*30)if name ==“main”: url = “https://movie.douban.com/” http = gethtml(url) html_process(http)

运行结果

在这里插入图片描述
josn中查看
在这里插入图片描述
-------------blog 2019 /11/12 周二 修改样式

转载地址:http://dhqzi.baihongyu.com/

你可能感兴趣的文章
比较Cint() , int() , fix() ,round()的区别
查看>>
举例说明常用字符串处理函数
查看>>
用Mindmanager整理的VB常用函数
查看>>
随风潜入夜,润物细无声
查看>>
软件生存期模型
查看>>
制定计划(问题的定义,可行性研究)
查看>>
需求分析
查看>>
软件设计
查看>>
程序编码
查看>>
软件测试
查看>>
软件维护
查看>>
软件项目管理
查看>>
面向过程的分析方法
查看>>
面向数据流的设计方法
查看>>
软件设计基础
查看>>
UML的基本结构
查看>>
UML中几种类间关系:继承、实现、依赖、关联、聚合、组合的联系与区别
查看>>
用例图(UseCase Diagram)—UML图(一)
查看>>
类图(Class diagram)—UML图(二)
查看>>
对象图(Object Diagram)—UML图(三)
查看>>