目录
- 一、简介
- 二、发起请求
- 三、携带参数请求
- 四、获取响应数据
- 五、设置headers
- 六、使用代理
- 七、认证登录
- 八、设置cookie
- 九、异常处理
- 十、HTTP异常
- 十一、超时异常
- 十二、解析编码
- 十三、参数拼接
- 十四、请求链接解析
- 十五、拼接链接
- 十六、字典转换参数
一、简介
- 是一个 python 内置包,不需要额外安装即可使用
- urllib 是 Python 标准库中用于网络请求的库,内置四个模块,分别是
- urllib.request:用来打开和读取 url,可以用它来模拟发送请求,获取网页响应内容
- urllib.error:用来处理 urllib.request 引起的异常,保证程序的正常执行
- urllib.parse:用来解析 url,可以对 url 进行拆分、合并等
- urllib.robotparse:用来解析 robots.txt 文件,判断网站是否能够进行爬取
二、发起请求
import urllib.request
# 方法一
resp = urllib.request.urlopen('http://www.baidu.com', timeout=1)
print(resp.read().decode('utf-8'))
# 方法二
request = urllib.request.Request('http://www.baidu.com')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
三、携带参数请求
import urllib.parse
import urllib.request
params = {
'name':'autofelix',
'age':'25'
}
data = bytes(urllib.parse.urlencode(params), encoding='utf8')
response = urllib.request.urlopen("http://www.baidu.com/", data=data)
print(response.read().decode('utf-8'))
四、获取响应数据
import urllib.request
resp = urllib.request.urlopen('http://www.baidu.com')
print(type(resp))
print(resp.status)
print(resp.geturl())
print(resp.getcode())
print(resp.info())
print(resp.getheaders())
print(resp.getheader('Server'))
五、设置headers
import urllib.request
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
request = urllib.request.Request(url="http://tieba.baidu.com/", headers=headers)
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
六、使用代理
import urllib.request
proxys = urllib.request.ProxyHandler({
'http': 'proxy.cn:8080',
'https': 'proxy.cn:8080'
})
opener = urllib.request.build_opener(proxys)
urllib.request.install_opener(opener)
request = urllib.request.Request(url="http://www.baidu.com/")
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
七、认证登录
- 有些网站需要携带账号和密码进行登录之后才能继续浏览网页
import urllib.request
url = "http://www.baidu.com/"
user = 'autofelix'
password = '123456'
pwdmgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()
pwdmgr.add_password(None,url,user,password)
auth_handler = urllib.request.HTTPBasicAuthHandler(pwdmgr)
opener = urllib.request.build_opener(auth_handler)
response = opener.open(url)
print(response.read().decode('utf-8'))
八、设置cookie
- 如果请求的页面每次需要身份验证,我们可以使用
Cookies 来自动登录,免去重复登录验证的操作
import http.cookiejar
import urllib.request
cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open("http://www.baidu.com/")
f = open('cookie.txt', 'a')
for item in cookie:
f.write(item.name+" = "+item.value+'\n')
f.close()
九、异常处理
from urllib import error, request
try:
resp = request.urlopen('http://www.baidu.com')
except error.URLError as e:
print(e.reason)
十、HTTP异常
from urllib import error, request
try:
resp = request.urlopen('http://www.baidu.com')
except error.HTTPError as e:
print(e.reason, e.code, e.headers, sep='\n')
except error.URLError as e:
print(e.reason)
else:
print('request successfully')
十一、超时异常
import socket, urllib.request, urllib.error
try:
resp = urllib.request.urlopen('http://www.baidu.com', timeout=0.01)
except urllib.error.URLError as e:
print(type(e.reason))
if isinstance(e.reason,socket.timeout):
print('time out')
十二、解析编码
from urllib import parse
name = parse.quote('飞兔小哥')
# 转换回来
parse.unquote(name)
十三、参数拼接
- 在访问url时,我们常常需要传递很多的url参数
- 而如果用字符串的方法去拼接url的话,会比较麻烦
from urllib import parse
params = {'name': '飞兔', 'age': '27', 'height': '178'}
parse.urlencode(params)
十四、请求链接解析
from urllib.parse import urlparse
result = urlparse('http://www.baidu.com/index.html?user=autofelix')
print(type(result))
print(result)
十五、拼接链接
- 如果拼接的是两个链接,则以返回后面的链接
- 如果拼接是一个链接和参数,则返回拼接后的内容
from urllib.parse import urljoin
print(urljoin('http://www.baidu.com', 'index.html'))
十六、字典转换参数
from urllib.parse import urlencode
params = {
'name': 'autofelix',
'age': 27
}
baseUrl = 'http://www.baidu.com?'
print(baseUrl + urlencode(params))
相关推荐:
什么是SEO优化方案,seo的优化方案 ,ai emorobot
seo给你什么帮助,seo的利与弊 ,ai 大厨
Chatttst:开启智能沟通新时代的无限可能,上海联通ai
用AI生成的文章算原创吗?深度解析AI写作背后的秘密
SEO很多,如何在竞争激烈的市场中脱颖而出?,在SEO优化中
ChatGPT不能加载过去的对话,如何提升你的使用体验?,ai智能衣服
360AI写作怎样?助力创作的新风尚,ai到访
SEO优化关键词品牌:如何通过精准的关键词提升品牌价值,ai免费智能写作论文
SEO优化工具优势:提升网站排名,带来流量和转化的秘密武器,ai圆形造字
seo需要学些什么内容,学seo的基础 ,中国ai公司年收入
SEO表格:优化网站排名的秘密武器,大数据推广营销费用多少
SEO中的别类词:提升排名,轻松超越竞争对手,ai插画生肖
seo要寻找什么资源,怎么找seo ,ai插画描边
主题导航-引领互联网世界的智慧之路,大渡口网站建设方案
ChatGPT与讯飞:AI语音与智能对话的完美融合,ai直角变圆角
AI批量文章工具,让写作变得高效与轻松,cs机器人ai
SEO韩国:为您开启国际市场的增长之门,seo文章标题有哪些
怎么用AI润色文章,让你的文稿瞬间高大上
AI自动帮写,轻松应对内容创作挑战,赋能写作新未来,嘿科技ai
seo灰帽是什么,灰帽是指什么 ,ai绘画六边形
SEO这样做,轻松引爆流量,助力企业成长,无极标准网站优化好处
AI一键生成原创文章,让创作更高效更轻松!
AI写作免费一键生成5000字:高效创作的革命性工具
揭开“好的AI软件”背后的秘密:让生活和工作更智能的利器
seo网站是什么东西,seo网站是什么东西啊 ,ai锯齿消失
360ai答题-赋能教育,开启智能学习新纪元,ai 果汁
“标题制造机”:颠覆内容创作的秘密武器,助你轻松打造吸引力十足的标题,景区线上推广用哪些网站
ChatGPT一经发布,便受到了用户的狂热追捧,引爆人工智能热潮,十代ai达人办公本
SEO中权重是什么意思?让你迅速网站排名的核心秘密!,长颈鹿智能AI点读机
seo跟sem是什么,seo和sem的概念 ,惠威的ai功能
SEO而且:打造高效网站流量增长的秘密武器,滨江网站推广营销
SEO定价策略:如何根据企业需求定制最佳价格方案,教育培训抖音营销推广
优化型网站:提升企业竞争力的必备利器,重庆网站推广工作如何
AI通过算法和数据生成的作品:科技与艺术的跨越,带来无限创意可能,ai优化程序
互联网快照:记录数字时代的每个瞬间,全网seo怎么优化内容
seo适合什么人做,哪种seo做得好 ,晋城ai论文写作免费
AI代写文章:高效创作的新风尚
如何利用AI生成高质量文章,提升写作效率与创意?
优化分析:提升企业效益的关键策略,山东大网站建设
SEO优化需要花钱吗?从零起步,如何让SEO成为企业的“隐形财富”,字体如何往ai里面倒
SEO合作:让你的网站在搜索引擎中脱颖而出,惠州抖音seo策划公司
SEO作用:提升网站流量与品牌曝光的秘密武器,美容网站联盟平台推广
SEO优化是做什么的?让你的网站流量飙升的秘密武器,乳腺癌ai作用机理
主流seo是什么,seo是什么推广网站 ,AI心理师
AI的两个主要发展阶段:从起步到突破,如何重塑未来,wps ai写作去哪里
ChatGPT5.0为什么一直没出来?背后的技术与战略,元宵节ai趣赏月
怎么用AI生成文章?全新写作方式的揭秘与应用指南
文章疑似AI生成怎么办?如何辨别并应对AI生成文章的挑战
SEO做好,企业网站流量翻倍的关键,seo白帽技术有哪些
AI免费免登录:轻松体验人工智能的魔力,无需繁琐注册,华为AI音箱2音质如何