背景
最近在搞爬蟲,很多小組件里面都使用了 Python 的 requests 庫,很好用,很強大。
但最近發(fā)現(xiàn)很多任務(wù)總是莫名其妙的卡住,不報錯,但是就是不繼續(xù)執(zhí)行。
排查了一圈,最后把問題鎖定在 requests 的 timeout 機制上。
注:本文討論的是 Python 的第三方模塊 requests,并不是 Python 內(nèi)建模塊 urllib 中的 request 模塊,請注意區(qū)分。
如何設(shè)置超時時間
requests 設(shè)置超時時間有兩種方式。
一種是設(shè)置單一值作為 timeout,如下所示:
r = requests.get('https://github.com', timeout=5)
這時, timeout 值將會用作 connect 和 read 二者的共同的超時時間。
另一種是分別制定連接超時和讀取超時的時間,如下所示:
r = requests.get('https://github.com', timeout=(3.05, 27))
這里前面的 3.05 表示連接超時時間,27 表示讀取超時時間。
官方一般推薦大家把連接超時時間設(shè)置為比 3 的整數(shù)倍稍微大一點的時間,比如 3.05、6.05 這樣,具體原因見 這里。
坑
上面提到的兩種超時時間,連接超時和讀取超時,并不是都有默認(rèn)超時時間。
連接超時的默認(rèn)時間是 21s,而讀取超時沒有默認(rèn)時間,換句話說,不會超時。
也就是說,如果一個請求,連接成功了,正在讀取數(shù)據(jù),但是此時服務(wù)器出現(xiàn)了什么問題,或者代理出現(xiàn)了什么問題,那么,這個請求就會一直卡住,不會報錯,也不會繼續(xù)。
天長地久。
避坑
所以,為了避免出現(xiàn)這樣的情況,給你的 requests 加上超時時間吧,尤其是請求量巨大的時候。
常在河邊走,哪有不濕鞋。
參考資料
Requests 官方文檔
補:python requests timeout不起作用 卡死
在使用python 的requests進行數(shù)據(jù)請求時不設(shè)置timeout大部分時候,是會有超時異常的,超時時間大概是20多秒
但是有時候超時會不起作用需要自己制定超時時間,使用timeout=60
response = requests.get(url, headers=headers, proxies=proxies,timeout=60)
但是有時候設(shè)置此參數(shù)之后仍然會有幾分鐘甚至是十幾分鐘沒有返回結(jié)果可以使用timeout=(50, 60)
timeout參數(shù)也可以傳入一個包含兩個簡單浮點數(shù)的元組,用來分別設(shè)置請求超時時間和讀取超時時間。
response = requests.get(url, headers=headers, proxies=proxies,timeout=(50, 60))
到此這篇關(guān)于Python requests timeout的設(shè)置的文章就介紹到這了,更多相關(guān)Python requests timeout內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- python:解析requests返回的response(json格式)說明
- python requests response值判斷方式
- python中requests庫+xpath+lxml簡單使用
- python3 requests 各種發(fā)送方式詳解
- Python爬蟲基礎(chǔ)之requestes模塊
- python爬蟲之利用Selenium+Requests爬取拉勾網(wǎng)
- 基于Python中request請求得到的response的屬性問題