几次调用后,urlib2.urlopen通过代理失败
编辑:经过多次摆弄后,似乎urlgrabber在urllib2失败的地方成功,即使告诉它在每个文件后关闭连接。似乎urllib2处理代理的方式可能有问题,或者我使用它的方式!
无论如何,这是在循环中检索文件的最简单的代码:
import urlgrabber
for i in range(1, 100):
url = "http://www.iana.org/domains/example/"
urlgrabber.urlgrab(url, proxies={'http':'http://<user>:<password>@<proxy url>:<proxy port>'}, keepalive=1, close_connection=1, throttle=0)
大家好 !
我正在尝试编写一个非常简单的python脚本来通过urllib2获取一堆文件。
这个脚本需要在工作中通过代理工作(如果在Intranet上抓取文件,即没有代理,我的问题就不存在了)。
在使用“HTTPError:HTTP错误401:基本身份验证失败”的几个请求之后,所述脚本失败。知道为什么会这样吗?似乎代理拒绝我的身份验证,但为什么呢?前几个urlopen请求正确完成!
编辑:在请求之间添加10秒的休眠以避免代理可能执行的某种限制并未更改结果。
这是我的脚本的简化版本(显然已删除已识别的信息):
import urllib2
passmgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
passmgr.add_password(None, '<proxy url>:<proxy port>', '<my user name>', '<my password>')
authinfo = urllib2.ProxyBasicAuthHandler(passmgr)
proxy_support = urllib2.ProxyHandler({"http" : "<proxy http address>"})
opener = urllib2.build_opener(authinfo, proxy_support)
urllib2.install_opener(opener)
for i in range(100):
with open("e:/tmp/images/tst{}.htm".format(i), "w") as outfile:
f = urllib2.urlopen("http://www.iana.org/domains/example/")
outfile.write(f.read())
提前致谢 !
没有找到相关结果
已邀请:
2 个回复
杭难插
我不确定这是否可以正常使用您的代理设置。 您可能必须破解keepalive模块。
泉秘胁