1. 题前话 

没有发现之前,自己傻不垃圾的自己写了各个浏览器修改代理的方法,结果发现webdriver有现成,悔恨不已,希望其他同仁能够少走弯路。 

本文是在Webdriver 2.12.0下面测试得到的结论 

 

2. webdriver的maven配置 

Java代码 

<repositories>
	<repository>
		<id>selenium</id>
		<name>selenium</name>
		<url>http://repo1.maven.org/maven2/</url>
	</repository>
</repositories>
<dependencies>
	<dependency>
		<groupId>org.seleniumhq.selenium</groupId>
		<artifactId>selenium-java</artifactId>
		<version>2.12.0</version>
	</dependency>
</dependencies>

 

3. webdriver中firefox以代理方式启动 

普通情况下,firefox的代理修改是直接修改其配置文件,即prefs.js,把对应的配置修改掉 

Java代码 

user_pref("network.proxy.ftp_port", 1000); 
user_pref("network.proxy.gopher", "10.0.0.0"); 
user_pref("network.proxy.gopher_port", 1000); 
user_pref("network.proxy.http", "10.0.0.0"); 
user_pref("network.proxy.http_port", 1000); 
user_pref("network.proxy.no_proxies_on", ""); 
user_pref("network.proxy.share_proxy_settings", true); 
user_pref("network.proxy.socks", "10.0.0.0"); 
user_pref("network.proxy.socks_port", 1000); 
user_pref("network.proxy.ssl", "10.0.0.0"); 
user_pref("network.proxy.ssl_port", 1000); 
user_pref("network.proxy.type", 1); 

firefoxdriver初始化时,我们可以通过配置FirefoxProfile,来修改上面的配置,特别要注意的是localhost的配置,请看下述例子: 

Java代码 

 

String proxyIp = "localhost";
int proxyPort = 8080;
FirefoxProfile profile = new FirefoxProfile();
// 使用代理
profile.setPreference("network.proxy.type", 1);
// http协议代理配置
profile.setPreference("network.proxy.http", proxyIp);
profile.setPreference("network.proxy.http_port", proxyPort);
		
// 所有协议公用一种代理配置,如果单独配置,这项设置为false,再类似于http的配置
profile.setPreference("network.proxy.share_proxy_settings", true);
		
// 对于localhost的不用代理,这里必须要配置,否则无法和webdriver通讯
profile.setPreference("network.proxy.no_proxies_on", "localhost");
		
// 以代理方式启动firefox
FirefoxDriver ff  = new FirefoxDriver(profile);
ff.get("www.xxx.com");
ff.quit();

 

4. webdriver中IE以代理方式启动,chrome类似 

方式不同于firefox,这里是利用webdriver提供的Proxy和WindowsProxyManager来处理,这里也要特别注意localhost的处理。 

处理步骤为: 

1. InternetExplorerDriver初始化时,调用WindowsProxyManager的backupRegistrySettings方法保存老的代理配置

2. 调用WindowsProxyManager的changeRegistrySettings方法类修改代理配置 

3. 程序运行结束后,调用WindowsProxyManager的restoreRegistrySettings来恢复到老的配置。 

特别需要提醒的是第3条,我认为webdriver这里处理的不好。恢复到默认配置是在程序结束后,如果程序启动了多个InternetExplorerDriver,每个InternetExplorerDriver保存的是该InternetExplorerDriver启动时IE的配置,而程序结束是调用的shutdownhooker,同时恢复,线程的运行快慢不确定,最后是否恢复到初始配置还很难说,所以,如果同个程序只启动一个InternetExplorerDriver,使用webdriver自带的初始InternetExplorerDriver时修改代理是没有问题,如果启动多个,就要采取其他方式,可以参看本文的第5部分。 

程序只启动一个InternetExplorerDriver,以代理模式启动的代码如下: 

Java代码 

String proxyIpAndPort= "localhost:8080";

// 代理配置
DesiredCapabilities cap = new DesiredCapabilities();
org.openqa.selenium.Proxy proxy = new org.openqa.selenium.Proxy();
// 配置http、ftp、ssl代理(注:当前版本只支持所有的协议公用http协议,下述代码等同于只配置http)
proxy.setHttpProxy(proxyIpAndPort)
     .setFtpProxy(proxyIpAndPort)
     .setSslProxy(proxyIpAndPort);

// 以下三行是为了避免localhost和selenium driver的也使用代理,务必要加,否则无法与iedriver通讯
cap.setCapability(CapabilityType.ForSeleniumServer.AVOIDING_PROXY, true);
cap.setCapability(CapabilityType.ForSeleniumServer.ONLY_PROXYING_SELENIUM_TRAFFIC, true);
System.setProperty("http.nonProxyHosts", "localhost");

cap.setCapability(CapabilityType.PROXY, proxy);
WebDriver driver = new InternetExplorerDriver(cap);
driver.get("www.baidu.com");
driver.close();

InternetExplorerDriver初始化后,IE对应的代理配置为: 

 

打开上图中的代理配置文件,可以看到下述配置,具体的可以自己查阅资料: 

Java代码 

function FindProxyForURL(url, host) {
  if (shExpMatch(host, 'localhost')) { return 'DIRECT'; }
  if (shExpMatch(url, '*/selenium-server/*')) { return 'PROXY localhost:0; DIRECT'; }
  return 'PROXY 10.16.16.38:3229';
}

程序结束后,恢复原来配置 

selenium-webdriver-agent-proxy-startup-firefoxiechrome

 

5. ie和chrome,手动存储老的代理、修改代理、恢复代理 

这里同样使用的是webdriver提供的Proxy和WindowsProxyManager,只不过是我们显示调用而已,不让webdriver帮我们处理。几个接口,我在上面也提起过,这里就直接上代码了。 

Java代码 

final WindowsProxyManager proxyManager = new WindowsProxyManager(true,
		"webdriver-ie", 0, 0);
// 备份老代理配置
proxyManager.backupRegistrySettings();

// 增加hooker,jvm退出时,把代理修改为之前的。当然,这里可以自己决定什么时候恢复,比如,在每次InternetExplorerDriver关闭后掉用
new Thread() {
	@Override
	public void run() {
		proxyManager.restoreRegistrySettings(true);
	}
};

// 修改代理
DesiredCapabilities cap = changeProxy("localhost",8080);
proxyManager.changeRegistrySettings(cap);

// 启动ie
WebDriver driver1 = new InternetExplorerDriver(cap);
driver1.get("www.baidu.com");
driver1.close();

// 再次修改代理
DesiredCapabilities cap2 = changeProxy("localhost",80);
proxyManager.changeRegistrySettings(cap);

// 再次启动ie
WebDriver driver2 = new InternetExplorerDriver(cap);
driver2.get("www.google.com");
driver2.close();

 

设置代理的话,可以使用这种方式,代码是我刚才测试过的,亲测可用

from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://171.37.135.94:8123')
chrome = webdriver.Chrome(chrome_options=chrome_options)
chrome.get('https://proxy.mimvp.com/ip.php')
print(chrome.page_source)
chrome.quit()


使用虚拟的Linux界面,运行 Python + Selenium + Xvfb + Chrome

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#
# Selenium + Chrome 支持 http、https (无密和加密两种方式),不支持socks5
#
# 米扑代理示例:
# https://proxy.mimvp.com/demo2.php
# 
# 米扑代理购买:
# https://proxy.mimvp.com
# 
# mimvp.com
# 2017-01-08

# Python + Selenium + Chrome 代理示例,详见米扑博客:
# https://blog.mimvp.com/article/25076.html
#        
# 本示例由米扑代理原创,测试代理来自于米扑代理
# 密码授权和白名单ip设置,请见米扑代理 - 会员中心:https://proxy.mimvp.com/usercenter/userinfo.php?p=whiteip


from selenium import webdriver
from selenium.webdriver.common.proxy import *
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from pyvirtualdisplay import Display
# from xvfbwrapper import Xvfb

import bs4, os, re, time, zipfile
from base64 import b64encode

import sys
from posix import unlink
reload(sys)
sys.setdefaultencoding('utf8')


## webdriver + chrome + proxy + whiteip (无密码,或白名单ip授权)
## 米扑代理:https://proxy.mimvp.com
def spider_url_chrome_by_whiteip(url):
    browser = None
    display = None
    
    ## 白名单ip,请见米扑代理会员中心: https://proxy.mimvp.com/usercenter/userinfo.php?p=whiteip
    mimvp_proxy = { 
                    'ip'            : '140.143.62.84',      # ip
                    'port_https'    : 62288,                # http, https
                    'port_socks'    : 62287,                # socks5
                    'username'      : 'mimvp-user',
                    'password'      : 'mimvp-pass'
                  }
    
    try:
        display = Display(visible=0, size=(800, 600))
        display.start()
        
        chrome_options = Options()                      # ok
        chrome_options = webdriver.ChromeOptions()      # ok
        proxy_https_argument = '--proxy-server=http://{ip}:{port}'.format(ip=mimvp_proxy['ip'], port=mimvp_proxy['port_https'])     # http, https (无密码,或白名单ip授权,成功)
        chrome_options.add_argument(proxy_https_argument)
#         proxy_socks_argument = '--proxy-server=socks5://{ip}:{port}'.format(ip=mimvp_proxy['ip'], port=mimvp_proxy['port_socks'])   # socks5 (无密码,或白名单ip授权,失败)
#         chrome_options.add_argument(proxy_socks_argument)
        
        chromedriver = '/usr/local/bin/chromedriver'
        browser = webdriver.Chrome(executable_path=chromedriver, chrome_options=chrome_options)        # 打开 Chrome 浏览器
        browser.get(url)     
        content = browser.page_source
        print("content: " + str(content))
    finally:
        if browser: browser.quit()
        if display: display.stop()

 

使用虚拟的Linux界面,运行 Python + Selenium + Xvfb + Firefox

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#
# Selenium + Firefox 支持 http、https (无密和加密两种方式),不支持socks5
#
# 米扑代理示例:
# https://proxy.mimvp.com/demo2.php
# 
# 米扑代理购买:
# https://proxy.mimvp.com
# 
# mimvp.com
# 2017-01-08

# Python + Selenium + Firefox 设置密码时,需要使用到两个插件:
# 插件1: modify_headers-0.7.1.1-fx.xpi
# 下载地址:https://github.com/mimvp/mimvp-proxy-demo
#
# 方式2: close_proxy_authentication-1.1.xpi
# 下载地址:https://github.com/mimvp/mimvp-proxy-demo
#       
# Python + Selenium + Firefox 代理示例,详见米扑博客:
# https://blog.mimvp.com/article/25055.html
#         
# 本示例由米扑代理原创,测试代理来自于米扑代理
# 密码授权和白名单ip设置,请见米扑代理 - 会员中心:https://proxy.mimvp.com/usercenter/userinfo.php?p=whiteip


from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from selenium.webdriver.common.proxy import *
from pyvirtualdisplay import Display
# from xvfbwrapper import Xvfb

import bs4, os
from base64 import b64encode

import sys
reload(sys)
sys.setdefaultencoding('utf8')


## webdriver + firefox + proxy + whiteip (无密码,或白名单ip授权)
## 米扑代理:https://proxy.mimvp.com
def spider_url_firefox_by_whiteip(url):
    browser = None
    display = None
    
    ## 白名单ip,请见米扑代理会员中心: https://proxy.mimvp.com/usercenter/userinfo.php?p=whiteip
    mimvp_proxy = { 
                    'ip'            : '140.143.62.84',      # ip
                    'port_https'    : 19480,                # http, https
                    'port_socks'    : 19481,                # socks5
                    'username'      : 'mimvp-guest',
                    'password'      : 'welcome2mimvp'
                  }
    
    try:
        display = Display(visible=0, size=(800, 600))
        display.start()
        
        profile = webdriver.FirefoxProfile()
        
        # add proxy
        profile.set_preference('network.proxy.type', 1)     # ProxyType.MANUAL = 1
        if url.startswith("http://"):
            profile.set_preference('network.proxy.http', mimvp_proxy['ip'])
            profile.set_preference('network.proxy.http_port', mimvp_proxy['port_https'])    # 访问http网站
        elif url.startswith("https://"):
            profile.set_preference('network.proxy.ssl', mimvp_proxy['ip'])
            profile.set_preference('network.proxy.ssl_port', mimvp_proxy['port_https'])     # 访问https网站
        else:
            profile.set_preference('network.proxy.socks', mimvp_proxy['ip'])
            profile.set_preference('network.proxy.socks_port', mimvp_proxy['port_socks'])
            profile.set_preference('network.proxy.ftp', mimvp_proxy['ip'])
            profile.set_preference('network.proxy.ftp_port', mimvp_proxy['port_https'])
            profile.set_preference('network.proxy.no_proxies_on', 'localhost,127.0.0.1')
        
        ## 不存在此用法,不能这么设置用户名密码 (舍弃)
#         profile.set_preference("network.proxy.username", 'mimvp-guest')
#         profile.set_preference("network.proxy.password", 'welcome2mimvp')
    
        profile.update_preferences()
        
        browser = webdriver.Firefox(profile)       # 打开 FireFox 浏览器
        browser.get(url)     
        content = browser.page_source
        print("content: " + str(content))
    finally:
        if browser: browser.quit()
        if display: display.stop()

 

 

完整的代理示例,请见米扑代理的使用示例:

https://proxy.mimvp.com/demo2.php  (Selenium Python)

 

更多的代理示例,请见米扑代理的官方github:

https://github.com/mimvp/mimvp-proxy-demo

 

本文中,测试的代理ip,全部来自米扑代理:

https://proxy.mimvp.com

 

 

代理推荐

米扑代理: https://proxy.mimvp.com(米扑代理 - 免费代理IP每日更新)

百度、阿里、小米的技术大牛做的,代理质量高,性价比高

 

 

参考推荐:

Selenium Webdriver 以代理proxy方式启动firefox,ie,chrome

Python + Selenium + Firefox 使用代理 auth 的用户名密码授权

Selenium FF WebDriver 加载firebug 和设置代理

WebDriver配置Firefox代理服务器