最近在翻一些技术论坛,发现大家还在为找稳定的代理IP发愁。这玩意儿吧,说难找也难找,说不难也不难,关键是你得知道去哪儿挖。我去年折腾了好一阵,实测了一堆网站,有些号称高匿的其实早就被爬烂了,有些不起眼的反而挺坚挺。今天随便聊聊,想到哪儿说到哪儿,你当个参考就行。
先说个最直接的,现在就能打开的。有个叫“快代理”的网站,界面土土的,但免费IP列表更新挺勤快。你上去别管那些广告,直接看列表,格式通常是“IP:端口”。注意看“匿名度”那一栏,选“高匿”或者“Elite”的。拿到后别急着用,先验证。我习惯用个笨办法:浏览器设置里配好代理,接着打开“ip138.com”这种查IP的网站,看看显示的地址是不是变成了代理IP,同时检查一下网页里有没有提到HTTP_X_FORWARDED_FOR这类头信息(高匿应该不传递你的真实IP)。如果一致,并且没泄露原IP,那这个IP暂时能用。免费的速度就别指望多快了,刷个网页、查点不敏感的数据还行。
噢对了,说起这个,很多人验证代理只会用浏览器访问,其实效率低。我后来写了个简单的Python脚本来批量测,用requests库,设置代理参数,接着请求一个能返回你访问者IP的API,比如httpbin.org/ip。脚本跑起来,能用的IP就筛出来了。代码也就十几行,网上搜一下“Python 检测代理IP”一大堆,自己改改就好。这比手动一个个试快多了,特别是你手里有一批IP的时候。
思维跳一下,免费的总归是不太稳定,用一阵可能就挂了。如果你有点小预算,或者有短期密集使用的需求,可以看看“芝麻代理”或者“站大爷”这类按量付费的。它们提供短期(几分钟到几小时)的提取式代理,你通过API获取一个IP和端口,有效期内它就是你的。这种IP通常质量好很多,高匿、速度快,适合做数据采集或者临时跳板。价格嘛,几块钱到十几块钱买一个G的流量,看你用量。注册一般会送点体验金,够你试试水了。操作也简单,后台拿到API链接,用脚本或者工具去调用,返回的就是一个可用的代理地址,直接填到软件里就行。
说到工具,顺便提一嘴。除了在代码里设置,平时浏览网页、玩个游戏想用代理,可以装个SwitchyOmega(浏览器插件)或者用Proxifier这样的全局代理工具。把找到的代理IP和类型(HTTP/HTTPS/Socks5)配进去,切换起来很方便。特别是有些代理网站提供的是Socks5协议,比HTTP代理更底层,兼容性好。
聊到协议,差点忘了。你找IP的时候会看到类型有HTTP、HTTPS、SOCKS4/5。简单理解:HTTP/HTTPS代理主要用来浏览网页;SOCKS5更通用,能代理各种流量,包括游戏、即时通讯软件。如果你需求不只是看网页,那优先找SOCKS5的代理。很多付费代理服务会同时提供多种协议。
话说回来,免费代理网站列表虽然多,但维护是个问题。我去年常看的几个站,今年再去有的已经打不开了,有的列表几个月不更新。所以别只盯着一个来源。除了前面提到的,像“西刺代理”的免费IP页面,虽然名声大但失效也快,需要你快速验证。还有个思路,去GitHub上搜“free proxy list”,有些开源项目用爬虫自动维护列表,时不时能捡到漏。不过切记,用免费的,特别是来源不明的代理,千万别干登录账号、传输敏感信息这种事,不安全。你都不知道后面是谁在运维。
对了,手机端怎么用?安卓上可以用“ProxyDroid”这样的APP,配置上代理IP和端口,就能让整个手机流量都走代理。iOS稍微麻烦点,得去Wi-Fi设置里手动配置HTTP代理,或者用外区的App Store下载一些代理工具APP。但用公共代理在手机上,同样要注意安全,别进行金融操作。
付费服务里还有一种,叫“动态住宅代理”。这个比较贵,但模拟的是真实家庭用户的IP,地址经常变,隐匿性非常好,不容易被目标网站封。适合做大规模、长时间的网络爬虫或者社交媒体管理。像“Smartproxy”、“Oxylabs”这些服务商有提供,但价格就不是个人随便玩玩的级别了,一般是企业用。他们有详细的使用文档,API调用也很规范,按流量或时长计费。
用代理,尤其是做爬虫,很容易被反爬机制盯上。这时候IP池就得大,还得配合请求头(User-Agent)、访问频率的随机变化。单纯指望一个高匿IP就能为所欲为,不现实。免费的IP池浅,很容易触发限制。所以我的经验是,轻度需求用免费IP列表+自动验证脚本,攒几十个轮流用;中度需求(比如每周需要采点数据)用按量付费的提取代理,省心;重度或商业用途,再考虑住宅代理服务。
末尾再啰嗦几句。别太迷信“高匿”这个词,很多网站宣称的高匿,你实际用脚本一测,可能还是会把你的真实IP藏在某个头里。自己验证最靠谱。工具和网站都是死的,思路是活的。今天觉得好用的,可能下个月就不好用了。保持信息更新,多去技术社区看看别人的最新分享,比如V2EX、某乎的某些话题,经常有人讨论哪个服务商最近比较稳。自己动手,写个小工具把获取、验证、使用的流程半自动化,才是最踏实的。毕竟,免费的往往最贵(花时间),付费的也未必省心(得会挑)。找到适合自己当下那个平衡点,就行。