2012年10月7日星期日

怎样写出能翻墙的爬虫程序?

1、安装goagent(不会安装的google一下)

安装goagnet是为了爬虫翻墙需要

2、在 python中加入代理部分:


# -*- coding: utf-8 -*-
import urllib2
import os,sys
proxies={'http':'127.0.0.1:8087'}
proxy_support=urllib2.ProxyHandler(proxies)
opener=urllib2.build_opener(proxy_support,urllib2.HTTPHandler)
urllib2.install_opener(opener)
a=urllib2.urlopen('http://www.twitter.com/').read()
print a 


通过print语句我们看到了twitter的首页代码,可见这个小爬虫翻墙成功了。

没有评论:

发表评论