15158846557 在线咨询 在线咨询
15158846557 在线咨询
所在位置: 首页 > 营销资讯 > 网站运营 > AWS Proxy Server 搭建

AWS Proxy Server 搭建

时间:2023-07-07 19:33:01 | 来源:网站运营

时间:2023-07-07 19:33:01 来源:网站运营

AWS Proxy Server 搭建: 在数据科学领域,网页爬虫是获取外部数据(external data)的重要来源。但是在现有的反爬虫机制日益普遍且完善的情况下,简单的暴力爬虫已经越来越无法满足实际的数据获取需求。

具体而言,反爬虫机制中广泛应用的一个办法就是检查访问请求的ip地址。若在短时间大量访问网站,网站的服务器即会触发字符验证或者屏蔽该ip地址等操作。因而在很多时候,为了避免被ip被屏蔽列入黑名单或是手动输入验证码,爬虫者会采取用代理服务器(proxy server)以变更ip地址。以下是一个proxy server的原理示意图:

比如路人甲的家庭网ip地址是1.1.1.1,现在他想要爬虫本站的热点话题,于是他利用ip地址是2.2.2.2的proxy server代理他提出访问请求。于是在本站看来,这次的访问是从ip地址2.2.2.2的服务器发出的。通过不断更换proxy server,可以有效地减少被检测到爬虫的概率。

当然值得一提的是,proxy server本身的设计很大程度上是为了隐私。严格意义上是通过匿名(anonymity)的方式,保障了隐私(privacy)。例如,某人想要访问一些网页,但是不想被这些网页的服务器收集到自己所在ip下的访问内容和时间规律。于是他可以使用proxy server做代理访问。

在当下社会分工高度细化的时代,其实在网上可以找到很多或免费或收费的proxy server。其中收费的代理服务往往是通过付费api的形式实现。在谷歌上查找一下,就有很多这样的网站提供proxy server api的服务。例如:

但是在个人看来,这里有几个问题。一是很多这样的代理网站会被封,类似于VPN的网站;二是有些网站的收费其实略贵;三是不能保证这些代理的网站是否会收集用户的访问相关数据。当然,每个人有自己的利弊权衡。


言归正传,下面谈谈如何在亚马逊云(AWS)上搭建自己的proxy server。

搜索EC2
选择EC2服务器所在服务区
点击launch instance
选择Ubuntu Server XX.04 LTS, 此处以20.04 LTS为例
任选一个instance type,其中t2.micro可以免费试用
根据实际需求更改storage,添加tags以及设置security group
修改security group设置:1. 添加port range(tinyproxy默认的port是8888,也可以添加别的port,本例中加入7777)2.为了安全性,可以将source设置为自己本地电脑的网络IP,这样只有自己的网络可以连接,从而避免proxy server被知道IP和端口的任何人试用



创建ssh key并下载到本地



点击connect
aws提供相应的ssh连接参考命令行
以os系统为例
运行以下命令行:

sudo apt-get updatesudo apt-get install tinyproxy而后用vim打开configuraion文件:

sudo vim tinyproxy.conf在文件中,用#注释掉所有已有的IP地址

#Allow 127.0.0.1#Allow 192.168.0.0/16#Allow 172.16.0.0/12#Allow 10.0.0.0/8添加本地IP

Allow xxx.xxx.xxx.xxx添加port

Port 8888Port 7777保存configuration文件

重启tinyproxy

sudo service tinyproxy restart 我们可以用python request包进行简单的测试,代码如下:

import requests proxy="https:52.72.15.228:7777"html = requests.get("https://api.ipify.org/", proxies={"https":proxy}, timeout=5) html.content.decode('latin-1') 注意到proxy中的IP地址是在第四步中的静态IP地址。proxy server运行成功!



关键词:

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭