在对数据进行采集的时候,经常遇到有反爬能力的站点,比如大家喜闻乐爬的12306、大众点评等等。这时候就需要挂上代理来进行采集(大众点评的反爬是做的最🐂的……)。
IP的高匿、匿名、透明,是针对隐藏用户请求数据而言,例如:隐藏IP地址,隐藏踪迹等。使用什么级别的最合适呢?
{
remote_addr: "139.59.17.117:8080",
http_via: "null",
client_ip: "null",
http_x_forwarded_for: "null"
}
访问网络,一共有五种方式:无代理、透明、普通匿名、欺骗匿名、高匿(Elite)。五种方式及判断原理如下:
无代理
- REMOTE_ADDR = 您的真实 IP
- HTTP_VIA = 没数值或不显示
- HTTP_X_FORWARDED_FOR = 没数值或不显示
透明代理
- REMOTE_ADDR = 最后一个代理服务器 IP
- HTTP_VIA = 代理服务器 IP
- HTTP_X_FORWARDED_FOR = 您的真实 IP,经过多个代理服务器时,这个值类似:123.57.78.101, 120.24.177.48, 47.88.76.11
普通匿名
- REMOTE_ADDR = 最后一个代理服务器 IP
- HTTP_VIA = 代理服务器 IP
- HTTP_X_FORWARDED_FOR = 代理服务器 IP,经过多个代理服务器时,这个值类似:123.57.78.101, 120.24.177.48, 47.88.76.11
欺骗匿名
- REMOTE_ADDR = 最后一个代理服务器 IP
- HTTP_VIA = 代理服务器IP
- HTTP_X_FORWARDED_FOR = 随机的 IP,经过多个代理服务器时,这个值类似:123.57.78.101, 120.24.177.48, 47.88.76.11
高匿(Elite)
- REMOTE_ADDR = 代理服务器 IP
- HTTP_VIA = 没数值或不显示
- HTTP_X_FORWARDED_FOR = 没数值或不显示