有哪些网站用爬虫爬取能得到很有价值的数据
一般有一下几种
一些常用的方法
IP代理
对于IP代理,各个语言的Native
Request
API都提供的IP代理响应的API,
需要解决的主要就是IP源的问题了.
网络上有廉价的代理IP(1元4000个左右),
我做过简单的测试,
100个IP中,
平均可用的在40-60左右,
访问延迟均在200以上.
网络有高质量的代理IP出售,
前提是你有渠道.
因为使用IP代理后,
延迟加大,
失败率提高,
所以可以将爬虫框架中将请求设计为异步,
将请求任务加入请求队列(RabbitMQ,Kafka,Redis),
调用成功后再进行回调处理,
失败则重新加入队列.
每次请求都从IP池中取IP,
如果请求失败则从IP池中删除该失效的IP.
Cookies
有一些网站是基于cookies做反爬虫,
这个基本上就是如
@朱添一
所说的,
维护一套Cookies池
注意研究下目标网站的cookies过期事件,
可以模拟浏览器,
定时生成cookies
限速访问
像开多线程,循环无休眠的的暴力爬取数据,
那真是分分钟被封IP的事,
限速访问实现起来也挺简单(用任务队列实现),
效率问题也不用担心,
一般结合IP代理已经可以很快地实现爬去目标内容.
一些坑
大批量爬取目标网站的内容后,
难免碰到红线触发对方的反爬虫机制.
所以适当的告警提示爬虫失效是很有必有的.
一般被反爬虫后,
请求返回的HttpCode为403的失败页面,
有些网站还会返回输入验证码(如豆瓣),
所以检测到403调用失败,
就发送报警,
可以结合一些监控框架,
如Metrics等,
设置短时间内,
告警到达一定阀值后,
给你发邮件,短信等.
当然,
单纯的检测403错误并不能解决所有情况.
有一些网站比较奇葩,
反爬虫后返回的页面仍然是200的(如去哪儿),
这时候往往爬虫任务会进入解析阶段,
解析失败是必然的.
应对这些办法,
也只能在解析失败的时候,
发送报警,
当告警短时间到达一定阀值,
再触发通知事件.
当然这个解决部分并不完美,
因为有时候,
因为网站结构改变,
而导致解析失败,
同样回触发告警.
而你并不能很简单地区分,
告警是由于哪个原因引起的.
我在河北省邯郸魏县,附近有出售鹅苗的吗?
魏县是河北省邯郸市下辖的一个县。县人民政府驻魏城镇。位于河北省南端。县境南北长42.24千米,东西宽33.5千米。总面积862平方公里,耕地面积97万亩,辖21个乡镇,1个街道办,542个行政村,19个居民委员会,总人口90万,是河北省第一人口大县,国家扶贫开发工作重点县,中国鸭梨之乡。
具体有没有你可以去当地农贸市场问问。
有一部电影主人公是一个蜥蜴 挺搞笑的一个电影
电影名《兰戈》,剧情简介:兰戈是一只被饲养在玻璃箱里的变色龙,它时常幻想自己是一个伟大的英雄。突然,它就从当代的美国社会穿越到了一个老旧的西部边陲小镇。这个小镇叫做德特。(Dirt,有肮脏的含义) 由于一上来就阴错阳差地结束了一只鹰的寿命,兰戈莫名其妙地成为了小镇的英雄。小镇人民很欢迎它,它也乐得其所地成为了这些可怜巴巴的小镇居民--都是些沙漠动物--的救世主。因为兰戈时常幻想自己是一个英雄,所以它很愉快地接受了小镇镇长的任命,他成了德特镇的警长。从此,兰戈开始了每天在镇子上巡逻的生活。兰戈喜欢这种成为“英雄”和“好人”的生活。只是,它不知道的是,在德特镇,“好人”就意味着死掉。在镇子的尽头,有一片专门为“好人”而设置的坟场。不过,这些并没有成为阻止兰戈前进的障碍,它反倒是越挫越勇地带领小镇人民争取自己的利益。 最后,出现了终极的大坏蛋--一条响尾蛇,兰戈也发现自己面临着有史以来最为严峻的挑战。它能全身而退么?它是否能成为那个自己假想出的英雄?