"放下你手里的代码"：爬虫技能的善与恶、罪与罚

KK免更新

"放下你手里的代码"：爬虫技能的善与恶、罪与罚

2019-10-30 10:15:05

阅读（14501）

"放下你手里的代码，当心被抓。"

最近程序员圈子不乏这样的戏谑戏弄。

原因是最近发作的多起触及爬虫技能的公司被司法部门查询。近来，51信用卡被查，更是将暴力催收背面不合法运用爬虫技能爬取个人隐私数据的丑行，暴露在阳光之下。

一时间，"爬虫"成为众矢之的，一些公司紧迫下架了爬虫相关的招聘信息，给大数据风控、人工智能从业者带来少许惊惧，头发又多落了几根。

实际上，大部分人都听说过爬虫，以为爬虫便是到人家网站上去爬东西、偷数据，有些人乃至以为只需有爬虫，什么数据都能够搞到。

今日，咱们就翻开爬虫这个"工具箱"，把触及到的技能盲区放到灯光下，让咱们能够清楚地看下。下面，本文就从这个视点来聊聊爬虫这个了解而又生疏的技能。

查找引擎搜集网上信息的首要手法便是网络爬虫（也叫网页蜘蛛、网络机器人）。它是一种"主动化阅览网络"的程序，依照必定的规矩，主动抓取互联网信息，比方：网页、各类文档、图片、音频、视频等。查找引擎经过索引技能安排这些信息，依据用户的查询，快速地供给查找效果。

想象一下，咱们平常阅览网页的时分会怎么做？

一般情况下，首要，会用阅览器翻开一个网站的主页，在页面上寻觅感兴趣的内容，然后点击本站或其它网站在该网页上的链接，跳转到新的网页，阅览内容，如此循环往复。如下图所示：

图中CAPTCHA 的全名是（Completely Automated Public Turing test to tell Computers and Humans Apart），中文翻译为：全主动区别计算机与人类合肥网站建设的图灵测验。完成的方法很简略，便是问一个电脑答不出来但人类答得出来的问题。不过，现在的爬虫往往会用深度学习技能对这样的验证码进行破解，这样的图灵测验现已失效。

来源:版权归属原作者,部分文章推送时未能及时与原作者取得联系,若来源标注错误或侵犯到您的权益烦请告知，我们会及时删除。

赞 32 收藏

"放下你手里的代码"：爬虫技能的善与恶、罪与罚

[站长]热门文章

[站长]最新文章