爬虫闯关第一关

       在学习python爬虫的过程中,了解到一个挺有意思的网站。该网站设置了若干个关卡,编写爬虫进行闯关,在闯关的过程中需要学习不同的知识,水平也自然随着提高。

       下面是第一关:
       http://www.heibanke.com/lesson/crawler_ex00/

分析

       点击进入网站后如下图所示:
爬虫1.1

       按照提示,在网址后面输入数字以后进入另一页面:
爬虫1.2        由此可见,第一关只是在url后输入当前页面内获取到的数字并进入下一个页面,循环以上过程,直到页面中出现闯关成功的提示。

实现

       第一关采用了urllib模块,通过urlopen方法下载html页面,并用正则表达式在html中抓取5位数字,然后循环get新的url,直到html没有“数字是xxxxx”等字符串,最后打印出成功闯关的html页面文件。

       在循环大约几十次后,便可得到成功闯关的提示以及下一关的连接:

爬虫第一关_3

爬虫第一关_3

       由于我的python是运行在linux虚拟机里,所以html以文本显示。另外,虚拟机里的得到的成功页面的url不能直接复制到windows的浏览器中,因为网站会根据访问者的cookies动态设置成功页面的url。

总结

       第一关还是比较容易的,主要考察对静态页面的抓取以及用正则进行字符串过滤的操作。



  copyright@黑月神话,转载请注明出处:vjson.com

发表评论