其实网络爬虫就是模拟浏览器获取web页面的内容的过程,然后解析页面获取内容的过程。
首先要熟悉web页面的结构,就是要有前端的基础,不一定要精通,但是一定要了解。
然后熟悉python基础语法,相关库函数(比如beautifulSoup),以及相关框架比如pyspider等。
建议刚开始不要使用框架,自己从零开始写,这样你能理解爬虫整个过程。
推荐书籍:python网络数据采集 这本书,比较基础。
Python 编程中 while 语句用于循环执行程序,即在某条件下,循环执行某段程序,以处理需要重复处理的相同任务。其基本形式为:
while 判断条件(condition): 执行语句(statements)……
执行语句可以是单个语句或语句块。
判断条件可以是任何表达式,任何非零、或非空(null)的值均为true。
当判断条件假 false 时,循环结束。
执行流程图如下:
while 语句时还有另外两个重要的命令 continue,break 来跳过循环,continue 用于跳过该次循环,break 则是用于退出循环,此外判断条件还可以是个常值,表示循环必定成立,具体用法如下:
# continue 和 break 用法
while i < 10:
# 非双数时跳过输出
# 输出双数2、4、6、8、10
# 循环条件为1必定成立 print i
# 输出1~10 i += 1
if i > 10: # 当i大于10时跳出循环 break
无限循环
如果条件判断语句永远为 true,循环将会无限的执行下去,如下实例:
实例
#!/usr/bin/python
# -*- coding: UTF-8 -*-
while var == 1 : # 该条件永远为true,循环将无限执行下去
num = raw_input(Enter a number :) print You entered: , numprint Good bye!
在 python 中,while … else 在循环条件为 false 时执行 else 语句块:
实例
#!/usr/bin/python
while count < 5:
print count, is less than 5
count = count + 1
print count, is not less than 5
python2 使用s=raw_input((Do you want to know the Exam period for the particular semester?) python3 使用s=input((Do you want to know the Exam period for the particular semester?)
标签: 如何学习Python爬虫、本文地址: https://id8.dhslw.com/jishuwz/692b376bc707511438fd.html
上一篇:python272官方网站上怎么下载不了python怎...