chili coding 自留地

Python 爬虫


https://www.runoob.com/w3cnote/python-spider-intro.html

1,url 列队管理(待爬页面)

2,页面下载

3,数据解析(一般会把下载的 html 文件 DOM 化)

4,制作应用(使用解析出来的数据)


- 所有需要下载操作的数据,均应该持久化、保存在本地,避免重复下载

- 对于图片

def request_download():
    import requests
    r = requests.get(IMAGE_URL)
    with open('./image/img2.png', 'wb') as f:
        f.write(r.content)                      

reply ( 0 )