本文介绍golang里也可以像python那样强大的使用爬虫。
什么是爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
说明
爬虫在19年国家颁布《中华人民共和国网络安全法》里,明确指出了非法爬取数据的规定,此文章仅为学习讨论,合法学习并使用爬虫。
爬虫框架
- chromedb
无外部依赖,直接驱动支持chrome的DevTool协议的浏览器发起http请求
安装:
1 | go get -u github.com/chromedb/chromedb |
当然你的电脑上还需要安装chrome
示例Demo
1 | package main |
- 本文作者: Hongker
- 本文链接: https://hongker.github.io/2020/04/17/golang-spider/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!