title: Python 网络爬虫 (一)
date: 2016-04-13 12:47:44

tags: Python

< Hi ，大家好，我是 Raymond 。由于最近一段时间比较忙，换了新的工作环境，很久没有来分享技术文章 , 不知道大家有没有捉急 >

今天给大家带来的，是 Python 的网络爬虫实现 (不包含开源框架，自己造轮子系列)

好了首先，我们先来了解一下，什么是爬虫

什么是网络爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

传送门：网络爬虫

网络爬虫能给我们在日常生活带来什么？

搜索引擎的基础应用
抓取大数据的一种手段
网页下载器
网店秒杀

看来爬虫能给我们带来大量的有效数据及和用途呢 , 当大家都在拿着手机、对着电脑，等着整点秒杀的时候，你却躺在床上，看着电视喝着咖啡等着你的爬虫帮你抢回秒杀的产品，是不是想想都很开心呢？那么，快点开始吧，来实现我们的第一个基于 Python 实现的爬虫

用 Python 实现你人生中的第一个爬虫程序

首先，大家需要了解一下 python 中常用的爬虫模块包含：urllib2、urllib3、requests、BeautifulSoup 、 re 等
本章，我们先来介绍 requests 模块的简单使用，后续章节，我们会深入讲解其他爬虫模块

如果你还没有接触过 python，没有关系 python-requests ,可以查看文档后，再继续学习以下内容

import requests     # 导入requests模块

request_url = 'http://testerhome.com'   # 请求的url是 TesterHome的网站主页
response = requests.get(request_url).text # 请求TesterHome，并获取返回值
print(response)     # 打印返回结果

WoW！人生第一个爬虫，就这样诞生了，Python 的爬虫代码看起来是不是很简洁，很有层次感呢？

首先！我们恭喜一下自己，你的爬虫成功的把 TesterHome 的主页 html 抓下来，并返回给你，你成功了。(如果返回错误，请自行对比代码)

那么问题随之而来，竟然返回了一个 html ，这是什么鬼，我应该怎么样才能把这个 html 中我需要的内容获取出来？

容我卖个关子，今天就讲到这里，下一张，我们会开始讲 html 的解析和 json 的解析 (接口测试包含，简单讲解一下)

留一部分练习内容：

尝试获取 Testerhome 的相关文章
尝试获取任意一篇知乎的文章

如果遇到问题，可以在 TesterHome 的官方测试群@BJ-行者

↙↙↙阅读原文可查看相关链接，并与作者交流