前言
对股市一窍不通,去年开始买基金 (到现在处于亏损较长时间了)。
某天忽然听到一个想法,感觉上觉得靠谱,原理就是抓取财经类页面的深股通/沪股通数据,看看外资都是怎么买股票的。
或许可以跟着他们一起买股票......(很粗浅的想法 )
调研
- 首先就是查港交所,发现只公开前十名的信息 (或许因为每天的买入卖出信息都是有价值的,所以不免费提供全部信息)
- 内地的财经类网址,单独的股票页面可以看到是否有外资买入卖出信息
- 想法就是遍历所有的股票页面,搜集外资买入卖出信息,保存到数据库
- 正常运行几个月之后,发现搜集不到数据了 (估计服务器方发现有 IP 一直在爬数据)
- 现象就是没有 ua 的请求,服务器返回一律都是 forbidden
- 添加随机 ua,再次使用爬虫,发现过几个星期之后,又是 forbidden
- 再次修改爬虫脚本,添加随机 proxy,检验效果中......
- proxy 使用随机的代理,先抓取然后存储在 mongoDB 中,使用的时候随机从 mongoDB 中抓取代理访问个股页面
抓取的成果图片
后记:
- 最后感觉对投资没什么实际价值
- 有价值的就是
- 发现服务器方的一些封堵手段,例如没有 ua,ip 黑名单,或许还有随机的禁止访问 (例如发现爬虫,封禁 1 小时之类的)
- 写这个 python 脚本其实还是有一点曲折