灌水 爬虫抓取网页上的深股通 / 沪股通数据

rocl · 2018年09月17日 · 最后由 ttraveler 回复于 2019年08月15日 · 3124 次阅读

前言

对股市一窍不通,去年开始买基金 (到现在处于亏损较长时间了)。
某天忽然听到一个想法,感觉上觉得靠谱,原理就是抓取财经类页面的深股通/沪股通数据,看看外资都是怎么买股票的。
或许可以跟着他们一起买股票......(很粗浅的想法😄 )

调研

  • 首先就是查港交所,发现只公开前十名的信息 (或许因为每天的买入卖出信息都是有价值的,所以不免费提供全部信息)
  • 内地的财经类网址,单独的股票页面可以看到是否有外资买入卖出信息
    • 想法就是遍历所有的股票页面,搜集外资买入卖出信息,保存到数据库
      • jenkins 中持续集成,每天定时跑
    • 正常运行几个月之后,发现搜集不到数据了 (估计服务器方发现有 IP 一直在爬数据)
      • 现象就是没有 ua 的请求,服务器返回一律都是 forbidden
    • 添加随机 ua,再次使用爬虫,发现过几个星期之后,又是 forbidden
    • 再次修改爬虫脚本,添加随机 proxy,检验效果中......
      • proxy 使用随机的代理,先抓取然后存储在 mongoDB 中,使用的时候随机从 mongoDB 中抓取代理访问个股页面

抓取的成果图片

后记:

  • 最后感觉对投资没什么实际价值
  • 有价值的就是
    • 发现服务器方的一些封堵手段,例如没有 ua,ip 黑名单,或许还有随机的禁止访问 (例如发现爬虫,封禁 1 小时之类的)
    • 写这个 python 脚本其实还是有一点曲折
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
共收到 8 条回复 时间 点赞

别玩,A 股就是骗你钱的

我以后再也不玩 A 了

脚本能否分享下?

同买基金的,亏损 20%

rocl · #5 · 2018年09月18日 Author
仅楼主可见

基金亏成狗

股票也亏了,不过,目前这种情况,适合新手学习

能分享下脚本么,谢谢

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册