灌水 爬虫抓取网页上的深股通 / 沪股通数据

rocl · September 17, 2018 · Last by 我问问 replied at September 18, 2018 · 1129 hits

前言

对股市一窍不通,去年开始买基金(到现在处于亏损较长时间了)。
某天忽然听到一个想法,感觉上觉得靠谱,原理就是抓取财经类页面的深股通/沪股通数据,看看外资都是怎么买股票的。
或许可以跟着他们一起买股票......(很粗浅的想法😄 )

调研

  • 首先就是查港交所,发现只公开前十名的信息(或许因为每天的买入卖出信息都是有价值的,所以不免费提供全部信息)
  • 内地的财经类网址,单独的股票页面可以看到是否有外资买入卖出信息
    • 想法就是遍历所有的股票页面,搜集外资买入卖出信息,保存到数据库
      • jenkins中持续集成,每天定时跑
    • 正常运行几个月之后,发现搜集不到数据了(估计服务器方发现有IP一直在爬数据)
      • 现象就是没有ua的请求,服务器返回一律都是forbidden
    • 添加随机ua,再次使用爬虫,发现过几个星期之后,又是forbidden
    • 再次修改爬虫脚本,添加随机proxy,检验效果中......
      • proxy使用随机的代理,先抓取然后存储在mongoDB中,使用的时候随机从mongoDB中抓取代理访问个股页面

抓取的成果图片

后记:

  • 最后感觉对投资没什么实际价值
  • 有价值的就是
    • 发现服务器方的一些封堵手段,例如没有ua,ip黑名单,或许还有随机的禁止访问(例如发现爬虫,封禁1小时之类的)
    • 写这个python脚本其实还是有一点曲折
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
共收到 7 条回复 时间 点赞

别玩,A股就是骗你钱的

我以后再也不玩A了

脚本能否分享下?

同买基金的,亏损20%

rocl · #5 · September 18, 2018 作者
Author only

基金亏成狗

股票也亏了,不过,目前这种情况,适合新手学习

需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up