通用技术 无法全部获取网页内容

神奇的小新 · 2014年12月09日 · 最后由 神奇的小新 回复于 2014年12月17日 · 2142 次阅读

起因:
本人负责兼容性模块,众所周知,android 这一块的兼容就是去 down 各种 apk,然后看看是否可运行。
鉴于此,偶想自己写个东西去网上一键 down。有需求才有动力,最后摸索出每一个 apk 都有一个最终网址,找到这个网址,基本上就取得该 apk 了。
本来有其他手工方式,可是其一偶懒,其二可以练练手,然后我就打算写一个一键下载的 apk,再然后问题来了。。。。
问题:
页面无法完全获取

红线框住的部分都可以解析出来
右边有红线的部分就解析不了了~~~~~·,其实就是

这个层里面的东西都没有获取到,求指点
共收到 4 条回复 时间 点赞

你在说什么啊,问题都没有描述清楚,解析又用什么解析呢?正则表达式?

用一个网址链接到该网页,然后一行行的读取数据到本地,捡出我需要的 url。
不是用正则,太麻烦了,用语句简单判断也可以的。
问题是无法把整个页面读取到本地,只读取了部分,其它的比如 head 和 body 里面的数据都可以获取的,但是单单某一个层(

)里面的所有内容都没有被读取到本地,貌似网页是使用的 ajax 方式,所以获取不到,然后无从下手了。。。。第一次发帖,然后我说话有点跳跃(逻辑性不强),您勉强看看

#2 楼 @601068603 ajax 的话, 你得用其他的爬虫,等异步加载了之后才能爬。 比如考虑下 http://blog.xlvector.net/2014-03/javascript-crawler-using-phantomjs/

哈哈,终于已经爬到了~ 用的是 python 果然还是 python 简单

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册