通用技术无法全部获取网页内容

神奇的小新 · 2014年12月09日 · 最后由神奇的小新回复于 2014年12月17日 · 4125 次阅读

起因：
本人负责兼容性模块，众所周知，android 这一块的兼容就是去 down 各种 apk，然后看看是否可运行。
鉴于此，偶想自己写个东西去网上一键 down。有需求才有动力，最后摸索出每一个 apk 都有一个最终网址，找到这个网址，基本上就取得该 apk 了。
本来有其他手工方式，可是其一偶懒，其二可以练练手，然后我就打算写一个一键下载的 apk，再然后问题来了。。。。
问题：
页面无法完全获取

红线框住的部分都可以解析出来
右边有红线的部分就解析不了了~~~~~·，其实就是

这个层里面的东西都没有获取到，求指点

共收到 4 条回复时间点赞

恒温 #1 · 2014年12月09日

你在说什么啊，问题都没有描述清楚，解析又用什么解析呢？正则表达式？

神奇的小新 #2 · 2014年12月09日 Author

用一个网址链接到该网页，然后一行行的读取数据到本地，捡出我需要的 url。
不是用正则，太麻烦了，用语句简单判断也可以的。
问题是无法把整个页面读取到本地，只读取了部分，其它的比如 head 和 body 里面的数据都可以获取的，但是单单某一个层（

）里面的所有内容都没有被读取到本地，貌似网页是使用的 ajax 方式，所以获取不到，然后无从下手了。。。。第一次发帖，然后我说话有点跳跃（逻辑性不强），您勉强看看

恒温 #3 · 2014年12月09日

#2 楼 @601068603 ajax 的话，你得用其他的爬虫，等异步加载了之后才能爬。比如考虑下 http://blog.xlvector.net/2014-03/javascript-crawler-using-phantomjs/

神奇的小新 #4 · 2014年12月17日 Author

哈哈，终于已经爬到了~ 用的是 python 果然还是 python 简单

需要登录后方可回复, 如果你还没有账号请点击这里注册。

通用技术 无法全部获取网页内容

通用技术 无法全部获取网页内容

通用技术无法全部获取网页内容

通用技术无法全部获取网页内容