最新消息:重新回归WordPress,我要比较认真的开始更新我的博客了。

关于这几天研究"微信公众号采集"的成果报告

杂七杂八 hanlei 1474浏览

生活总是在以为自己快要很得意的时候让你焦头烂额
前些天学习用python做网站采集,有些成果。于是就又想搞微信公众号的采集。因为之前想用PHP做过,研究了一下发现基本不可能。现在有了更专业的工具就又想试试了。因为我只知道搜狗有公众号的搜索,所以就打算从搜狗开始。

到目前为止做了以下工作

  1. 采集时要先访问一下搜狗首页,记录COOKIES,采集时都要带上。因为搜索肉容的链接和图片的访问都要验证COOKIES,没有可不行。

  2. 因为要有目标的采集所以就要用到搜索,但又不能直接跳到搜索结果页(会自动转到首页)。我用phantomjs在搜索首页调用js实现模拟表单提交,结果页就出来了。

  3. 不断的调试,因为还要发到自己的网站后台。

到目前为止的结果
就在刚才出现:”用户您好,您的访问过于频繁,为确认本次访问为正常用户行为,需要您协助验证。”。访问要输验证码。这我就没办法了。

微信公众号采集计划 终止

转载请注明:HANLEI'BLOG » 关于这几天研究"微信公众号采集"的成果报告