怎么抓取公众号标题信息?不写代码也能抓公众号标题
刷朋友圈,看到一篇文章,很有料,哈!这个公众号不错,关注一下。
翻一下历史文章吧,看看作者还写了什么其他好玩的东西。
从公众号打开历史文章页,往下滑动了几秒,哎,这样看的话,很费时间啊。
而且我又不想全部文章都看,有没有什么方法,可以看到全部文章标题,我根据标题,选择感兴趣的再看文章内容。
搜索一下,找到了下面几个解决方案。
1、「P大叔」(http://pdfuncle.com/):可以将公众号文章导出为PDF,很方便。
P 大叔 72 小时内才能导出,如果现在就想看,就需要等一段时间,放弃。
2、传送门(http://chuansong.me/):可以直观的看到文章标题列表。
我感兴趣的公众号,却是没有被收录,提交的话,估计要等一段时间了。放弃。
3、新榜(https://www.newrank.cn/):新榜的「公众号回采」功能,可以抓取文章的阅读数、点赞数、题图、等等等,多维度的数据。
对于我来说,这么多数据,我用不到,而且价格有点贵。
没钱,放弃。
4、搜狗微信搜索(http://weixin.sogou.com/):可以通过关键字查找相关文章。
如果目标是某个确定的公众号,那搜狗就没有用武之地了,它只能显示最近的10条文章。
放弃。
5、编程:自己抓取公众号的标题。
额。。。这个,有点难度,放弃。
6、不用写代码的爬虫技能:用谷歌插件 webscraper,自己抓取感兴趣的公众号,需要的时候,随时抓,随时出结果。
而且入手简单,还是免费的。
我自己试了下,没问题,几分钟时间,很轻松的就将 1300多个标题全部抓下来了,而且真的一行代码都没有写。
下面是抓取公众号的操作详细步骤——
一、 下载安装软件
webscraper 是运行在谷歌浏览器之中,所以我们需要实际需要安装两个软件
- 谷歌浏览器
- webscraper
这两个软件如果大家之前用过,就可以直接跳到第二步。
如果没有,可以看下面这个视频,里面详细介绍了安装步骤。
电脑观看体验更好
二、 抓取数据
我因为手头只有 mac 系统,所有我介绍一下 mac 的抓取方式。
1、从浏览器打开公众号历史列表
打开 mac 版微信,进入某个公众号,点开历史文章页面,如下图——
点击历史文章页面图标(上图标注2)后,会弹出一个窗口,可以看到下面的图片——
这块如果你看到的是其他浏览器图标,则需要将系统默认浏览器设置为谷歌浏览器。这块自己百度一下
点击上图标注的浏览器logo,即可在浏览器查看公众号历史文章列表,这个页面,记为 A,不要关闭。
这个网页URL,也就是浏览器地址栏的信息,复制到某个地方保存下来,记为 B,这个很重要。
如下图
如果你点开出现下面的情况——
说明你的微信版本太高,最新版的微信内置浏览器,所以无法通过浏览器查看。需要退回到上一个版本的微信,后台回复“微信”,即可下载重新安装
2、开始抓取数据
(1)在前面的 A 网页上,点击鼠标 右键 ——> 审查元素(检查)
可以看到下方界面,如果和图片不一致,说明你的webscraper安装可能出现点问题,可以回看上面的视频演示。
图片下方的一大列信息请忽略,能看到红框标注的 web scraper即可。
(2)点击 Create new sitemap ——> Import Sitemap,如下图。
点击 Import Sitemap 后,可以看到下面界面——
在 Sitemap JSON 右侧输入下面信息(一个字母都不能丢):
{“_id”:”testwechat”,”startUrl”:[“AAAAA“],”selectors”:[{“id”:”total”,”type”:”SelectorElementScroll”,”parentSelectors”:[“_root”],”selector”:”div.weui_media_box”,”multiple”:true,”delay”:”3000″},{“id”:”title”,”type”:”SelectorText”,”parentSelectors”:[“total”],”selector”:”h4.weui_media_title”,”multiple”:false,”regex”:””,”delay”:0},{“id”:”date”,”type”:”SelectorText”,”parentSelectors”:[“total”],”selector”:”p.weui_media_extra_info”,”multiple”:false,”regex”:””,”delay”:0}]}
注意!!上方加红加粗的AAAAA,大家需要替换成自己想要抓取的公众号历史文章界面的网址,这个网址,前面让大家复制保存记为 B了。(忘了的可以上拉看下)
说明你复制信息的时候,没复制全,可以返回检查一下。
Rename Sitemap,就是重新起个名字,你抓的哪个公众号,就取什么最好,做到顾名思义。(也可以不写,默认为 testwechat)
填完点击最下面的 Import Sitemap即可。
(3)开始抓取,点击中间栏 “Sitemap 你起的名字” ——> Scrape。
如下图——
出现下方界面,需要填两个信息,默认即可。
点击“Start scraping”,就是见证奇迹的时刻,
浏览器会弹出一个新窗口,可以看到,这个窗口会自动下拉,直到将公众号的文章全部抓取完毕才会停止,这个过程,你可以去做其他任何事情,但是不要关闭这个弹出窗口。
如果你出现下面这个界面,提示“验证”,卡住不动,说明你没有做上面的修改链接步骤,请回到上面第(2)步。
等到数据抓取完毕,可以看到下面这个界面,点击 “refresh”
一定等抓完再点 refresh
(4)导出excel到电脑上:点击中间栏 “Sitemap 你起的名字” ——> Export data as CSV
如下图——
点击 Download now! ,如下图
至此,我们已经将一个公众号的所有标题,以及发文日期抓取完毕。下载的 CSV 文件可以用excel软件打开。
mac下用 Numbers 打开即可。
如果出现乱码,百度即可解决。
excel里面的内容,大家关注自己需要的即可,无关的列,可以删掉。
这里抓到的只是标题和时间,如果大家通过标题,对某篇文章感兴趣,可以复制标题,到搜狗微信搜索(http://weixin.sogou.com/)即可看到原版内容。
我问了几个windows系统的朋友,发现windows版的微信无法从浏览器打开公众号文章列表,也就是前面的 A 网页,如果能做到这点,那就可以按照上面的方法操作。
可能还有其他方法可以做到这点,windows的朋友可以试下,如果成功了,可以告诉我下。
如果实在不行的话,就找个有mac的朋友帮你抓下,很简单的,要不找明白也行的。
想在俄罗斯干外贸怎么入手,俄罗斯外贸最重要的技能分享
Yandex是俄罗斯使用最广泛的搜索引擎,如果在未来你想打开俄罗斯的外贸市场,那Yandex SEO应该变成公司营销策略的重要组成部分。#俄罗斯外贸##外贸#和Google一样,Yandex不只是一个搜索引擎,他还为俄罗斯、白俄罗斯、哈萨克斯坦等地去提供浏览器、电子邮件、新闻、地图、付费广告和翻译服务。可以理解为是一个...
友链查询站长工具怎么用,保姆级网站友链检测查询教程分享
网站友情链接建设过程中,我们总会遇到一下不讲道德,没有信誉的网站,这些网站会偷偷的把你的链接下链(删除),如果遇到此类情况,我们就必须及时的反制,把他们的链接也删除。所以我们需要养成定期做友链检测,检测友情链接建设的情况。链接少的时候我们可以通过手动查看,如果友情链接比较多,超过10个以上了,那我们就可以通过工具来检测...
幼儿园环创是什么意思,一文了解幼儿园环创的意义和设计原则
什么是环创?说到环创,有许多人不明白是个什么东西,甚至被理解为绿化工程,因为在人们对心中说到环境,首先想到的就是环保绿化。从字面意思理解,环创就是环境创造,不过这个创造是人为地创造,更通俗点说就是利用平面加立体设计,用材料把设计方案装饰出来。不过又与装修不同,装修是注重实用,环创是结合标的进行的整体设计,包括房间、空间...
ppt怎么做视频教程,一看就会的ppt录制教学视频教程
大多数老师讲课都是使用PPT的,但微课最后呈现都是视频形式,所以我们需要把PPT文档转化为视频。本文我们介绍使用PPT直接生成视频的方式:使用PowerPoint导出视频。点击【文件】—【导出】—【创建视频】。再点击【创建视频】—选择文件放置。会在PPT最下面看到,视频制作的进度条。注意:①在创建视频时,可以选择视频的...
北大学生多来自什么家庭,送子上北大的爸爸到北大做鸡蛋灌饼
“送儿子上北大,店铺歇业,喜糖自取”。还记得在自家鸡蛋灌饼店门口挂出横幅的彭爸爸吗?他家的小儿子彭翔宇今年17岁,被北京大学工学院录取。网友羡慕表示:这个歇业通知真豪横!隔着屏幕都能感受到父母的骄傲!彭爸爸又来北大了,他受邀参加北京大学2022国庆校园美食文化节,化身为彭师傅,将家乡美食——鸡蛋灌饼带到北大农园食堂。美...
免费广告发布平台有哪些,最大的3个免费广告发布平台推荐
说起网络广告平台,可能我们首要时间想到的就是一些专业投放广告的平台。然而随着现在用户群体的全面化,曾经的网络广告平台专业性或许毋庸置疑,但是其带来的影响力是不能完全保证的。不想自己的钱白白打水漂就看看下面小编为大家推荐的几个免费的网络广告平台吧!相信你一定会幡然醒悟然后又相见恨晚。一、今日头条我们常常将今日头条作为信息...