webscraper的使用方法,16条新手入门最常见的问题

2022-09-07 21:41 · 小编
A+ A-

《不用写代码的爬虫课》发布后,有不少朋友来找我抓数据,但是有的朋友对于爬虫不了解,所以造成交流不畅。这篇文章就是分享一些爬虫的基础信息。

这篇文章只针对 web scraper

一、爬虫是什么?

爬虫,通俗一点讲,就是让程序帮你统计网页上的数据。

比如,你要统计一个公众号的所以文章标题,如果有 500 篇文章,你手动复制粘贴到 excel 里面,一个标题 10 秒,大概需要1 个多小时。

但是如果会爬虫的话,你只需要设置一下抓取规则,然后程序会帮你抓,大概 1 分钟左右就能做完。如果数据量大,可能需要时间更长一些。

二、爬虫不是什么?

爬虫只能抓 网页上眼睛能看到的信息(这里指的是 webscraper 的范围)。

爬虫没有搜索功能,没有语言功能,没有数据分析功能,也没有求和功能,也没有排序功能。这些操作可以放到抓取后的 excel 里面操作。

三、怎么确定自己要抓的东西爬虫能完成?

注意:这里只针对《不用写代码的爬虫课》

如果你要抓一个东西

  1. 你必须提供一个 网址(也可以叫链接、或者 URL)。

例如:http://www.zsxq100.com/

  1. 你需要在浏览器的地址栏里访问这个页面,看一下,你要抓取的信息,能不能用眼睛看到。

如果能看到,那就能抓,如果看不到,那就抓不了。

四、某某网站能抓不?

看第三点。

五、某某 APP 能抓捕?

自己搜索一下,这个 APP 有没有网页版。

如果有,返回看第三点。

六、用 webscraper 抓数据,需要翻墙不?

抓数据需不需要翻墙,取决于你要抓的网站,需不需要翻墙。

如果你访问的网站,需要fq才能看到内容,那么抓取的时候也就需要fq。反之不用。

比如,抓 Facebook:因为访问Facebook本身就需要fq,所以你抓的时候也需要打开fq软件。

比如,抓知乎:因为访问知乎本身不需要fq,所以你抓的时候也不需要fq。

另:webscraper 安装的话,可以不用翻墙,课程里有讲不用翻墙的安装方法。

七、只能用谷歌浏览器吗?

对,我只对谷歌浏览器负责。

虽然有的其他浏览器(QQ浏览器,360浏览器)也能运行 web scraper,但是在我测试过程中,会有一些兼容性问题,会出现一些莫名其妙的错误。

必经不是原生版,出了问题很难分析。

八、能抓微信号、手机号码?

参看 第三点。

九、学了这个能抓 某某网站吗?

一句话,网页上能看到的信息,99% 都能抓到。

我不会说那种绝对正确、类似能抓取一切的话,事实上,即使你找一个顶尖的爬虫工程师,他也不敢保证,所有的信息都能抓取。

九、如果要别人帮忙抓取数据,你需要提供的信息

必须提供详细信息,否则不予理会

1、要抓取的网址链接。为什么要提供这个,参看第三点。
2、要抓取的信息字段,为了不产生歧义,需要截图标注清楚
3、如果有多页,要说明抓多少页

举例——
需求概述:小明要抓取淘宝上关于酸奶的商品信息。
需要提供:

  1. 网站链接 —— 如何获取?进入淘宝 www.taobao.com,然后搜索“酸奶”,出现的这个链接,就是爬虫需要的链接,结果链接如下:
    https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
  1. 需要抓取这个页面的所有商品,每个商品需要抓取的信息:
  • 产品名称
  • 价格
  • 购买人数

具体截图如下:

  1. 搜索结果一共有 100页,只需要抓取前 5 页即可。

ps:上面是个例子,具体情况,可以根据需求改变。比如抓取的字段不同,或者抓取页数不一样等

十、抓取过程中遇到问题,该怎么解决?

课程里面不仅讲了如何抓取,也讲了遇到问题的分析,以及解决思路。

遇到问题,先根据课程里讲的步骤分析,基本是能解决问题的。

十一、为什么我抓亚马逊出错了?

我在课程里讲第一个例子的时候,就强调了一个重要点:

先不要抓课程之外的网站,等到把课程里的例子,全部练到不用看教程就能抓取成功的熟练程度,再去抓课程之外的网站

不是我故意为难大家,也不是故作高深。

爬虫课,我是按照由浅极深的顺序讲的,每一节的难度都是慢慢增加,每一节都是针对抓取不同类型的数据,也就是课程里的例子全部练熟,就相当于全网的数据类型,你都可以在这里按照方法参照抓取。

每一节课程里的例子,都是我专门挑选的,是这个类别里面最简单的网站。

为什么要挑最简单的,因为大家都是初学 web scraper,如果一开始就选比较复杂的网站,这样抓起来容易出错,出错的话,人的情绪能会受挫。

等到简单的例子熟练了,后面学习复杂的例子,就会得心应手。

没听完课,就去抓课程之外的网站,就相当于学英语,只学了 ABC,然后去做四级题,不可能正确。

即使有一次正确,也是蒙的,但是给自己一个错觉,认为自己已经掌握了全部内容。然后下次蒙错了,就来提问。这时候,我即使回答,你也是一知半解,因为你基础都没搞清楚。

我自己听过 xdite 老师的元学习课,所以在「教」方面,有些心得:人在学习新知识的时候,正反馈是很重要的,还有其他一些小技巧,这里不再赘述。

十二、我的一点个人经验

学习“技能型”知识的时候,比如webscraper,不要想着练习一次就能学好,学精。

学习任何技能都会有一个从笨拙到熟练的过程,一开始这错那错,都很正常,这是每个人的必经之路。

那些熟练操作的人,都是经过了千万次练习。

如果错了,也不要慌,删掉这个 Sitemap,仔细按照步骤,重新开始。

第一遍如果成功,你就会对整体有个了解,再练习第二遍,就算是同一个例子,你也需要多练习几次。

不要着急,慢就是快,慢就是快。

十三、为什么要学习 web scraper ?

如果让我来分享为什么要学习 web scraper,我想会有 2 个原因。

1、锻炼逻辑、分析问题的能力

我以前写过一篇文章 没事别想不开去学编程,里面的其他观点我不再赘述,其中有一点:如果你只是想锻炼技术思维,学别的东西也可以锻炼。

我当时写文章的时候,没有想好合适的例子。

这几天,我就突然想到,爬虫课就是一个很好锻炼逻辑能力,锻炼分析问题的能力。

web scraper 是个程序封装的工具,使用的时候,每个步骤都必须很精确。

如何确定要抓取的网页用什么选择器?
如何确定网页上的哪些信息是同一个类型?
遇到问题,如何采用「控制变量法」分析原因,找到解决方案?

这些分析问题的能力,不只能用在抓取数据,也可以通用到任何其他领域。

不要把爬虫课只当成爬虫课来学。

2、增加一个维度竞争力

你有没有过这种经历,一个你很仰慕的大佬,在朋友圈发了一个状态,寻求某种帮助,而你刚刚好能提供这种帮助,因此和大佬有了交集,之后大佬如果有一些有料的信息,也会告诉你……

如果你掌握了一门大多数人不会的技能,就会给你增加一个很大的竞争力。

我不是说只有 web scraper 可以,写文案、PS、营销、设计等等都是。

相比较而言,学 web scraper 性价比最高 ——

  • 会的人少:稀缺度决定价值
  • 学习成本小:容易掌握

点到为止,不再多说,愿者上钩。

十四、什么人不适合学?

  • 觉得看一遍就行,不想练习的人
  • 不按照教程走,跳着看的人
  • 课程里讲过的东西,群里不再答疑,不能接受的人
  • 不喜欢思考,只喜欢提问的人

十五、为啥私信不回我

如果有问题,可以现在群里交流,帮你解决疑惑的同时,也可以让其他人受益,否则请先发红包。

十六、还有什么要说的吗?

这不是一篇课程宣传文章,那些煽动情绪,只强调课程利益点的文案,这里没有。我连爬虫课的入口都不放出来。因为找到课程入口本身,就是一道门槛。


点赞(0)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1545685@qq.com举报,一经查实,本站将立刻删除。
猜您喜欢

中国箱包出口现状如何2022,中国箱包出口订单已排到明年

受全球通胀压低需求影响,集运市场旺季遇冷,需求不振、库存积压,全球陷入“订单荒”,订单断崖式下跌,主要航线运价一路下行。但是我国这类出口商品却卖爆了,有企业的订单排到了明年四月....箱包出口反弹式增长,企业订单排到明年四月箱包是我国的传统出口商品,随着海外旅游市场恢复,箱包出口也迎来了反弹式增长。浙江平湖是国内三大箱...

0 585 10-13 21:30

网络广告模式有哪些,最有用的4种网络广告模式案例分析

对于互联网用户来说,广告无疑是影响用户体验最重要的因素的,正确的广告推送不仅不会让用户反感,还会让广告真正体现出自己的价值,但是如果广告推送不合理,不仅影响用户体验,而且会让用户逐渐对产品产生反感,最终损害最大的还是产品本身,而微博、知乎、网易云纷纷在评论区开始了广告推送,下面着重讨论一下比较成功的互联网公告模式。1....

0 782 10-08 15:45

如何管理时间提高效率的方法,80%人都不会管理自己的时间

别老想着管理时间,先学会管理自己李笑来在《把时间当做朋友》这本书中讲了一个观点:时间是不可能被管理的,你能管理的只有你自己。为什么说时间是不可能被管理的?首先我们改变不了时间,其次问题的根源其实是在自己身上,所以我们应该管理的是自己而非时间。如何用管理自己替代管理时间呢?开启自己的心智,和时间成为朋友,运用积累的力量去...

0 902 09-07 16:59

如何售卖自己的创意,4种创意方法让你的产品一炮而红

天是信息爆炸的时代,有很多非常好产品,但因为广告创意不够,有时候消费者就是感觉不到。怎么才能让人注意到你产品,并且看了就想买呢?广告人关健明老师写了一篇文章,总结了四种创意方法。第一点,雇佣高手,把产品玩出专业感。举个例子,美国有一个洗衣粉的广告,找了最好的化学家,教大家怎么用这种洗衣粉洗掉12种污渍,有的是先泡冷水再...

0 829 10-14 11:30

老人要不要帮忙看孙子,专家称超94%老人仍在养育孙辈

“以前说‘人活七十古来稀’,前些年说‘人活八十不稀奇,人活九十古来稀’,现在的新口号是‘人活百岁古来稀’。”9月27日,北京师范大学中国公益研究院院长王振耀在盘古智库老龄社会研究院和老龄社会30人论坛主办的专题研讨会上表示,随着老年节律发生变化,退休以后的生命还有30年之久,需要重新定义中国老龄社会,建立支持积极老龄社...

0 961 10-10 20:41

转介绍营销方案有哪些,让老客户抢着帮你转介绍的7大技巧

常用的老带新方式一共有7种方法:第1种:母子卡比如,免费送高端会员500元充值卡+5张100元充值卡。5张100元的自己不能用,需要转给朋友。只要有3个朋友来店激活,自己的500元也同时被激活。先让消费者有所得,但是如果不转赠朋友激活,那就是损失,大部分人的心理是“厌恶损失”的,这样就造成了老带新,但是这种模式必须要算...

0 521 10-02 21:25
关注我们
在线咨询
返回顶部