有关webscraper的一些问题-笔记百科

《不用写代码的爬虫课》发布后，有不少朋友来找我抓数据，但是有的朋友对于爬虫不了解，所以造成交流不畅。这篇文章就是分享一些爬虫的基础信息。
这篇文章只针对 web scraper
一、爬虫是什么？爬虫，通俗一点讲，就是让程序帮你统计网页上的数据。
比如，你要统计一个公众号的所以文章标题，如果有 500 篇文章，你手动复制粘贴到 excel 里面，一个标题 10 秒，大概需要1 个多小时。
但是如果会爬虫的话，你只需要设置一下抓取规则，然后程序会帮你抓，大概 1 分钟左右就能做完。如果数据量大，可能需要时间更长一些。
二、爬虫不是什么？爬虫只能抓网页上眼睛能看到的信息（这里指的是 webscraper 的范围）。
爬虫没有搜索功能，没有语言功能，没有数据分析功能，也没有求和功能，也没有排序功能。这些操作可以放到抓取后的 excel 里面操作。
三、怎么确定自己要抓的东西爬虫能完成？注意：这里只针对《不用写代码的爬虫课》
如果你要抓一个东西
你必须提供一个网址（也可以叫链接、或者 URL）。
例如：http://www.zsxq100.com/
你需要在浏览器的地址栏里访问这个页面，看一下，你要抓取的信息，能不能用眼睛看到。
如果能看到，那就能抓，如果看不到，那就抓不了。
四、某某网站能抓不？看第三点。
五、某某 APP 能抓捕？自己搜索一下，这个 APP 有没有网页版。
如果有，返回看第三点。
六、用 webscraper 抓数据，需要翻墙不？抓数据需不需要翻墙，取决于你要抓的网站，需不需要翻墙。
如果你访问的网站，需要fq才能看到内容，那么抓取的时候也就需要fq。反之不用。
比如，抓 Facebook：因为访问Facebook本身就需要fq，所以你抓的时候也需要打开fq软件。
比如，抓知乎：因为访问知乎本身不需要fq，所以你抓的时候也不需要fq。
另：webscraper 安装的话，可以不用翻墙，课程里有讲不用翻墙的安装方法。
七、只能用谷歌浏览器吗？对，我只对谷歌浏览器负责。
虽然有的其他浏览器（QQ浏览器，360浏览器）也能运行 web scraper，但是在我测试过程中，会有一些兼容性问题，会出现一些莫名其妙的错误。
必经不是原生版，出了问题很难分析。
八、能抓微信号、手机号码？参看第三点。
九、学了这个能抓某某网站吗？一句话，网页上能看到的信息，99% 都能抓到。
我不会说那种绝对正确、类似能抓取一切的话，事实上，即使你找一个顶尖的爬虫工程师，他也不敢保证，所有的信息都能抓取。
九、如果要别人帮忙抓取数据，你需要提供的信息必须提供详细信息，否则不予理会
1、要抓取的网址链接。为什么要提供这个，参看第三点。2、要抓取的信息字段，为了不产生歧义，需要截图标注清楚3、如果有多页，要说明抓多少页
举例—— 需求概述：小明要抓取淘宝上关于酸奶的商品信息。需要提供：
网站链接 —— 如何获取？进入淘宝 www.taobao.com，然后搜索“酸奶”，出现的这个链接，就是爬虫需要的链接，结果链接如下： https://s.taobao.com/searchq=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
image.png需要抓取这个页面的所有商品，每个商品需要抓取的信息：
产品名称
价格
购买人数
具体截图如下：
image.png搜索结果一共有 100页，只需要抓取前 5 页即可。
image.pngps:上面是个例子，具体情况，可以根据需求改变。比如抓取的字段不同，或者抓取页数不一样等
十、抓取过程中遇到问题，该怎么解决？课程里面不仅讲了如何抓取，也讲了遇到问题的分析，以及解决思路。
遇到问题，先根据课程里讲的步骤分析，基本是能解决问题的。
十一、为什么我抓亚马逊出错了？我在课程里讲第一个例子的时候，就强调了一个重要点：
先不要抓课程之外的网站，等到把课程里的例子，全部练到不用看教程就能抓取成功的熟练程度，再去抓课程之外的网站
不是我故意为难大家，也不是故作高深。
爬虫课，我是按照由浅极深的顺序讲的，每一节的难度都是慢慢增加，每一节都是针对抓取不同类型的数据，也就是课程里的例子全部练熟，就相当于全网的数据类型，你都可以在这里按照方法参照抓取。
每一节课程里的例子，都是我专门挑选的，是这个类别里面最简单的网站。
为什么要挑最简单的，因为大家都是初学 web scraper，如果一开始就选比较复杂的网站，这样抓起来容易出错，出错的话，人的情绪能会受挫。
等到简单的例子熟练了，后面学习复杂的例子，就会得心应手。
我自己听过 xdite 老师的元学习课，所以在「教」方面，有些心得：人在学习新知识的时候，正反馈是很重要的，还有其他一些小技巧，这里不再赘述。
十二、我的一点个人经验学习“技能型”知识的时候，比如webscraper，不要想着练习一次就能学好，学精。
学习任何技能都会有一个从笨拙到熟练的过程，一开始这错那错，都很正常，这是每个人的必经之路。
那些熟练操作的人，都是经过了千万次练习。
如果错了，也不要慌，删掉这个 Sitemap，仔细按照步骤，重新开始。
第一遍如果成功，你就会对整体有个了解，再练习第二遍，就算是同一个例子，你也需要多练习几次。
不要着急，慢就是快，慢就是快。
十三、为什么要学习 web scraper ？如果让我来分享为什么要学习 web scraper，我想会有 2 个原因。
1、锻炼逻辑、分析问题的能力我以前写过一篇文章没事别想不开去学编程，里面的其他观点我不再赘述，其中有一点：如果你只是想锻炼技术思维，学别的东西也可以锻炼。
我当时写文章的时候，没有想好合适的例子。
这几天，我就突然想到，爬虫课就是一个很好锻炼逻辑能力，锻炼分析问题的能力。
web scraper 是个程序封装的工具，使用的时候，每个步骤都必须很精确。
如何确定要抓取的网页用什么选择器？如何确定网页上的哪些信息是同一个类型？遇到问题，如何采用「控制变量法」分析原因，找到解决方案？
这些分析问题的能力，不只能用在抓取数据，也可以通用到任何其他领域。
不要把爬虫课只当成爬虫课来学。
2、增加一个维度竞争力你有没有过这种经历，一个你很仰慕的大佬，在朋友圈发了一个状态，寻求某种帮助，而你刚刚好能提供这种帮助，因此和大佬有了交集，之后大佬如果有一些有料的信息，也会告诉你……
如果你掌握了一门大多数人不会的技能，就会给你增加一个很大的竞争力。
我不是说只有 web scraper 可以，写文案、PS、营销、设计等等都是。
相比较而言，学 web scraper 性价比最高 ——
会的人少：稀缺度决定价值
学习成本小：容易掌握
点到为止，不再多说，愿者上钩。
十四、什么人不适合学？觉得看一遍就行，不想练习的人
不按照教程走，跳着看的人
课程里讲过的东西，群里不再答疑，不能接受的人
不喜欢思考，只喜欢提问的人
十五、为啥私信不回我如果有问题，可以现在群里交流，帮你解决疑惑的同时，也可以让其他人受益，否则请先发红包。
十六、还有什么要说的吗？这不是一篇课程宣传文章，那些煽动情绪，说明课程利益点的文案，这里没有。我连爬虫课的入口都不放出来。因为找到课程入口本身，就是一道门槛。
无码科技团队发布了一款 Chrome 扩展工具。这个工具用于帮助商家快速发现自己产品介绍里的广告违禁词，已兼容最新版广告法。
检查商品描述中可能违反广告法，或可能导致审核不通过的违禁词和高风险词，且支持图片文字识别。
这是我检测这篇文章的结果：
插件安装需要科学上网，如果无法科学上网，可以后台回复“无码科技”，下载安装包。然后打开浏览器进入：chrome://extensions/页面，把安装包拖进去，拖进去，拖进去，不是双击
如果你觉得学习文章有帮助，可以分享给朋友。
感谢~~~
延伸阅读：
分析了10个公众号5600篇文章2000w字，原来它们用这个词最多！
不写代码，你也可以抓取任意公众号
没事别想不开去编程
1 个方法，让你 100% 赚回知识星球门票

有关webscraper的一些问题

相关推荐

推荐文章

最新文章