大数跨境
0
0

不用写一行代码,Excel就能直接爬虫了......

不用写一行代码,Excel就能直接爬虫了...... 数据分析与统计学之美
2024-08-26
0
来源:量子位
家人们,要爬虫——现在用一个电子表格就行了。
一行代码也别写,第三方软件也甭安。
只需在表格里点几下就ok。
不信,你瞧:
就这么两下,网页上的商品信息都有了。

网友看完都惊呆了,码个不停。

一看到这是来自谷歌的产品(Google Sheet,谷歌的“Excel”),大家就立马cue起了微软,问它慌不慌。
还有人称这是在“跨界打击”它。
 扫盲:“巨硬”就是微软,网友给的调侃
好不热闹。

来看具体怎么实现。

详细步骤

以爬亚马逊某个手机产品的商品页为例。
我们先打开谷歌Sheet(网友版即可),新建一个文档。
然后copy一下要爬的网址,粘进去。

剩下的都在Sheet里完成。

我们先列一下要爬的元素,这里依次为:
商品图片-识别码(asin,亚马逊给每个商品生成的唯一标识)-商品名-价格-评分-图片网址。

然后就可以正式开始爬了。

要诀就是一个叫做ImportFromWeb的函数。
它也是个插件,没有的需要先安装一下(安装地址放文末了),然后通过Google Sheet程序的“扩展程序”菜单导入就行。

我们只需把ImportFromWeb函数放进asin那一列,然后第一个参数选中刚刚粘过来的网址,第二个参数把要爬的元素单元格拖一遍(除了“图片”)

稍等个1~2s,价格、商品名等信息就都出来了!

还差图片。

简单~基操~
用IMAGE函数把G3格子里得到的图片网址值给过去就行。

至此,第一个商品页里的东西就爬到了。

唯一麻烦的是,如果还需要爬更多商品的信息,需要把商品网址挨个粘一遍。
然后就没啥了,除了给单元格地址的行标列标加一下绝对引用符“$”
这里可以不学视频,直接一个f4就行。
拖一下,全部搞定!
怎么样?是不是非常方便。

看完整个操作,你也发现了,其实就是谷歌写了个脚本给咱封装好了直接用。

而据官方介绍,这个ImportFromWeb功能还能自动更新爬取到的信息。

而且只要是用JS写的网站都可以爬(基本等于绝大数网站了),每个函数还可支持50个url,以及数千个数据点。
经典书籍介绍

清华大学出版社经典书《Python数据可视化:科技图表绘制,实战多多,感兴趣的朋友推荐入手一本。

《Python数据可视化:科技图表绘制》结合编者多年的数据分析与科研绘图经验,详细讲解Python语言及包括Matplotlib在内的多种可视化包在数据分析与科研图表制作中的使用方法与技巧。


《Python数据可视化:科技图表绘制》分为两部分,共11章,第1部分主要讲解Python语言的基础知识,包括基本语法结构、控制语句、函数、数据处理与清洗等,尤其对Matplotlib、Seaborn、Plotnie库进行较为详细的讲解。第2部分结合Python及其附加包的数据可视化功能,分别讲解类别比较数据、数值关系数据、层次关系数据、局部整体型数据、分布式数据、时间序列数据、多维数据、网络关系数据的可视化实现方法。《Python数据可视化:科技图表绘制》可帮助读者尽快掌握利用Python及可视化库进行科技图表的制作与数据展示。

万水千山总是情,点个 👍 行不行
感谢各位转发点赞

【声明】内容源于网络
0
0
数据分析与统计学之美
免费领10w字"Python知识手册",共400页,后台回复“十万”领取!
内容 1080
粉丝 0
数据分析与统计学之美 免费领10w字"Python知识手册",共400页,后台回复“十万”领取!
总阅读343
粉丝0
内容1.1k