

亿信i@Report中的网络抓数利器

亿信华辰

2017-11-14

导读：论数据抓取的价值与使用

我们为神马做数据抓取？

困扰我们的不是信息匮乏，而是信息提取！

在当今互联网络时代，信息如同大海般没有边际，各行各业以前所未有的速度生产着大量的丰富的数据信息。我们获取信息的方法已经发生改变：从传统的翻书查字典，继而变成通过搜索引擎进行检索。

今天，困扰我们的问题不是信息匮乏，而是信息提取。因此，提供一个能够自动在互联网上抓取数据，并能自动分析存储的工具有非常重要的意义。

信息更新之快，我们该如何及时更新数据？

我们通过互联网网站上所获得的信息，通常是通过网页表格的形式所展现的，但计算机需要针对网页进行自动识别，分析数据的结构，去除网页的格式，以结构化的形式将数据提取并保存起来。

互联网网站上的信息随时可能更新，比如金融证券市场价格数据，数据的更新频率达到分钟、秒的级别。

数据提取无法通过人工方式操作，我们需要能够定时计划执行的数据抓取工具。

i@Report5.1中的网络抓数利器

i@Report5.1作为通用的数据采集报表平台，内置了强大的数据抓取通用解决方案，帮助你在网络上抓取有价值的数据。

i@Report5.1数据抓取功能可以从指定的网页地址提取表格数据，分析数据结构并自动生成相应的报表任务，通过计划任务方式定期从网页中获取数据存储到该任务中。

这网络抓数利器该怎么用？

i@Report5.1数据抓取功能基于用户自定义的抓取方案。

抓取方案新建的第一步配置要抓取的网页地址，根据关键字识别到有效的数据表格并显示出来，进而分析网页上的数据结构。这里的关键字指的是目标表格的表头文字、表格前面的文字用于协助定位表格。

配置好抓取地址和关键字之后，点击界面上的测试按钮，会根据默认的抓取规则，从目标地址中将匹配的表格标签中的内容抓取出来重新渲染，不依赖于网页样式。

在网页上的表格无明显关键字或者有多个同样标题的表格时，可以考虑使用高级功能中设置表格的ID来定位表格。

一般而言，网页中的大量数据都是通过分页形式呈现的，高级功能中支持使用分页参数设置获取目标站点的多页数据抓取，甚至可以配置从第几页抓取到第几页，以及对于抓取到的重复数据如何处理等等。

有的网页站点需要用户登录后才能进行访问网页，比如在i中抓取BI中的数据，这种情况咋么办？

不要紧，数据抓取方案中还支持登录设置！您可以配置登录要使用的用户名密码等信息到抓取方案中，抓取时系统会帮您自动登录。

完成这些以后，我们可以通过配置抓取频率将抓取方案作为计划任务定期执行，这样您就完全不用值守在电脑旁苦巴巴的等着网站更新数据了，到了您设置的时间点系统会自动完成抓取任务的。

好了，到这里数据抓取方案就配置完成了，保存以后您就可以高枕无忧了。说不准在您一边看着新闻一边喝着咖啡的时候，网站刚刚发布的新数据已经跑进了您的数据库！

【声明】内容源于网络

亿信华辰

领先的数据分析和数据治理软件厂商 | 中国数据治理解决方案市场第一 | 数据资产管理标杆厂商 | Data Agent | 数据中台

内容 886

粉丝 0

亿信华辰领先的数据分析和数据治理软件厂商 | 中国数据治理解决方案市场第一 | 数据资产管理标杆厂商 | Data Agent | 数据中台

总阅读2.4k

粉丝0

内容886