八达通数据采集器的内置功能有哪些?

章鱼数据采集器内置函数很多,一时半会难以完成。只能根据你的实际需求来使用,满足你的需求就够了。其他功能对你来说都是多余的,但是你慢慢研究就会发现它有多强大,什么都能做!处处给你惊喜。

让我简单说一下:

1入门词汇介绍

1.1.1整数

积聚

分系统是支付八达通增值服务的一种方式。其主要用途包括:通过Octopus collector采集导出数据,在规则市场下载规则,在数据市场下载数据包。不同的帐户类型在中可用

使用上述增值业务时会有不同的收费策略。具体的收费策略和区别在后面的版本说明中详细解释。积分可以通过官方购买八达通专业版或旗舰版每月给予,也可以

可以单独购买积分,也可以通过关注、签到、分享规则、关注微信、绑定社交账号等方式获得积分。

1.1.2法则

Rule是Octopus用来按照人工操作流程配置程序的程序规则。配置软件后,您可以根据您配置的规则而不是手动步骤来收集数据。

1.1.3云加速

Octopus系统采用分布式集群部署,每个集群由大量的云节点组成,单个节点的收集能力相当于一台PC。通过八爪鱼后台的版本资源分配策略,分配多少云节点资源可以享受数倍加速,高版本的账号加速次数更高。

1.1.4云优先级

如果多个用户* * *共享一个云集群的资源,那么集群的规模是有上限的。如果同时向云集群提交太多任务,导致资源拥塞,那么Octopus系统会根据不同的用户账号版本进行默认排序,版本高优先级高的优先获得资源分配的权益。暂时没有分配资源的任务将被排队。

1.1.5网址

URL是指正常网站的网址。

1.1.6单机采集

单机采集是指不占用云集群的资源,只能通过章鱼客户端所在的PC工作。工作过程中,计算机和软件都需要运行,停电或断网都会导致数据采集任务的中断。

1.1.7云采集

采集是指使用Octopus提供的服务器集群工作,7*24小时工作,客户端完成任务设置并提交给云服务进行云采集后即可关闭。

软件,关电脑离线采集,真正实现无人值守。另外,云采集可以通过云服务器集群的分布式部署模式提高采集效率,多个节点可以同时工作。

有效避免各种网站的IP屏蔽策略。

1.1.8定时采集

定时采集是指用户在设置八达通的采集规则时,定时启动采集程序。

1.1.9 URL循环

URL循环是指设置octopus在已建立的URL中循环收集。

自动导出1.1.10

自动导出意味着用户设置导出。

1.1.1 Cookie

1)

曲奇出生了

当用户打开浏览器发出页面请求时,web服务器只是简单地响应,然后关闭与用户的连接。因此当用户向web服务器发起打开网页的请求时,

等等,不管是不是第一次打开同一个网页,web服务器都会把这个请求当作第一次,这样的缺陷可想而知,比如每次打开登录页面都要输入用户。

名称和密码。为了弥补这个缺陷,Cookie应运而生。

2) cookie概述

Cookie是服务器临时存储在您计算机上的一段信息,以便服务器可以识别您的计算机。当您浏览网站时,web服务器会先向您的计算发送少量数据。

在飞机上,cookie会帮你记录你在网站上输入的文字(如用户名和密码)等操作。下次你打开同一个网站。web服务器将首先查找它。

留下的cookie信息,如果有的话,会根据cookie的内容判断用户,给你发送特定的web内容。

饼干是如何工作的

1.1.12 XPATH

XPATH:它是一种路径查询语言。简单来说,就是用一个路径表达式找到我们需要的数据位置。

XPATH是专门用来在XML中沿路径查找数据的,但是Octopus Collector中有一套针对HTML的XPATH引擎,使得直接通过XPATH准确查找定位网页中的数据成为可能。

1.1.13 HTML

1)

HTML概念

HTML:超文本标记语言是一种用来描述网页的语言。主要用于控制数据的显示和外观。HTML文档也称为网页。

2) HTML结构

一个完整的HTML文件至少包括

符号,这些标签是成对的,开始的标签是

设置页面的背景颜色和图像。

2章鱼基本流程教程

2.1打开网页

该步骤根据设置的URL打开网页,一般是网页采集过程的第一步,用于打开指定的网站或网页。如果有多个相似的网站需要分别打开来执行相同的收集过程,那么它们应该作为第一个子步骤放在循环内部。

1)网页地址

网址一般可以从IE等网页浏览器的地址栏复制,比如:

2)使用当前循环项

与循环步骤结合使用,用于重复打开多个相似的网页,然后执行同一组过程。在循环中打开网页时,它应该是循环步骤的第一个子步骤。如果勾选此项,则不需要手动设置网页地址,网页地址会自动显示循环设置的URL列表的当前循环项。

3)阻止弹出窗口

用于阻止网页上的弹出广告。如果打开的网页偶尔会变成另一个广告页面,您可以使用此选项来阻止广告页面弹出。

4)超时

加载网页之前等待的最长时间。如果网页打开缓慢或者长时间打不开,进程最多等待指定的超时,然后不管网页是否加载都直接执行下一步。尽量避免设置过长的超时,因为这会影响采集速度。

5)滚动到底部

打开网页后,个别网页不会显示所有数据。您需要滚动鼠标滚轮或将滚动条拖动到底部来加载未显示的数据。使用此选项可以在页面加载后滚动到底部。

6)激活重试

如果网页没有成功打开预期页面,如显示服务器错误(500)、访问频率过快等。,或者跳转到正常执行时不应出现的其他页面,可以使用该选项重试,但必须配合以下重试参数。请注意,以下任何判断都将导致重试。

7)结果页面的URL包括

如果出现的页面的URL中总是出现一个特殊的字符串,比如500.htm通常出现在找不到页面的时候,你可以用这个选项判断期望的页面没有打开,需要再试一次。

8)结果页面文本包含

如果页面文本中总是出现特殊字符串,比如“访问频率过快”,可以使用该选项判断期望的页面没有打开,需要重试。

9)结果页面文本不包含

如果正常打开一个网页,会出现一个特殊的字符串,但不正常打开时不会出现,可以判断没有打开预期的页面,需要重试。

10)最大重试次数

为了避免无限制的重复尝试,请使用此选项来限制重复尝试的最大次数。如果重试次数达到最大允许次数,但仍然失败,该过程将停止重试并继续下一步。

11)重试时间间隔

两次重试之间的等待时间,一般来说,当打开网页出现错误时,很有可能立即重试也是同样的错误,如果等待得当可能会成功打开期望的网页,但要尽量避免设置过长的等待时间,因为这样会影响采集速度。

2.2点击元素

这一步就是在网页上的指定元素上点击鼠标左键,比如点击按钮,点击超链接等等。

1)使用当前循环项。

比赛

使用循环步骤反复点击循环中设置的多个元素,适用于循环单个固定元素、循环固定元素列表和循环可变元素列表。

如果选中该选项,则不需要设置被点击的元素,被点击的元素会自动显示该循环设置的当前循环项。当使用此选项时,它应该用作循环步骤的子步骤,但不一定是第一个子元素。

2)在新标签页中打开

诸如

如果您希望在单击元素时在新选项卡而不是当前页面中打开该元素,请选中此选项。

一般情况下,当需要循环打开一个页面上的多个超链接时,需要勾选此选项来保留列表页,以便点击列表页上的下一个超链接;但是如果你循环点击下一页,

不要选中此选项来打开当前页面的下一页。

3)滚动到底部

单个网页在加载后不会显示所有数据。您需要滚动鼠标滚轮或将滚动条拖动到底部来加载未显示的数据。加载页面后,使用此选项滚动到底部。

4)异步加载数据

异步加载,也称为Ajax,是一种无需重新加载网页即可刷新本地数据的技术。因此,该进程无法检测网页加载的完成,因此无法决定何时执行下一步。使用此选项,流程将在等待设置的超时后默认数据已加载,然后继续执行后续流程步骤。此选项需要与异步加载超时结合使用。

5)异步加载超时

等待异步加载完成。单击元素后,流程将开始计时。达到超时期限后,将执行下一个流程步骤。该选项需要与异步加载结合使用。通常,使用此选项时,无法勾选“在新标签页中打开”。

6)激活重试

如果网页没有成功打开预期页面,如显示服务器错误(500)、访问频率过快等。,或者跳转到正常执行时不应出现的其他页面,可以使用该选项重试,但必须配合以下重试参数。请注意,以下任何判断都将导致重试。

7)结果页面的URL包括

如果出现的页面的URL中总是出现一个特殊的字符串,比如500.htm通常出现在找不到页面的时候,你可以用这个选项判断期望的页面没有打开,需要再试一次。

8)结果页面文本包含

如果页面文本中总是出现特殊字符串,比如“访问频率过快”,可以使用该选项判断期望的页面没有打开,需要重试。

9)结果页面文本不包含

如果正常打开一个网页,会出现一个特殊的字符串,但不正常打开时不会出现,可以判断没有打开预期的页面,需要重试。

10)最大重试次数

为了避免无限制的重复尝试,请使用此选项来限制重复尝试的最大次数。如果重试次数达到最大允许次数,但仍然失败,该过程将停止重试并继续下一步。

11)重试时间间隔

两次重试之间的等待时间,一般来说,当打开网页出现错误时,很有可能立即重试也是同样的错误,如果等待得当可能会成功打开期望的网页,但要尽量避免设置过长的等待时间,因为这样会影响采集速度。

2.3输入文本

在这一步中,在输入框中输入指定的文本,如输入搜索关键字、输入账号等。

将设定的文本输入到网页上的输入框中,例如在使用搜索引擎时输入关键词。

2.4提取数据

此步骤根据数据提取模板的配置从网页中提取数据,也可以配置为提取网址、网页标题或生成一些数据,如当前时间。

1)抓取模板

此步骤根据数据提取模板的配置从网页中提取数据,也可以配置为提取网址、网页标题或生成一些数据,如当前时间。

2)姓名

为捕获的数据字段命名,如新闻标题和新闻文本。

3)提取的数据

从网页中提取的数据将在本专栏中显示捕获的示例。

4)描述

关于此数据字段的一些描述性信息。

5)使用当前循环项

比赛

结合循环步骤,用于从循环中的多个元素集合中重复提取数据,适用于循环单个固定元素、循环固定元素列表和循环可变元素列表。

如果选中此选项,将根据抓取规则从循环设置的元素中提取样本数据。使用此选项时,数据提取步骤应作为循环步骤的子步骤,但不一定是第一个子元素。

2.5周期

1)该步骤用于重复执行一系列步骤,根据配置不同支持多种模式。

循环修复单个元素,如在每个页面中单击下一步按钮;

2)循环固定列表,如循环处理页面中指定的多个元素;

3)循环变量列表,在需要循环处理多个页面,但每页要处理的元素数量不固定时使用;

4)循环URL列表,主要用于循环打开一批指定URL的网页,然后执行相同的处理步骤。

1)循环注意事项

1)元素在IFRAME中。

如果循环中的元素集在IFRAME中,请选中此框并在下面的IFAMEXPah中填写IFRAME的XPATH。

2)IFAMEXPah

元素所在的IFRAME的路径。此设置仅在选中“IFRAME中的元素”时生效。

3)固定元件

循环地对一个元素执行特定的操作,比如点击下一页,向下滚动下拉列等。当翻到最后一页或下拉列表到达最后一项时,当前循环将自动结束。

4)固定元素列表

对列表中的元素逐个执行特定的操作,比如在循环中单击,从中提取数据,将鼠标悬停在元素上。当所有元素被循环时,当前循环将自动结束。

5)动态元素列表

当元素列表不固定时,可以指定一个动态路径(多个元素符合这个路径,即可以根据这个路径定位多个元素),系统会先根据指定的路径找到一个元素列表,然后执行与'固定元素列表'相同的操作。

6) URL列表

用打开网页的功能,指定一个URL列表,并确保在循环中打开网页的使用被勾选,这样就可以逐个打开URL列表中的链接。

7)循环执行的次数等于

当循环执行了指定的次数后,退出循环。

2.6双下拉列表

基础

Step用于切换下拉列表。

1)从期权订单/到期权订单

默认为空,意思是从下拉列表的第一个顺序切换到最后一个,但是有时候需要跳过第一个选项,从第二个或者中间的某个地方切换下拉列表。

使用这两个选项来控制切换的开始和结束顺序。例如,假设有五个下拉选项,您需要从第二个顺序切换到第四个顺序,则“从选项顺序”设置为2,“到”

选项顺序”设置为4。

2)跳过值/至值

默认为空,表示下拉列表根据设置依次切换。但是,如果在切换过程中需要跳过某个下拉项,您可以使用此设置来控制跳过的范围。

例如,假设下拉列表中有五个选项,值分别为10、11、12、13和14,如果需要跳过12,则将跳过值设置为14。

Over值是12,To值设置为13。

3)使用当前循环项

与循环步骤一起使用,将重复循环中的指定下拉列表切换到下一个选项。

4)异步加载数据

异步加载又称Ajax,是一种无需重新加载网页就能刷新本地数据的技术,因此进程无法检测到网页加载的完成,因此无法决定何时执行下一步。

使用此选项,流程将等待设定的超时时间,并且默认数据已经加载,以便继续后续的流程步骤。此选项需要与异步加载超时结合使用。

5)异步加载超时

等待异步加载完成。单击元素后,流程将开始计时。达到超时期限后,将执行下一个流程步骤。该选项需要与异步加载一起使用。

6)激活重试

如果网页没有成功打开预期页面,如显示服务器错误(500)、访问频率过快等。,或者跳转到正常执行过程中不应出现的其他页面,可以使用此选项重试。

但是,它必须使用以下重试参数来执行。请注意,以下任何一种判断情况都会导致重试。

7)结果页面的URL包括

如果出现的页面的URL中总是出现一个特殊的字符串,比如500.htm通常出现在找不到页面的时候,你可以用这个选项判断期望的页面没有打开,需要再试一次。

8)结果页面文本包含

如果页面文本中总是出现特殊字符串,比如“访问频率过快”,可以使用该选项判断期望的页面没有打开,需要重试。

9)结果页面文本不包含

如果正常打开一个网页,会出现一个特殊的字符串,但不正常打开时不会出现,可以判断没有打开预期的页面,需要重试。

10)最大重试次数

为了避免无限制的重复尝试,请使用此选项来限制重复尝试的最大次数。如果重试次数达到最大允许次数,但仍然失败,该过程将停止重试并继续下一步。

11)重试时间间隔

两次重试之间的等待时间,一般情况下,当打开网页出现错误时,很可能立即重试也是同样的错误,如果等待得当,有可能成功打开预期的网页,但应尽量避免设置过久。

等待时间,因为这样会影响采集速度。

2.7条件分支

这一步将从左到右选择第一个符合条件的分支并执行它。

1)总是

不设置决策条件,分支始终满足执行条件。

2)当页面包含文本时

当指定的文本包含在页面中时,分支满足执行条件。

3)当页面包含元素时

当页面包含指定的元素时,分支满足执行条件,并与元素XPATH结合使用。

4)元素XPATH

决策条件元素的XPATH路径

5)在IFRAME中

如果确定条件元素在IFRAME中,请检查此项,并在下面的IFAMEXPah中填写IFRAME的XPATH。

6)IFAMEXPah

元素所在的IFRAME的路径。此设置仅在选中“IFRAME中的元素”时生效。

2.8鼠标悬停

此步骤用于将鼠标悬停在指定元素上。

1)使用当前循环项。

与循环步骤一起使用,将鼠标反复悬停在循环中指定的元素上,然后执行以下过程。

2) Ajax加载数据

埃阿斯

也称为异步加载,是一种无需重新加载网页即可刷新本地数据的技术,因此进程无法检测到加载网页的完成,无法决定何时执行下一步。

当鼠标悬停在一些元素上时,许多网页会异步添加一些数据,并在页面上显示出来。使用该选项,进程将等待设置的超时和默认数据已被加载,以便继续后续的执行。

流程步骤。此选项需要与异步加载超时结合使用。

3)异步加载超时

等待异步加载完成。单击元素后,流程将开始计时。达到超时期限后,将执行下一个流程步骤。该选项需要与异步加载一起使用。

2.9如何下载采集规则

为了避免重复配置收集规则,八达通收集器内置了规则市场,用户可以共享配置的收集规则并互相帮助。

在规则市场下载规则的好处是显而易见的,你不必花时间研究和配置收集过程。很多网站的收藏规则都可以在规则市场搜索到,下载运行后即可收藏。

八达通收集器需要下载规则。具体操作步骤是:打开章鱼收集器->;收藏规则->;规则市场。

3.0如何使用规则

1)

使用从规则市场下载的规则

通常,从规则市场下载的规则是带有。otd后缀,下载的规则文件会在以后的版本中自动导入。在以前的版本中,您需要手动导入下载的规则文件。

手动导入模式:双击八达通规则文件(。OTD)打开导入向导,或者打开octopus collector快速启动-& gt;

导入规则,然后按照向导提示导入规则。但有时会下载到后缀为的压缩文件中。压缩文件包含多个。otd规则文件解压后,所以需要先解压再导入。

2)使用接收到的规则

通过电子邮件或其他即时通讯软件接收的规则可以参考上一节中的说明手动导入。