排除一个协调器
在安装、激活或一般使用期间,您可能会遇到协调器问题。本文包含可用于解决这些问题的常见故障排除步骤。
一般Orchestartor故障排除
一旦安装了协调器,所有协调器故障排除场景中的第一步应该是运行orch-diagnostics命令。此命令运行一个脚本,该脚本对协调器及其环境执行一系列测试。在许多情况下,此命令将识别问题。
Traceroute失败是**不是**致命的!
的orch-diagnostics命令尝试执行traceroute,以帮助隔离与连接相关的问题。然而,许多环境阻止traceroute。因此,如果orch-diagnostics脚本通过了除traceroute之外的所有测试,它应该被认为是100%成功的测试。
安装
如果在安装协调器时遇到问题,首先检查安装协调器的系统是否满足最低系统要求.
您还应该使用以下虚拟化解决方案之一的最新版本:
- HyperV
- 虚拟框
- VMWare
如果您的系统满足所有要求,而您仍然不能安装协调器,请从/ opt / rapid7 /协调器/ var / log / orchestrator.log对我们的支持团队寻求帮助。
激活
成功安装协调器之后,您将收到一个密钥,必须使用该密钥激活协调器。如果你的钥匙有问题,以下是可能的情况和解决方法。
我没有得到激活密钥
如果您的协调器安装不成功,或者安装的协调器不能与Insight Platform通信,您将得不到激活密钥,因此请检查您的安装是否满足以下要求:dota2必威联赛
- 协调器有一个唯一的名称。不能有多个同名的协调器。
- 您的环境满足网络需求.如果不是,协调器就不能与Insight Platform通信以生成激活密钥。dota2必威联赛
如果在验证协调器满足这些要求后,仍然没有为您生成密钥,联络支持并提供您的协调器细节。
我需要取回我的激活密钥
如果协调器安装成功,并且您收到了激活密钥,但是由于某种原因您无法复制它,那么您可以使用安全shell (SSH)协议检索密钥,以访问协调器的虚拟机(VM)并打印激活密钥。
使用SSH访问协调器之后,使用orch-print-activation命令去拿钥匙。
我不能复制或粘贴我的激活密钥
有些VM解决方案使复制和粘贴变得困难,所以如果你不能复制密钥,你可以下载激活密钥作为. txt文件并从文件中复制密钥:
- 运行
orch-print-activation > ~ / activation.txt在你的虚拟机的终端窗口。 - 将activation.txt文件复制到您的桌面或本地机器。
- 在桌面上打开activation.txt。
- 复制的关键。
- 再次尝试激活协调器。
我的激活密钥失效了
如果您成功地接收到一个激活密钥,但发现在InsightConnect中提交它到您的协调器失败,您可能有以下问题之一:
- 复制粘贴失败:有时,当复制激活键时,剪贴板上会出现额外的或非打印的终端字符。因此,检查您是否捕获了整个密钥,并且没有显示额外的字符。激活键不应该包括空格字符,或者“转义”字符
/ n换行符。大多数文本编辑器都有显示非打印字符的选项,以帮助您做到这一点。 - 激活关键重用:激活键只能一次性使用,所以在成功地使用它激活协调器之后,您不能重用它,即使您删除了与它相关联的协调器——这只会使密钥无效。相反,使用一个新的密钥开始一个新的安装。
如果所有这些都失败了,并且您仍然不能激活协调器,那么您可能需要重置它。重置一个协调器允许您重用现有密钥,但此操作过程可能会产生不良后果,例如凭证丢失,所以除非支持代表建议您这样做,否则我们不建议您这样做。
协调器
在本节中,我们将介绍常见的协调器问题和解决方案。
你可以去设置>协调器查看任何协调器是否有警告或错误,或已停止运行。即使正常的协调器也可能由于CPU、内存或存储使用而出现问题。要保持协调器平稳运行,请定期检查协调器运行状况。
由于禁用DHCP而没有协调器连接
在CentOS中应该启用DHCP,除非您的组织特别禁用了它。如果禁用DHCP,您的机器将没有IPv4地址,协调器将无法进行所需的通信。
为了解决DHCP问题,首先检查你的网络上是否启用了DHCP:
- 在终端窗口中运行
ifconfig. - 在输出中,查找以
inet为ens32接口。如果缺少这一行,你只能看到以inet6,您的网络可能已禁用DHCP。
如果根据组织的需要禁用了DHCP,则需要这样做配置静态IP地址以便协调器连接到。
我的管弦乐队运行得很慢
如果您的协调器运行得很慢,可能是内存或磁盘空间不足。检查协调器的资源利用率,并确保其正常运行。您还应该确保正在运行最新版本的Orchestrator。你可以通过跑步来做到这一点yum更新rapid7-orchestrator在终端窗口中。
我的协调器磁盘空间快用完了
您的协调器可能流量过大,磁盘空间不足。有几个简单的方法可以解决这个问题。
在执行以下任何步骤之前,请停止协调器进程:
- 用docker ps -a检查正在运行的容器。如果您看到容器映射到您确定不再使用的插件,您可以这样做找到容器的docker id,并停止容器。然后,您可以运行一个修剪程序来删除这些容器,并回收一些空间。
- 按照说明运行docker修剪:https://docs.docker.com/engine/reference/commandline/system_prune/
- 确保日志旋转和syslog设置正确管理它们的大小,并在需要时对它们进行调优。您可以使用我们的协调器文件参考信息找到rsyslog和logrotate设置的位置。
我奉命重置我的指挥
重置协调器是一个相当简单的过程,但它将影响您正在使用的任何现有工作流,并使您进入系统的任何凭据失效。这就是为什么我们不建议您重置协调器,除非支持代表建议您这样做。有关凭证如何工作的更多信息,请查看协调器的凭证小节。
如果支持代表指示你重置协调器,下面是运行重置脚本后将会发生的情况:
- 您的协调器安装实际上已被停用,尽管它仍将出现在InsightConnect中。
- 任何未完成处理的正在运行的作业都将处于挂起、不完整状态。必须手动取消这些作业才能清除它们。
- 您现有的工作流将继续运行,并将继续生成作业(对于那些使用API、InsightIDR或InsightVM触发器类型的作业)。如果将这些工作流配置为使用您的重置协调器,那么一旦这些作业使用您的协调器达到操作步骤,它们最终也将进入挂起状态。
- 您输入的任何凭据都可能会失效,在更新工作流时需要重新输入凭据。
- 协调器将生成一个新的激活码,并新生成一组用于管理凭证加密和签名请求的公钥和私钥。有关这些流程的更多信息,请参阅Insight Orchestrator概述中的Orchestrator到云通信一节。
自动化工作流
在本节中,我们将概述一些常见的协调器问题,这些问题会导致自动化工作流或作业出现问题,并提供解决这些问题的步骤。
我的工作流程没有完成,但我没有看到错误
如果您的自动化工作流或作业没有完成,但是您没有看到任何错误,那么您可能遇到了触发器的问题。查看有关的故障排除信息触发器不创建任何自动化看看这能不能解决你的问题。如果没有,这里有一些其他的事情需要考虑:
- 是否更改了您的凭证或权限?如果是,则您的第三方服务提供商和协调器之间的连接可能已经中断。
- 您的工作流是否已被禁用?
- 在您的工作流程的组成中是否存在逻辑问题?
如果你看到“挂着的工作”,这是你的自动化创建的,但从来没有完成,这是有帮助的,建立一个基线信息:
- 问题是什么时候开始的?
- 在此之前自动化工作了多久?
- 所有的自动化系统都挂起了,还是有些完成了,有些没有?
- 自动化系统是挂在同一个地方,还是挂在不同的时间点?
有了这些信息,你就准备好了伸出援助之手寻求建议和帮助。
由于请求超时而挂起的作业
属性在使用Python插件进行RESTful调用时没有指定超时值,这是在构建工作流时可能无意中导致作业挂起的一种非常常见的情况请求图书馆。如果没有超时值,请求可能会挂起很长时间,甚至由于Python和OS网络栈的底层特性而无限期挂起。我们建议您同时指定连接和请求超时,以防止由于请求超时而挂起作业。看到我们的Python 2或3脚本文档为更多的细节。
我设置了一个新的触发器,但它没有自动操作
首先,找到协调器容器id与触发器相关的。
查找触发器的容器ID
如果您很难找到有问题的触发器的协调器容器,那么您可以通过从正在处理的工作流获取触发器ID来缩小搜索范围,然后使用grep命令隔离它并识别它的容器。
有了容器ID后,使用下面的命令获取相关日志以进行进一步的故障排除:Sudo docker日志-f <触发器容器id>
这些日志可能会告诉您有关问题的足够信息,以了解哪里出了问题。例如,通常会看到由于不正确的凭证而很难启动触发器。如果您仍然不能确定问题,您可以将日志提供给支持协助排除故障的代表。
触发器不起作用或操作失败
如果某个触发器不能工作或某个操作失败,调试该问题的最佳方法是获取协调器的docker容器ID,以获取日志并管理或停止有问题的进程。
查找协调器的docker容器ID:
- 确定要查找的容器插件。例如,rapid7 / jira / 1.0.0。
- 运行此示例命令列出所有容器:
sudo docker ps -a | grep X将X替换为插件名称,例如:Sudo docker ps - | grep jira.
容器ID是命令输出中最左边的列。您可以继续使用grep来进一步隔离特定的容器,根据您对grep的熟悉程度
如果你特别在寻找一个触发器,运行以下命令会很有帮助:sudo docker ps -a | grep X | grep触发器
这将进一步将查找范围限定为只查找触发器,这是一个常见的调试过程。
我的自动化系统很好,但现在出错很多
如果您突然在平台上看到失败的自动化,请考虑这些潜在的问题和故障排除步骤。如果你还是不能解决这个问题,联系我们的支持团队来帮助你诊断问题。
第三方的停机时间
有时,第三方部分或完全失败。不幸的是,我们不能保证第三方系统的可用性。但是,如果您开始看到连接失败、超时或其他“无法沟通”的问题,您可以联系第三方服务,询问其产品的健康状况和可能的下一步。
继续失败
InsightConnect提供了一个在失败时继续执行的特性,这样即使部分工作流程失败了,您也可以继续执行工作流程。这允许您构建健壮的流程,预测预期的失败并提供解决方案。
然而,有时工作流的构建依赖于Continue on Failure步骤提供的信息,而工作流仍然失败。例如,如果步骤A允许您在失败时继续,但是步骤B需要步骤A的输出,那么步骤B很可能失败,或者返回一个错误的结果。
解决这个问题最简单的方法就是利用决策的步骤检查“继续失败”步骤是否成功,并围绕这些可能性设计工作流。
更改工作流程
即使是很小的变化也会破坏现有的工作流程。如果您在失败之前对工作流做了任何更改,请仔细检查这些更改,看看它们是否可能导致问题。一些示例包括更改特定步骤的输入,在先前工作的两个步骤之间添加新步骤,或者更改自动决策逻辑。
输入数据的更改
可以设置一个工作流,让它连续几周或几个月摄取数据,然后最终查看导致问题的数据项。虽然很少,但您以前没有考虑到的数据现在已经成为可能,您的工作流需要考虑到这一点。
比较旧的成功作业和失败作业,并确定触发器输入的任何更改是否可能是问题所在
权限的问题
您可能认为,一旦获得了正确的凭证和权限,事情就应该保持稳定,但情况并非总是如此。您的基础凭证可能对出现的每种情况都没有正确的权限。
例如,凭证可能由组织中的其他人拥有。联系他们,看看是否有任何权限或范围发生了更改,或者凭证本身是否仍然有效。
还可能存在您没有权限访问的数据问题。我们通常在基于电子邮件的系统中看到这种情况,其中的权限可能是复杂的和相互关联的。例如,可以访问邮箱,但不能访问所有进入邮箱的项目。与这些系统的管理员密切合作,以确定可能需要哪些权限,以及是否有紧急数据超出这些权限范围。
联络支持
如果你继续和管弦乐编曲家有问题,请联系Rapid7支持错误和协调器信息,我们将帮助您调查。