Inteligência artificial para operações de TI

Inteligência artificial para operações de TI (AIOps) é uma categoria do setor de aprendizado de máquina para tecnologia de análise de aprendizado de máquina que aprimora a análise de operações de TI. AIOps é a sigla de operações de Inteligência artificial.[1] Tais tarefas de operação incluem automação, monitoramento de desempenho e correlações de eventos, entre outras.[2][3]

Existem dois aspectos principais de uma plataforma AIOps: aprendizado de máquina e big data. Para coletar dados observacionais, que podem ser encontrados dentro de uma plataforma de big data, uma estratégia de aprendizado de máquina e análise de dados é implementada em relação aos dados de TI combinados.[4]

O objetivo do AIOps, primariamente, é reduzir o custo operacional das empresas,[5] receber insights contínuos que fornecem correções e melhorias contínuas por meio da automação. É por isso que o AIOps pode ser visto como CI/CD para as principais funções de TI.[6]

Dada a natureza inerente das operações de TI, que está intimamente ligada à implantação na nuvem e ao gerenciamento de aplicativos distribuídos, o AIOps tem levado cada vez mais à união de aprendizado de máquina e pesquisa em nuvem.[7][8]

Processo

Os dados normalizados são adequados para serem processados por meio de algoritmos de aprendizado de máquina para reduzir automaticamente o ruído e identificar a provável causa raiz dos incidentes. A principal saída desse estágio é a detecção de qualquer comportamento anormal de usuários, dispositivos ou aplicativos.[9]

A redução de ruído pode ser feita por vários métodos, mas a maioria das pesquisas na área aponta para as seguintes ações:[10]

  1. Análise de todos os alertas recebidos;
  2. Remova duplicatas;
  3. Identifique os falsos positivos;
  4. Detecção e análise precoce de anomalias e falhas.

Detecção de anomalias - outra etapa em qualquer processo de AIOps é baseada na análise do comportamento anterior de usuários, equipamentos e aplicativos. Qualquer coisa que se afaste dessa linha de base de comportamento é considerada incomum e sinalizada como anormal.[8][7]

A determinação da causa raiz geralmente é feita passando os alertas recebidos por meio de algoritmos que levam em consideração eventos correlacionados, bem como dependências de topologia. Os algoritmos nos quais a IA está baseando seu funcionamento podem ser influenciados diretamente, essencialmente por "treiná-los".[10]

Uso

Um uso muito importante das plataformas AIOps está relacionado à análise de conjuntos de dados grandes e desconectados, como os dados do Johns Hopkins Hospital sobre a COVID-19 publicados no GitHub.[11] Os dados neste exemplo são extraídos de um grande número de bancos de dados não normalizados - dados agregados (10 fontes), dados regionais dos EUA (113 fontes) e dados fora dos EUA (37 fontes), que são inutilizáveis considerando o tempo de resposta de emergência necessário pelos modelos tradicionais de análise.[12]

Geralmente, as principais áreas de uso das plataformas e princípios AIOps sãoː[12]

Referências