Inteligência artificial para operações de TI

Inteligência artificial para operações de TI (AIOps) é uma categoria do setor de aprendizado de máquina para tecnologia de análise de aprendizado de máquina que aprimora a análise de operações de TI. AIOps é a sigla de operações de Inteligência artificial.^[1] Tais tarefas de operação incluem automação, monitoramento de desempenho e correlações de eventos, entre outras.^[2]^[3]

Existem dois aspectos principais de uma plataforma AIOps: aprendizado de máquina e big data. Para coletar dados observacionais, que podem ser encontrados dentro de uma plataforma de big data, uma estratégia de aprendizado de máquina e análise de dados é implementada em relação aos dados de TI combinados.^[4]

O objetivo do AIOps, primariamente, é reduzir o custo operacional das empresas,^[5] receber insights contínuos que fornecem correções e melhorias contínuas por meio da automação. É por isso que o AIOps pode ser visto como CI/CD para as principais funções de TI.^[6]

Dada a natureza inerente das operações de TI, que está intimamente ligada à implantação na nuvem e ao gerenciamento de aplicativos distribuídos, o AIOps tem levado cada vez mais à união de aprendizado de máquina e pesquisa em nuvem.^[7]^[8]

Processo

Os dados normalizados são adequados para serem processados por meio de algoritmos de aprendizado de máquina para reduzir automaticamente o ruído e identificar a provável causa raiz dos incidentes. A principal saída desse estágio é a detecção de qualquer comportamento anormal de usuários, dispositivos ou aplicativos.^[9]

A redução de ruído pode ser feita por vários métodos, mas a maioria das pesquisas na área aponta para as seguintes ações:^[10]

Análise de todos os alertas recebidos;
Remova duplicatas;
Identifique os falsos positivos;
Detecção e análise precoce de anomalias e falhas.

Detecção de anomalias - outra etapa em qualquer processo de AIOps é baseada na análise do comportamento anterior de usuários, equipamentos e aplicativos. Qualquer coisa que se afaste dessa linha de base de comportamento é considerada incomum e sinalizada como anormal.^[8]^[7]

A determinação da causa raiz geralmente é feita passando os alertas recebidos por meio de algoritmos que levam em consideração eventos correlacionados, bem como dependências de topologia. Os algoritmos nos quais a IA está baseando seu funcionamento podem ser influenciados diretamente, essencialmente por "treiná-los".^[10]

Uso

Um uso muito importante das plataformas AIOps está relacionado à análise de conjuntos de dados grandes e desconectados, como os dados do Johns Hopkins Hospital sobre a COVID-19 publicados no GitHub.^[11] Os dados neste exemplo são extraídos de um grande número de bancos de dados não normalizados - dados agregados (10 fontes), dados regionais dos EUA (113 fontes) e dados fora dos EUA (37 fontes), que são inutilizáveis considerando o tempo de resposta de emergência necessário pelos modelos tradicionais de análise.^[12]

Geralmente, as principais áreas de uso das plataformas e princípios AIOps sãoː^[12]

Automação de tarefas (DevOps)
Plataformas de aprendizado de máquina
Realidade aumentada
Simulações baseadas em agentes
Internet das coisas (IoT)
Hardware otimizado para IA
Geração de linguagem natural
Plataformas de dados de streaming
BI conversacional e análises

Referências

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]