Matriz de confusão

Tabela de contingência 2x2 de onde se avalia performance de um classificador

No campo do Aprendizado de Máquina uma matriz de confusão é uma tabela que permite a visualização do desempenho de um algoritmo de classificação [1] .


Verdade
População totalCondição positivaCondição negativaPrevalência = Σ Condição positivaΣ População totalAcurácia (ACC) = Σ Verdadeiro positivo + Σ Verdadeiro negativo Σ População total
Predito
Condição positiva
prevista
Verdadeiro positivoFalso positivo,
Erro do tipo I
Valor preditivo positivo (PPV), Precisão = Σ Verdadeiro PositivoΣ Condição positiva previstaTaxa de falsa descoberta (FDR) = Σ Falso positivoΣ Condição positiva prevista
Condição negativa
prevista
Falso negativo,
Erro do tipo II
Verdadeiro negativoTaxa de Falsa Omissão (FOR) = Σ Falso negativoΣ Condição negativa previstaValor preditivo negativo (NPV) = Σ Verdadeiro negativoΣ Condição negativa prevista
Taxa de Verdadeiro Positivo (TPR), Revocação, Sensibilidade, probabilidade de detecção, Potência = Σ Verdadeiro positivoΣ Condição positivaTaxa de Falso Positivo (FPR), Fall-out, probabilidade de alarme falso = Σ Falso positivoΣ Condição negativaTeste da razão de verossimilhança positiva (LR+) = TPRFPRRazão de possibilidades de diagnóstico (DOR) = LR+LR−F1 score = 2 · Precisão · RevocaçãoPrecisão + Revocação
Taxa de Falso Negativo (FNR), Taxa de perda = Σ Falso negativoΣ Condição positivaEspecificidade (SPC), Seletividade, Taxa de Verdadeiro Negativo (TNR) = Σ Verdadeiro negativoΣ Condição negativaTeste da razão de verossimilhança negativa (LR−) = FNRTNR


Essa tabela de contingência 2x2 especial é também chamada de matriz de erro[2]. Cada linha da matriz representa instâncias de uma classe prevista enquanto cada coluna representa instâncias da classe real (ou vice versa)[3]. O nome vem do fato que é fácil ver se o sistema está confundindo as duas classes (chamando uma classe como a outra).

É um tipo especial de tabela de contingência, com duas dimensões ("real" e "prevista"), e conjuntos de "classes" idênticos em ambas as dimensões (cada combinação das dimensões e classe é uma variável na tabela de contingência).

Exemplo

Dada uma amostra de 13 fotos, 8 de gatos e 5 de cachorros, onde os gatos pertencem à classe 1 e os cães pertencem à classe 0,

Dados reais = [1,1,1,1,1,1,1,1,0,0,0,0,0],

Suponha que um classificador que distingue entre cachorros e gatos seja treinado. Das 13 fotos examinadas, o classificador faz 8 previsões precisas e erra 5, sendo que 3 gatos são erroneamente previstos como cachorros (primeiras 3 previsões) e 2 cachorros são erroneamente previstos como gatos (últimas 2 previsões).

predição = [0,0,0,1,1,1,1,1,0,0,0,1,1]

Com esses dois conjuntos rotulados (reais e previsões), podemos criar uma matriz de confusão que resumirá os resultados do teste do classificador:

Classificação real
GatoCachorro
Classificação
prevista
Gato52
Cachorro33

Nessa matriz de confusão, das 8 fotos de gatos, o sistema avaliou que 3 eram cachorros e, das 5 fotos de cachorros, previu que 2 eram gatos. Todas as previsões corretas estão localizadas na diagonal da tabela (destacada em negrito), portanto, é fácil inspecionar visualmente a tabela em busca de erros de previsão, pois eles serão representados por valores fora da diagonal. Em termos abstratos, a matriz de confusão é a seguinte:

Classificação real
PN
Classificação
prevista
PVPFP
NFNVN

Onde: P = Positivo; N = Negativo; VP = Verdadeiro Positivo; FP = Falso Positivo; VN = Verdadeiro Negativo; FN = Falso Negativo.

Matriz de Confusão

Em análise preditiva, a matriz de confusão (às vezes também chamada de 'matriz de erro' ou 'tabela de confusão' ) é uma tabela com duas linhas e duas colunas que relata o número de falsos positivos , falsos negativos , verdadeiros positivos e verdadeiros negativos . Isso permite uma análise mais detalhada do que a mera proporção de classificações corretas (precisão). A precisão produzirá resultados enganosos se o conjunto de dados estiver desequilibrado; isto é, quando o número de observações em diferentes classes variam muito. Por exemplo, se houver 95 gatos e apenas 5 cachorros nos dados, um determinado classificador pode classificar todas as observações como gatos. A precisão geral seria de 95%, mas com mais detalhes o classificador teria uma taxa de reconhecimento de 100% para a classe de gatos, mas uma taxa de reconhecimento de 0% para a classe de cães. O F1 Score (ou f-measure) é ainda mais confiável em tais casos, e aqui renderia mais de 97,4%, enquanto remove o viés e produz 0 como a probabilidade de uma decisão informada para qualquer forma de suposição (aqui sempre supondo gato).

Supondo a matriz de confusão acima, a tabela correspondente para a classe gato seria:

Classificação Real
GatoNão-Gato
Classificação
Prevista
Gato5 Verdadeiros Positivos2 Falsos Positivos
Não-Gato3 Falsos Negativos3 Verdadeiro Negativos

A tabela final contém os valores médios de todas as classes combinadas.