NN08 - Performanzanalyse

Kurze Übersicht

Performanzmetriken für Klassifizierungsprobleme

Wahrheitsmatrix (engl. Confusion Matrix)

  • Gibt eine Übersicht über die Anzahl von richtig und falsch klassifizierten Datenpunkten (bei binärer Klassifizierung)
    • TP= # True Positives = Anzahl richtiger 1-Vorhersagen
    • FP= # False Positives = Anzahl falscher 1-Vorhersagen
    • FN= # False Negatives = Anzahl falscher 0-Vorhersagen
    • TN= # True Negatives = Anzahl richtiger 0-Vorhersagen
  • Bei Klassifizierungsproblemen mit N Klassen hat man eine N×N Matrix, die in Position (i,j) die Anzahl der Klasse-j-Beispiele enthält, die als Klasse-i vorhergesagt wurden.
Abbildung 1 - Wahrheitsmatrix bei binärer Klassifizierung

Abbildung 1 - Wahrheitsmatrix bei binärer Klassifizierung

Treffergenauigkeit (engl. Accuracy)

  • Anzahl richtig klassifizierter Datenpunkte, Erfolgsrate (engl. correct rate) Accuracy=TP+TNTP+TN+FP+FN

  • Accuracy vermittelt ein falsches Bild des Erfolges bei unausgewogenen Datensätzen
    Beispiel:

    • Klasse 1 hat 10, Klasse 0 hat 990 Beispiele.
    • Ein Modell, das immer 0 ausgibt, hat 990/1000=0.99 Treffergenauigkeit, ist aber offensichtlich kein gutes Modell!

Precision

  • Positive Predictive Value (PPV)
  • Antwort auf: Von allen positiven Vorhersagen, wie viele sind richtig? Precision=TPTP+FP
  • Wahrscheinlichkeit, dass ein positiv klassifiziertes Beispiel auch tatsächlich positiv ist.
  • Je näher an 1, desto besser.
  • Accuracy of positive predictions.

Recall

  • True Positive Rate, auch Sensitivität (engl. Sensitivity)
  • Antwort auf: Von allen positiven Beispielen, wie viele wurden richtig klassifiziert? Recall=TPTP+FN
  • Wahrscheinlichkeit, dass ein positives Beispiel tatsächlich als solches erkannt wird.
  • Je näher an 1, desto besser.
  • Accuracy of positive examples.

Precision-Recall Trade-off

  • Ein gutes Modell sollte hohe Precision und zugleich hohes Recall haben.
  • Man kann die Precision eines Modells beliebig erhöhen (durch das Vergrößern des Schwellenwertes bei der Klassifizierung), jedoch wird dabei der Recall abnehmen.
  • Genau so kann man den Recall eines Modells beliebig erhöhen (durch das Verkleinern des Schwellenwertes bei der Klassifizierung), jedoch wird dabei die Precision abnehmen.
  • Es gilt ein gutes Trade-off zu finden.
  • Eine Zwei-Zahlen-Metrik erschwert den Entscheidungsprozess bei Evaluierung und Modellauswahl.

F1-Score (Harmonisches Mittel)

  • Fasst Precision (P) und Recall (R) in einer Metrik zusammen (Harmonisches Mittel von P und R): F1Score=21P+1R=2PRP+R
  • Der F1-Score wird nur dann hoch sein, wenn P und R beide hoch sind.
  • Je näher an 1, desto besser.
  • Sehr kleine P und R Werte ziehen den F1-Score sehr stark herunter. In dieser Hinsicht gibt diese Metrik ein akkurates Bild über den Erfolg eines Modells.
Lernziele
  • (K2) Performanzmetriken für die Evaluierung von Klassifizierungsmodellen
  • (K2) Wahrheitsmatrix (engl. Confusion Matrix)
  • (K2) Treffergenauigkeit (engl. Accuracy)
  • (K2) Precision (engl. Precision)
  • (K2) Recall
  • (K2) F1-Score (Harmonisches Mittel)
  • (K3) Berechnung und Deutung von Precision und Recall
  • (K3) Berechnung und Deutung des F1-Scores
  • (K3) Einsatz bei Evaluierung und Auswahl von Modellen