Annahme einer logistischen Regression

Was sind die Annahmen der logistischen Regression?

Lernen Sie, zu meistern logistische Regression Annahme, die es Ihnen ermöglicht, genaue und zuverlässige Modelle für effektive Datenanalyse und Vorhersage.

Erfolgsfaktoren

  • Die binäre logistische Regression analysiert abhängige Variablen mit zwei Kategorien wie Erfolg oder Misserfolg.
  • Der Box-Tidwell-Test bewertet die Linearität der Logit-Annahme in logistischen Regressionsmodellen.
  • Die Vermeidung von Multikollinearität ist für stabile Schätzungen und interpretierbare Ergebnisse von entscheidender Bedeutung.
  • Zeitreihen- oder Clusterdaten können die Annahme der Unabhängigkeit der Beobachtungen in Frage stellen.
  • Die Einhaltung logistischer Regressionsannahmen gewährleistet genaue und zuverlässige Modellvorhersagen.

Die logistische Regression ist eine weit verbreitete statistische Technik zur Modellierung der Beziehung zwischen einer binären oder kategorialen abhängigen Variablen und einer oder mehreren unabhängigen Variablen.

Diese leistungsstarke Methode findet in verschiedenen Bereichen Anwendung, darunter in der medizinischen Forschung, in den Sozialwissenschaften und in der Wirtschaft.

Um jedoch die Genauigkeit und Zuverlässigkeit logistischer Regressionsmodelle sicherzustellen, müssen bestimmte zugrunde liegende Annahmen erfüllt sein.

In diesem Artikel konzentrieren wir uns auf die Annahmen der logistischen Regression.

Arten der logistischen Regression

Es gibt drei Arten der logistischen Regression, basierend auf der Art der abhängigen Variablen:

Binäre logistische Regression: Bei der binären logistischen Regression hat die abhängige Variable nur zwei mögliche Kategorien oder Ergebnisse. Diese Kategorien werden normalerweise als 0 und 1 dargestellt. Diese Art der logistischen Regression wird verwendet, wenn das Ziel darin besteht, die Wahrscheinlichkeit, dass eine Beobachtung zu einer der beiden Kategorien gehört, auf der Grundlage einer oder mehrerer unabhängiger Variablen vorherzusagen.

Multinomiale logistische Regression: Bei der multinomialen logistischen Regression weist die abhängige Variable drei oder mehr ungeordnete Kategorien auf. Diese Art der logistischen Regression wird verwendet, wenn das Ziel darin besteht, die Wahrscheinlichkeit, dass eine Beobachtung zu einer der mehreren Kategorien gehört, auf der Grundlage einer oder mehrerer unabhängiger Variablen vorherzusagen.

Ordinale logistische Regression: Bei der ordinalen logistischen Regression weist die abhängige Variable drei oder mehr geordnete Kategorien auf. Diese Kategorien haben eine natürliche Reihenfolge, aber die Abstände zwischen ihnen sind möglicherweise nicht gleich. Diese Art der logistischen Regression wird verwendet, wenn das Ziel darin besteht, die Wahrscheinlichkeit, mit der eine Beobachtung in eine bestimmte Kategorie oder eine niedrigere Kategorie fällt, auf der Grundlage einer oder mehrerer unabhängiger Variablen vorherzusagen.

Art der logistischen Regression Abhängige Variable Schlüsselannahmen
Binäre logistische Regression
Zwei Kategorien (0 und 1)
Vorhersage der Wahrscheinlichkeit, dass eine Beobachtung zu einer der beiden Kategorien gehört, basierend auf einer oder mehreren unabhängigen Variablen
Multinomiale logistische Regression
Drei oder mehr ungeordnete Kategorien
Vorhersage der Wahrscheinlichkeit, dass eine Beobachtung zu einer der mehreren ungeordneten Kategorien gehört, basierend auf einer oder mehreren unabhängigen Variablen
Ordinale logistische Regression
Drei oder mehr geordnete Kategorien
Vorhersage der Wahrscheinlichkeit, dass eine Beobachtung in eine bestimmte Kategorie oder eine niedrigere Kategorie fällt, basierend auf einer oder mehreren unabhängigen Variablen

Einfache oder multiple logistische Regression?

Einfache logistische Regression wird verwendet, wenn es nur eine unabhängige Variable (Prädiktor) und eine abhängige Variable (Ergebnis) gibt. Es handelt sich um ein Modell, mit dem Sie die Wahrscheinlichkeit des Eintretens eines Ereignisses basierend auf dem Wert einer einzelnen Prädiktorvariablen vorhersagen können. Zum Beispiel, könnten Sie eine einfache logistische Regression verwenden, um die Wahrscheinlichkeit, dass ein Student eine Prüfung besteht, basierend auf der Anzahl der Stunden, die er studiert hat, vorherzusagen.

Multiple logistische Regressionwird hingegen verwendet, wenn zwei oder mehr unabhängige Variablen (Prädiktoren) und eine abhängige Variable (Ergebnis) vorhanden sind. Mit diesem Modell können Sie die Wahrscheinlichkeit des Eintretens eines Ereignisses basierend auf den Werten mehrerer Prädiktorvariablen vorhersagen. Beispielsweise könnten Sie die multiple logistische Regression verwenden, um die Wahrscheinlichkeit vorherzusagen, dass ein Kunde einen Kauf tätigt, basierend auf seinem Alter, Geschlecht und Einkommen.

Im Allgemeinen ist die multiple logistische Regression leistungsfähiger als die einfache logistische Regression, da sie den Einfluss mehrerer Prädiktorvariablen auf das Ergebnis berücksichtigen kann. Sie erfordert jedoch auch mehr Daten und Annahmen als die einfache logistische Regression, beispielsweise die Annahme, dass es keine Multikollinearität zwischen den unabhängigen Variablen gibt.

Annahmen zur logistischen Regression

Binäres Ergebnis (für binäre logistische Regression): Die abhängige Variable sollte nur zwei mögliche Ergebnisse oder Kategorien haben. Dies kann überprüft werden, indem die abhängige Variable überprüft wird, um sicherzustellen, dass sie nur zwei Kategorien hat.

Multinomiales Ergebnis (für multinomiale logistische Regression): Die abhängige Variable sollte drei oder mehr ungeordnete Kategorien oder Ergebnisse haben. Dies kann überprüft werden, indem die abhängige Variable überprüft wird, um sicherzustellen, dass sie mehrere ungeordnete Kategorien umfasst.

Ordinales Ergebnis (für ordinale logistische Regression): Die abhängige Variable sollte drei oder mehr geordnete Kategorien oder Ergebnisse mit einer natürlichen Rangfolge zwischen ihnen haben. Dies kann überprüft werden, indem die abhängige Variable überprüft wird, um sicherzustellen, dass sie aus mehreren geordneten Kategorien mit einer inhärenten Hierarchie besteht.

Unabhängigkeit der Beobachtungen: Beobachtungen im Datensatz sollten unabhängig voneinander sein. Bewerten Sie das Studiendesign und den Datenerfassungsprozess, um die Unabhängigkeit der Beobachtungen zu bestätigen. Zeitreihen- oder Clusterdaten können diese Annahme verletzen.

Linearität von Logit: Es sollte eine lineare Beziehung zwischen dem Logit der abhängigen Variablen und der unabhängigen Variablen bestehen. Dies kann mit dem Box-Tidwell-Test überprüft werden, der die Linearität der Logit-Beziehung zwischen kontinuierlichen unabhängigen Variablen und der abhängigen Variablen bewertet. Alternativ können Sie die Beziehung mithilfe von Streudiagrammen oder partiellen Residuendiagrammen visuell überprüfen.

Fehlen von Multikollinearität (für multiple logistische Regressionen): Die unabhängigen Variablen sollten nicht stark mit anderen Variablen im Modell korrelieren. Untersuchen Sie die Korrelationsmatrix unabhängiger Variablen und suchen Sie nach hohen Korrelationen. Sie können auch den Variance Inflation Factor (VIF) für jede unabhängige Variable berechnen; VIF-Werte über 10 können auf Multikollinearität hinweisen.

Schlussfolgerung

Die logistische Regression ist eine leistungsstarke statistische Methode zur Analyse von Daten und zur Vorhersage von Ergebnissen.

Es ist jedoch wichtig, die Annahmen der logistischen Regression zu kennen und einzuhalten, um genaue und zuverlässige Modellvorhersagen sicherzustellen.

Zu diesen Annahmen gehören die Unabhängigkeit der Beobachtungen, die Linearität des Logit und das Fehlen einer Multikollinearität zwischen den unabhängigen Variablen.

Zur Bewertung und Überprüfung dieser Annahmen stehen verschiedene Techniken zur Verfügung, beispielsweise der Box-Tidwell-Test und VIF.

Durch die Beherrschung dieser Annahmen und die Auswahl geeigneter logistischer Regressionsmodelle können Datenwissenschaftler aufschlussreichere und fundiertere datengesteuerte Entscheidungen treffen, die zu erfolgreichen Ergebnissen und besseren Geschäftsergebnissen führen.

Verpassen Sie nicht die Gelegenheit, es zu erkunden KOSTENLOS Beispiele aus unserem neu erschienenen digitalen Buch!

Eintauchen in lernen wie man Analysieren Sie Ihre Daten, bestimmen Sie die Stichprobengröße und kommunizieren Sie die Ergebnisse klar und prägnant.

Folgen Sie diesem Link und entdecken Sie die Fülle an Wissen: Angewandte Statistik: Datenanalyse.

Können Standardabweichungen negativ sein?

Vernetzen Sie sich mit uns in unseren sozialen Netzwerken!

TÄGLICHE BEITRÄGE AUF INSTAGRAM!

Ähnliche Beiträge

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *