Annahmen in der linearen Regression

Annahmen in der linearen Regression: Ein umfassender Leitfaden

Sie lernen die Grundlagen der Annahmen in der linearen Regression kennen und erfahren, wie Sie diese anhand von Beispielen aus der Praxis validieren können. Datenanalyse.

Erfolgsfaktoren

  • Die lineare Regression ist eine weit verbreitete prädiktive Modellierungstechnik zum Verständnis von Beziehungen zwischen Variablen.
  • Die Normalität der Residuen trägt dazu bei, unvoreingenommene Vorhersagen und vertrauenswürdige Konfidenzintervalle in der linearen Regression sicherzustellen.
  • Homoskedastizität garantiert, dass die Vorhersagen des Modells über verschiedene Werte hinweg eine konsistente Präzision aufweisen.
  • Das Erkennen und Behandeln von Multikollinearität verbessert die Stabilität und Interpretierbarkeit Ihres Regressionsmodells.
  • Datenvorverarbeitungs- und Transformationstechniken wie Skalierung und Normalisierung können potenzielle Probleme bei der linearen Regression abmildern.

Bei der linearen Regression handelt es sich um eine Technik zur Modellierung und Vorhersage der Beziehung zwischen einer Zielvariablen und einer oder mehreren Eingabevariablen.

Es hilft uns zu verstehen, wie sich eine Änderung der Eingabevariablen auf die Zielvariable auswirkt.

Bei der linearen Regression wird davon ausgegangen, dass eine gerade Linie diese Beziehung darstellen kann.

Angenommen, Sie möchten die Kosten einer Immobilie unter Berücksichtigung ihrer Größe (gemessen in Quadratmetern) und ihres Alters (in Jahren) schätzen.

In diesem Fall ist der Preis des Hauses die Zielvariable, Größe und Alter sind die Eingangsvariablen.

Mithilfe der linearen Regression können Sie die Auswirkung von Größe und Alter auf den Hauspreis abschätzen.

Annahmen in der linearen Regression

Sechs Hauptannahmen bei der linearen Regression müssen erfüllt sein, damit das Modell zuverlässig und gültig ist. Diese Annahmen sind:

1. Linearität

Diese Annahme besagt, dass eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen besteht. Mit anderen Worten: Die Änderung der abhängigen Variablen sollte proportional zur Änderung der unabhängigen Variablen sein. Die Linearität kann mithilfe von Streudiagrammen oder durch Untersuchung der Residuen beurteilt werden.

2. Normalität von Fehlern

Die Residuen sollten einer Normalverteilung mit einem Mittelwert von Null folgen. Diese Annahme ist für die ordnungsgemäße Hypothesenprüfung und die Erstellung von Konfidenzintervallen von wesentlicher Bedeutung. Die Normalität von Fehlern kann mit visuellen Methoden wie einem Histogramm oder einem QQ-Diagramm oder durch statistische Tests wie dem Shapiro-Wilk-Test oder dem Kolmogorov-Smirnov-Test beurteilt werden.

3. Homoskedastizität

Diese Annahme besagt, dass die Varianz der Residuen über alle unabhängigen Variablenebenen hinweg konstant sein sollte. Mit anderen Worten: Die Streuung der Residuen sollte für alle Werte der unabhängigen Variablen ähnlich sein. Heteroskedastizität, die gegen diese Annahme verstößt, kann mithilfe von Streudiagrammen der Residuen oder formalen Tests wie dem Breusch-Pagan-Test identifiziert werden.

4. Unabhängigkeit von Fehlern

Diese Annahme besagt, dass die Datensatzbeobachtungen unabhängig voneinander sein sollten. Bei der Arbeit mit Zeitreihen oder räumlichen Daten können Beobachtungen aufgrund ihrer zeitlichen oder räumlichen Nähe voneinander abhängig sein. Ein Verstoß gegen diese Annahme kann zu verzerrten Schätzungen und unzuverlässigen Vorhersagen führen. Spezialisierte Modelle wie Zeitreihen oder räumliche Modelle können in solchen Fällen besser geeignet sein.

5. Fehlen von Multikollinearität (multiple lineare Regression)

Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen im linearen Regressionsmodell stark korreliert sind, was es schwierig macht, die genaue Wirkung jeder Variablen auf die abhängige Variable festzustellen. Multikollinearität kann zu instabilen Schätzungen, aufgeblähten Standardfehlern und Schwierigkeiten bei der Interpretation von Koeffizienten führen. Sie können den Varianzinflationsfaktor (VIF) oder die Korrelationsmatrix verwenden, um Multikollinearität zu erkennen. Wenn Multikollinearität vorliegt, sollten Sie eine der korrelierten Variablen weglassen, die korrelierten Variablen kombinieren oder Techniken wie Hauptkomponentenanalyse (PCA) oder Ridge-Regression.

6. Unabhängigkeit der Beobachtungen

Diese Annahme besagt, dass die Datensatzbeobachtungen unabhängig voneinander sein sollten. Bei der Arbeit mit Zeitreihen oder räumlichen Daten können Beobachtungen aufgrund ihrer zeitlichen oder räumlichen Nähe voneinander abhängig sein. Ein Verstoß gegen diese Annahme kann zu verzerrten Schätzungen und unzuverlässigen Vorhersagen führen. Spezialisierte Modelle wie Zeitreihen oder räumliche Modelle können in solchen Fällen besser geeignet sein.

Indem Sie sicherstellen, dass diese Annahmen erfüllt sind, können Sie die Genauigkeit, Zuverlässigkeit und Interpretierbarkeit Ihrer linearen Regressionsmodelle erhöhen. Wenn Annahmen verletzt werden, kann es erforderlich sein, Datentransformationen anzuwenden, alternative Modellierungstechniken zu verwenden oder andere Ansätze zur Behebung der Probleme in Betracht zu ziehen.

❓ Verwirrt durch die Datenanalyse? Unser umfassender Leitfaden macht es kristallklar

Klicke, um mehr zu lernen!

Annahmen Beschreibung
Linearität Linearer Zusammenhang zwischen abhängigen und unabhängigen Variablen, überprüft anhand von Streudiagrammen
Normalität Normalverteilung der Residuen, bewertet mit dem Shapiro-Wilk-Test
Homoskedastizität Konstante Varianz in Fehlertermen, bewertet mit dem Breusch-Pagan-Test
Unabhängigkeit von Fehlern Unabhängige Fehlerterme, überprüft mit dem Durbin-Watson-Test
Unabhängigkeit der Beobachtungen Unabhängig gesammelte Datenpunkte ohne Autokorrelation
Fehlen von Multikollinearität Keine Multikollinearität zwischen unabhängigen Variablen, bestimmt mithilfe von VIF- und Toleranzmaßen

Praktisches Beispiel

Hier ist eine Demonstration eines linearen Regressionsmodellproblems mit zwei unabhängigen Variablen und einer abhängigen Variablen.

In diesem Beispiel modellieren wir die Beziehung zwischen der Quadratmeterzahl und dem Alter eines Hauses und seinem Verkaufspreis.

Der Datensatz enthält die Quadratmeterzahl, das Alter und den Verkaufspreis von 40 Häusern.

Wir verwenden eine multiple lineare Regression, um die Auswirkungen von Quadratmeterzahl und Alter auf den Verkaufspreis abzuschätzen.

Hier ist eine Tabelle mit den Daten, die Sie kopieren und einfügen können:

Einfamilienhaus SquareFootage Alter Preis
1150010250000.50
220005300000.75
3120015200500.25
425002400100.80
518008270500.55
6160012220800.60
722004320200.10
824001420300.90
9100018180100.15
1020007290700.40
11145011240900.65
1220506315600.20
13115016190800.75
1426003410500.50
1517509260200.55
16155013210700.85
1723003330400.45
1824502415200.90
19110017185300.65
2019008275900.80
21140012235800.55
2221006305300.40
23130014195400.25
2427003410200.75
25170010255600.20
26165011215400.60
2721505325500.50
28125015205700.85
2925504395900.90
3018509265100.65
31135013225900.40
3219507285800.15
33110016195900.80
3428003430700.55
35175010245500.20
36160012225300.10
3720007310700.50
3720007310700.50
38120015201200.90
3926004380800.65
4018008279500.25

1. Linearität

Bewerten Sie die Linearitätsannahme, indem Sie das Streudiagramm der abhängigen Variablen gegenüber jeder unabhängigen Variablen visuell auf ein erkennbares lineares Muster untersuchen.

2. Normalität von Fehlern

Bewerten Sie die Normalitätsannahme, indem Sie den Shapiro-Wilk-Test durchführen, der die Verteilung der Residuen auf signifikante Abweichungen von einer Normalverteilung prüft.

Beim Shapiro-Wilk-Test zeigt ein hoher p-Wert (typischerweise über 0.05) an, dass die Verteilung der Residuen nicht wesentlich von einer Normalverteilung abweicht.

3. Homoskedastizität

Bewerten Sie die Homoskedastizitätsannahme, indem Sie den Breusch-Pagan-Test durchführen, der auf nicht konstante Varianz in den Fehlertermen prüft.

Ein hoher p-Wert (normalerweise über 0.05) deutet darauf hin, dass die Daten Homoskedastizität aufweisen, mit konstanter Varianz über verschiedene Werte hinweg.

4. Unabhängigkeit von Fehlern

Eine Durbin-Watson-Statistik nahe 2 legt nahe, dass die Fehler unabhängig sind und nur eine minimale Autokorrelation vorliegt.

Werte unter oder über 2 weisen auf eine positive bzw. negative Autokorrelation hin.

Der p-Wert bedeutet, dass sich die DW-Statistik nicht signifikant von 2 unterscheidet.

5. Fehlen von Multikollinearität

Bewerten Sie das Fehlen von Multikollinearität mithilfe von Variance Inflation Factor (VIF) und Toleranzmaßen. Niedrige VIF-Werte (normalerweise unter 10) und hohe Toleranzwerte (über 0.1) weisen darauf hin, dass Multikollinearität im Regressionsmodell kein wesentliches Problem darstellt.

Unsere Daten weisen auf das Vorhandensein einer Multikollinearität zwischen den Variablen Alter und Quadratmeterzahl hin. Wir müssen einen davon entfernen. Die zu entfernende Variable kann auf verschiedene Weise bestimmt werden, z. B. durch Testen mit einfachen linearen Regressionen, um herauszufinden, welche besser zum Modell passt, oder durch Entscheiden auf der Grundlage der zugrunde liegenden Theorie.

6. Unabhängigkeit der Beobachtungen

Um eine Verletzung der Annahme der Unabhängigkeit der Beobachtungen zu vermeiden, stellen Sie sicher, dass Ihre Datenpunkte unabhängig erfasst werden und keine Autokorrelation aufweisen, die mit dem Durbin-Watson-Test bewertet werden kann.

Schlussfolgerung

Bei der Erstellung eines linearen Regressionsmodells müssen diese Annahmen unbedingt untersucht und berücksichtigt werden, um Gültigkeit, Zuverlässigkeit und Interpretierbarkeit sicherzustellen.

Durch das Verständnis und die Überprüfung der sechs Annahmen – Linearität, Unabhängigkeit von Fehlern, Homoskedastizität, Normalität von Fehlern, Unabhängigkeit von Beobachtungen und Fehlen von Multikollinearität – können Sie genauere und zuverlässigere Modelle erstellen, was zu einer besseren Entscheidungsfindung und einem besseren Verständnis der Beziehungen führt zwischen Variablen in Ihren Daten.

Nutzen Sie die Gelegenheit zum Zugriff KOSTENLOS Probieren Sie Beispiele aus unserem neu erschienenen digitalen Buch und entfalten Sie Ihr Potenzial.

Tauchen Sie tief in das Mastering für Fortgeschrittene ein Datenanalyse Methoden, die Bestimmung der perfekten Stichprobengröße und die effektive, klare und prägnante Kommunikation der Ergebnisse.

Klicken Sie auf den Link, um eine Fülle an Wissen zu entdecken: Angewandte Statistik: Datenanalyse.

Können Standardabweichungen negativ sein?

Vernetzen Sie sich mit uns in unseren sozialen Netzwerken!

TÄGLICHE BEITRÄGE AUF INSTAGRAM!

Annahmen in der linearen Regression

Annahmen in der linearen Regression

Ähnliche Beiträge

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *