Regressionsanalyse (eBook)
378 Seiten
Eine Milliarde Sachkundig [German] (Verlag)
978-0-00-052458-4 (ISBN)
Was ist Regressionsanalyse
In der statistischen Modellierung ist die Regressionsanalyse eine Reihe statistischer Prozesse zur Schätzung der Beziehungen zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen. Die gebräuchlichste Form der Regressionsanalyse ist die lineare Regression, bei der man die Linie findet, die nach einem bestimmten mathematischen Kriterium am besten zu den Daten passt. Beispielsweise berechnet die Methode der gewöhnlichen kleinsten Quadrate die eindeutige Linie, die die Summe der quadrierten Differenzen zwischen den wahren Daten und dieser Linie minimiert. Aus bestimmten mathematischen Gründen ermöglicht dies dem Forscher, die bedingte Erwartung der abhängigen Variablen abzuschätzen, wenn die unabhängigen Variablen einen bestimmten Satz von Werten annehmen. Weniger verbreitete Formen der Regression verwenden leicht unterschiedliche Verfahren, um alternative Standortparameter oder die bedingte Erwartung über eine breitere Sammlung nichtlinearer Modelle zu schätzen.
Ihre Vorteile
(I) Erkenntnisse und Validierungen zu den folgenden Themen:
Kapitel 1: Regressionsanalyse
Kapitel 2: Kleinste Quadrate
Kapitel 3: Gauß?Markov-Theorem
Kapitel 4: Nichtlineare Regression
Kapitel 5: Bestimmtheitskoeffizient
Kapitel 6: Schätzung instrumenteller Variablen
Kapitel 7: Voreingenommenheit aufgrund ausgelassener Variablen
Kapitel 8: Gewöhnliche kleinste Quadrate
Kapitel 9: Residualsumme der Quadrate
Kapitel 10: Einfache lineare Regression
Kapitel 11: Verallgemeinerte kleinste Quadrate
Kapitel 12: Heteroskedastizitätskonsistente Standardfehler
Kapitel 13: Varianzinflationsfaktor
Kapitel 14: Nichtlinear Kleinste Quadrate
Kapitel 15: Hauptkomponentenregression
Kapitel 16: Fehlende Quadratsumme
Kapitel 17: Hebelwirkung (Statistik)
Kapitel 18: Polynomielle Regression
Kapitel 19: Fehler-in-Variablen-Modelle
Kapitel 20: Lineare kleinste Quadrate
Kapitel 21: Lineare Regression
(II) Beantwortung der häufigsten öffentlichen Fragen zur Regressionsanalyse.
(III) Beispiele aus der Praxis für den Einsatz der Regressionsanalyse in vielen Bereichen.
Für wen sich dieses Buch eignet
Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die für jede Art von Regressionsanalyse über das Grundwissen oder die Informationen hinausgehen möchten.
Kapitel 1: Regressionsanalyse
Der Begriff "Regressionsanalyse" bezieht sich auf eine Reihe statistischer Verfahren, die in der statistischen Modellierung verwendet werden, um die Assoziationen zwischen einer abhängigen Variablen (der Variablen "Ergebnis" oder "Antwort" oder einer "Bezeichnung" in der Terminologie des maschinellen Lernens) und einer oder mehreren unabhängigen Variablen (den "Prädiktoren", "Kovariaten", "erklärenden Variablen" oder "Merkmalen") zu schätzen. Bei der linearen Regression wird die Linie (oder eine komplexere lineare Kombination), die am besten zu den Daten passt, anhand eines vorgegebenen mathematischen Kriteriums bestimmt. Um die Linie (oder Hyperebene) zu finden, die die Summe der quadrierten Differenzen zwischen den beobachteten Daten und dieser Linie minimiert, ist die gewöhnliche Methode der kleinsten Quadrate eine solche Methode (oder Hyperebene). Bei einer Reihe von Werten für die unabhängigen Variablen kann der Forscher diese verwenden, um die bedingte Erwartung (oder den Durchschnittswert der Grundgesamtheit) der abhängigen Variablen zu schätzen. Die Quantilsregression und die Analyse der notwendigen Bedingungen sind zwei Beispiele für weniger verbreitete Arten der Regression, die etwas unterschiedliche Ansätze zur Schätzung alternativer Standortparameter oder zur Schätzung der bedingten Erwartung über einen breiteren Satz nichtlinearer Modelle (z. B. nichtparametrische Regression) verwenden.
Es gibt zwei Hauptanwendungen für die Regressionsanalyse, jede mit ihrem eigenen theoretischen Fokus. Zunächst einmal gibt es viele Überschneidungen zwischen den Anwendungen der Regressionsanalyse und des maschinellen Lernens, da sie in Vorhersage- und Prognoseanwendungen weit verbreitet sind. Zweitens ist es möglich, durch den Einsatz der Regressionsanalyse Rückschlüsse auf die Art der Beziehungen zwischen den unabhängigen und abhängigen Variablen zu ziehen. Kurz gesagt, Regressionen allein zeigen nur, wie eine abhängige Variable mit einer Reihe unabhängiger Variablen in einem vorgegebenen Datensatz verbunden ist. Bei der Verwendung von Regressionen für Vorhersagen oder kausale Inferenzen muss der Forscher starke Beweise dafür liefern, warum die etablierten Assoziationen im aktuellen Kontext einen prädiktiven Wert haben oder warum eine Korrelation zwischen zwei Variablen als kausal interpretiert werden kann. Letzteres ist entscheidend in Situationen, in denen Forscher beabsichtigen, Beobachtungsdaten zur Abschätzung kausaler Zusammenhänge zu verwenden.
Legendre führte 1805 die Methode der kleinsten Quadrate ein, die eine Form des Gauß-Markov-Theorems enthielt und als erste Art der Regression gilt.
Francis Galton, ein britischer Biologe, der im 19. Jahrhundert arbeitete, verwendete erstmals den Begriff "Regression", um ein beobachtetes biologisches Ereignis zu charakterisieren. Was passierte, war, dass Menschen, deren Vorfahren groß waren, tendenziell kürzere Nachkommen hatten (ein Phänomen, das auch als Regression zum Mittelwert bekannt ist). Fisher ging von einer Gaußschen bedingten Verteilung für die Antwortvariable aus, nicht aber für die gemeinsame Verteilung, da Galton Regression nur in diesem biologischen Sinne verstand. Fishers Annahme stimmt in dieser Hinsicht eher mit Gauß' Aussage von 1821 überein.
In den 1950er und 1960er Jahren setzten Ökonomen elektromechanische Tischrechner ein, um Regressionen durchzuführen. Vor 1970 war es nicht ungewöhnlich, dass das Ergebnis einer einzigen Regression bis zu 24 Stunden auf sich warten ließ.
Die Erforschung von Regressionstechniken ist im Gange. In den letzten Jahrzehnten wurden neuartige Ansätze für die Probleme fehlender Daten, nichtparametrische, Bayes'sche Methoden und robuste Regression sowie Regression mit korrelierten Antworten wie Zeitreihen und Wachstumskurven sowie Regressionen entwickelt, bei denen entweder der Prädiktor (unabhängige Variable) oder die Antwortvariablen Kurven, Bilder, Diagramme oder andere komplexe Datenobjekte sind.
In Wirklichkeit wählen die Forscher ein Modell aus, um dessen Parameter sie dann mit ihrer bevorzugten Methode (z. B. gewöhnliche kleinste Quadrate) schätzen. Ein Regressionsmodell besteht aus folgenden Elementen:
Unbestimmte Faktoren, oft als Skalar oder Vektor bezeichnet
.
Faktoren, die außerhalb unserer Kontrolle liegen, die in Daten beobachtet und oft als Vektor bezeichnet werden
(wobei
bezeichnet eine Datenzeile).
Unentbehrlicher Faktor:, die in Daten beobachtet und oft mit dem Skalar
.
Die falschen Wörter, die nicht direkt in den Daten beobachtet werden und oft mit dem Skalar bezeichnet werden
.
Je nach Kontext können Begriffe wie "abhängig" und "unabhängig" durch andere ersetzt werden.
Die meisten Regressionsmodelle schlagen vor, dass
ist eine Funktion (Regressionsfunktion) von
und
mit
einen additiven Fehlerterm darstellen, der für nicht modellierte Determinanten von
oder zufälliges statistisches Rauschen:
Ziel der Forscher ist es, die Funktion abzuschätzen
die den Daten am ehesten entspricht.
Die Regressionsanalyse wird so durchgeführt, dass die Form der Funktion
angegeben werden.
Manchmal basiert die Form dieser Funktion auf dem Wissen über die Beziehung zwischen
und
die nicht auf die Daten angewiesen ist.
Sind solche Informationen nicht bekannt, so ist ein flexibles oder zweckmäßiges
ausgewählt wird.
Eine einfache univariate Regression kann z. B. vorschlagen,
, was darauf hindeutet, dass der Forscher glaubt,
eine angemessene Annäherung an den statistischen Prozess, mit dem die Daten generiert werden.
Nachdem man sich für ein geeignetes statistisches Modell entschieden hat, bieten verschiedene Formen der Regressionsanalyse Werkzeuge zur Schätzung der Parameter
.
Wenn Sie z. B. die kleinsten Quadrate (und die gebräuchlichsten, gewöhnlichen kleinsten Quadrate) verwenden, wird der Wert von
die die Summe der quadrierten Fehler minimiert
.
Eine gegebene Regressionsmethode liefert letztendlich eine Schätzung von
, in der Regel mit
, um die Schätzung vom wahren (unbekannten) Parameterwert zu unterscheiden, der die Daten generiert hat.
Wenn wir diese Berechnung verwenden, kann der Forscher dann den angepassten Wert verwenden
zur Vorhersage oder zur Bewertung der Genauigkeit des Modells bei der Erklärung der Daten.
Ob der Forscher intrinsisch an der Schätzung interessiert ist
oder den vorhergesagten Wert
hängt vom Kontext und ihren Zielen ab.
Gewöhnliche Kleinste-Quadrate-Form, kleinste Quadrate ist weit verbreitet, da die geschätzte Funktion
nähert sich der bedingten Erwartung an
.
Optionen (wie z. B. ), die nicht mit dem Original identisch sind, die geringsten absoluten Abweichungen oder die Quantilsregression) sind jedoch nützlich, wenn Forscher andere Funktionen modellieren möchten
.
Denken Sie daran, dass Sie viele Informationen benötigen, um ein Regressionsmodell zu schätzen.
Angenommen, ein Forscher hat Zugriff auf
Datenzeilen mit einer abhängigen und zwei unabhängigen Variablen:
.
Nehmen wir weiter an, dass der Forscher ein bivariates lineares Modell über die Methode der kleinsten Quadrate schätzen möchte:
.
Hat der Forscher nur Zugriff auf
Datenpunkte, dann könnten sie unendlich viele Kombinationen finden
die die Daten gleichermaßen gut erklären: Es kann jede beliebige Kombination gewählt werden, die
, die alle zu
und sind daher gültige Lösungen, die die Summe der quadrierten Residuen minimieren.
Unendlich viele Wahlmöglichkeiten können wie folgt erklärt werden, beachten Sie, dass das System der
Gleichungen für 3 Unbekannte zu lösen ist, Folglich ist das System unbestimmt.
Alternativ kann man sich unendlich viele 3-dimensionale Ebenen vorstellen, die durch
Fixpunkte.
Allgemeiner gesagt, um ein Modell der kleinsten Quadrate mit
unterschiedlichen Parametern muss man
Unterschiedliche Datenpunkte.
Wenn
Folglich gibt es in der Regel keine einzige Auswahl von Parametern, die eine perfekte Übereinstimmung zwischen den Daten und dem Modell herstellen können.
Die Menge
taucht häufig in der Regressionsanalyse auf, oder was die Befürworter des Modells als "Freiheitsgrade" bezeichnen.
Darüber hinaus werden bei der Modellierungsschätzung der kleinsten Quadrate die unabhängigen Variablen
muss linear unabhängig sein: Man darf keine der unabhängigen Variablen rekonstruieren können, indem man die verbleibenden unabhängigen Variablen addiert und multipliziert.
Gewöhnliche kleinste Quadrate, wie wir sehen werden, stellt diese Bedingung sicher, dass
ist eine invertierbare Matrix und daher eine einzigartige Lösung
existiert.
Eine Regression an sich ist nichts anderes als eine Zahlenverarbeitungsübung. Forscher stützen sich im Allgemeinen auf eine Vielzahl traditioneller Annahmen, um das Ergebnis der Regression als aussagekräftige statistische Größe zu verstehen, die reale Korrelationen misst. Viele dieser Vermutungen bestehen aus:
Die Stichprobe spiegelt die allgemeine Bevölkerung genau wider.
Bei den unabhängigen Variablen wurden keine Messfehler gefunden.
Die Standardabweichung von Ausreißern ist Null, abhängig von Kovariaten:
Die Varianz der Residuen
ist über alle Beobachtungen hinweg konstant...
| Erscheint lt. Verlag | 4.2.2024 |
|---|---|
| Übersetzer | Daniel Hueber |
| Sprache | deutsch |
| Themenwelt | Wirtschaft |
| ISBN-10 | 0-00-052458-1 / 0000524581 |
| ISBN-13 | 978-0-00-052458-4 / 9780000524584 |
| Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
| Haben Sie eine Frage zum Produkt? |
Größe: 4,6 MB
Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich