Wenn Sie eine stetige Y-Variable und eine einzelne, stetige X-Variable haben, können Sie ein einfaches Regressionsmodell erstellen.
Dieses Beispiel verwendet die Datentabelle Companies.jmp, die Finanzdaten für 32 Unternehmen aus der Pharma- und Computerindustrie enthält.
Intuitiv gesehen scheint es sinnvoll zu sein, dass Unternehmen mit mehr Mitarbeitern mehr Umsatz generieren als Unternehmen mit weniger Mitarbeitern. Ein Datenanalyst möchte den Gesamtumsatz für jedes Unternehmen basierend auf der Anzahl der Mitarbeiter prognostizieren.
Um diese Aufgabe zu erfüllen, gehen Sie wie folgt vor:
• Das Regressionsmodell anpassen
• Durchschnittsumsatz vorhersagen
Zuerst erstellen Sie ein Streudiagramm, um die Beziehung zwischen der Anzahl von Mitarbeitern und dem Umsatz zu ermitteln. Dieses Streudiagramm wurde in Streudiagramm erstellen erstellt. Nachdem ein Ausreißer (ein Unternehmen mit deutlich mehr Mitarbeitern und höheren Umsätzen) ausgeblendet und ausgeschlossen wurde, zeigt das Diagramm in Abbildung 5.12 das Ergebnis.
Abbildung 5.12 Streudiagramm von Sales ($M) gegen # Employees
Dieses Streudiagramm stellt ein deutlicheres Bild der Beziehungen zwischen dem Umsatz und der Anzahl der Mitarbeiter dar. Wie erwartet, gilt: Je mehr Mitarbeiter ein Unternehmen hat, desto höhere Umsätze kann es generieren. Dies bestätigt visuell die Vermutung des Datenanalysten, prognostiziert aber keine Umsätze für eine gegebene Anzahl von Mitarbeitern.
Um den Umsatz aus der Anzahl der Mitarbeiter zu prognostizieren, passen Sie ein Regressionsmodell an. Klicken Sie auf das rote Dreieck für „Bivariate Anpassung“ und wählen Sie Gerade anpassen aus. Eine Regressionslinie wird dem Streudiagramm hinzugefügt und Berichte werden in das Berichtsfenster eingefügt.
Abbildung 5.13 Regressionslinie
In den Berichten sehen Sie sich folgende Ergebnisse an:
• p-Wert von < 0,0001
• r2-Wert 0,618
Aus diesen Ergebnissen kann der Datenanalyst folgende Schlussfolgerungen ziehen:
• Der p-Wert für den Modellterm #Employees ist klein. Dies deutet darauf hin, dass der Koeffizient für #Employees beim Signifikanzniveau 0,05 nicht null ist. Daher lassen sich die Durchschnittsumsätze signifikant besser vorhersagen, wenn die Anzahl der Mitarbeiter in das Vorhersagemodell aufgenommen wird.
• Der r²-Wert von 0,618 deutet darauf hin, dass dieses Modell 62 % der Variabilität beim Umsatz erklärt. Der r²-Wert ist das Bestimmtheitsmaß und zeigt den Anteil der Varianz in der abhängigen Variablen (Zielgröße) an, die von Ihrem Modell erklärt wird. r² kann zwischen 0 und 1 liegen. Ein Modell mit einem r² von 0 hat keine erklärende Wirkung. Ein Modell mit einem r² von 1 sagt die Zielgröße perfekt vorher.
Verwenden Sie das Regressionsmodell, um den Durchschnittsumsatz zu prognostizieren, den ein Unternehmen erwarten kann, wenn es eine bestimmte Anzahl von Mitarbeitern hat. Die Vorhersagegleichung für das Modell ist im Bericht enthalten:
Durchschnittsumsatz = 1059,68 + 0,092*Mitarbeiter
Beispiel: In einem Unternehmen mit 70.000 Mitarbeitern wird für den Umsatz ein Wert von 7.500 Dollar vorhergesagt:
7.499,68 Dollar = 1059,68 + 0,092*70.000
Im unteren rechten Bereich des aktuellen Streudiagramms befindet sich ein Ausreißer, der das allgemeine Muster der anderen Unternehmen nicht einhält. Der Datenanalyst möchte wissen, ob sich das Vorhersagemodell ändert, wenn dieser Ausreißer ausgeschlossen wird.
1. Klicken Sie auf den Ausreißer.
2. Wählen Sie Zeilen > Ausschließen/Einschließen.
3. Um dieses Modell anzupassen, klicken Sie auf das rote Dreieck neben „Bivariate Anpassung von Sales (SM) nach # Employees“ und wählen Gerade anpassen aus.
Folgende Elemente werden dem Berichtsfenster hinzugefügt (Abbildung 5.14):
• Eine neue Regressionslinie
• Ein neuer Bericht zur geraden Anpassung, der enthält:
– Eine neue Vorhersagegleichung
– Ein neuer r2-Wert
Abbildung 5.14 Vergleichen der Modelle
Unter Heranziehung der Ergebnisse in Abbildung 5.14 kann der Datenanalyst folgende Schlussfolgerungen ziehen:
• Der Ausreißer hat die Regressionslinie für die größeren Unternehmen heruntergezogen und für die kleineren Unternehmen nach oben gezogen.
• Das neue Modell für die Daten ohne den Ausreißer ist ein stärkeres Modell als das erste Modell. Der neue r2-Wert von 0,88 ist höher und näher an 1 als der der anfänglichen Analyse.
Unter Heranziehung der neuen Vorhersagegleichung kann der prognostizierte Durchschnittsumsatz für ein Unternehmen mit 70.000 Mitarbeitern wie folgt berechnet werden:
8961,37 Dollar = 631,37 + 0,119*70.000
Die Vorhersage des ersten Modells lag bei ca. 7.500 Dollar. Das zweite Modell sagt einen Gesamtumsatz von ca. 8.960 Dollar bzw. einen Anstieg von 1.460 Dollar im Vergleich zum ersten Modell vorher.
Das zweite Modell, nach dem Entfernen des Ausreißers, beschreibt und prognostiziert Umsatzsummen basierend auf der Anzahl der Mitarbeiter besser als das erste Modell. Der Datenanalyst hat jetzt ein gutes Modell, das er verwenden kann.