Analizar sus datos > Analizar las relaciones > Utilizar la regresión con un predictor
Fecha de publicación: 04/15/2024

Utilizar la regresión con un predictor

Si tiene una variable Y continua y una única variable X continua, puede crear un modelo simple de regresión.

Escenario

Este ejemplo utiliza la tabla de datos Companies.jmp, que contiene datos financieros de 32 empresas de los sectores farmacéutico e informático.

Intuitivamente, tiene sentido que las empresas con más empleados pueden generar más ingresos de ventas que las empresas con menos empleados. Un analista de datos desea predecir los ingresos por ventas globales para cada empresa a partir del número de empleados.

Para completar esta tarea, haga lo siguiente:

Descubrir la relación

Ajustar el modelo de regresión

Predecir el volumen medio de las ventas

Descubrir la relación

En primer lugar, cree un gráfico de dispersión para ver la relación entre el número de empleados y el valor de los ingresos por ventas. Este gráfico de dispersión se creó en el Crear el gráfico de dispersión. Después de ocultar y excluir un valor atípico (una empresa con un número de empleados y ventas significativamente mayor), el gráfico de la Figura 5.12 muestra el resultado.

Figura 5.12 Gráfico de dispersión de Sales ($M) en función de # Employees 

Scatterplot of Sales ($M) versus # Employees

El gráfico de dispersión proporciona una imagen clara de la relación entre las ventas y el número de empleados. Tal como se esperaba, cuantos más empleados tiene una empresa, más ventas puede generar. Esto confirma visualmente la conjetura del analista de datos pero no sirve para predecir las ventas para un número determinado de empleados.

Ajustar el modelo de regresión

Para predecir los ingresos por ventas a partir del número de empleados, ajuste un modelo de regresión. Haga clic en el triángulo rojo junto a Ajuste bivariante y seleccione Ajustar línea. Se añade una recta de regresión en el gráfico de dispersión y aparecen informes en la ventana de resultados.

Figura 5.13 Recta de regresión 

Regression Line

En los informes, consulte los resultados siguientes:

el valor p de <,0001

El valor R cuadrado de 0,618

A partir de estos resultados, el analista de datos puede llegar a estas conclusiones:

El valor p del término del modelo #Employees es pequeño. Esto sostiene que, al nivel de significación 0,05, el coeficiente de #Employees no sea cero. Por consiguiente, al incluir el número de empleados en el modelo de predicción mejora significativamente la capacidad de predecir el volumen medio de ventas con respecto a un modelo sin el número de empleados.

El valor R cuadrado de 0,618 indica que este modelo explica cerca del 62% de la variabilidad en las ventas. El valor R cuadrado es el coeficiente de determinación e indica la proporción de la varianza en la variable dependiente (respuesta) que explica su modelo. El valor R cuadrado puede oscilar de 0 a 1. Un modelo con un valor R cuadrado de 0 no tiene poder explicativo. Un modelo con un valor de R cuadrado de 1 predice la respuesta perfectamente.

Predecir el volumen medio de las ventas

Utilice el modelo de regresión para predecir el volumen medio de ventas esperable en una empresa que tenga un cierto número de empleados. La ecuación de predicción del modelo aparece en el informe:

Ventas medias = 1059,68 + 0,092*empleados

Por ejemplo, en una empresa con 70.000 empleados, se predice que las ventas sean de aproximadamente 7500 USD:

7499,68 USD = 1059,68 + 0,092*70.000

En el área inferior derecha del gráfico de dispersión actual, hay un valor atípico que no sigue el patrón general del resto de empresas. El analista de datos desea saber si el modelo de predicción cambia al excluir este valor atípico.

Excluir el valor atípico

1. Haga clic en el valor atípico.

2. Seleccione Filas > Excluir/Anular la exclusión.

3. Para ajustar este modelo, haga clic en el triángulo rojo situado junto a Ajuste bivariante de Sales (SM) por # Employees y seleccione Ajustar línea.

En la ventana de resultados se añade lo siguiente (Figura 5.14):

una nueva recta de regresión

un nuevo informe de ajuste lineal, que incluye:

una nueva ecuación de predicción

un nuevo valor R cuadrado

Figura 5.14 Comparación de los modelos 

Comparing the Models

Interpretar los resultados

Usando los resultados de la Figura 5.14, el analista de datos puede sacar las conclusiones siguientes:

El valor atípico hacía que la recta de regresión tomase valores demasiado pequeños para las empresas grandes y demasiado elevados para las empresas pequeñas.

El nuevo modelo para los datos sin el valor atípico es un modelo más fuerte que el primer modelo. El nuevo valor R cuadrado de 0,88 es mayor y más cercano a 1 que el análisis inicial.

Extraer conclusiones

Usando la nueva ecuación de predicción, el volumen medio de ventas previsto para una empresa de 70.000 empleados se calcularía así:

8961,37 USD = 631,37 + 0,119*70.000

La predicción del primer modelo fue de cerca de 7500 USD. El segundo modelo predice un total de ventas de 8960 USD o un aumento de 1460 USD en comparación con el primer modelo.

El segundo modelo, después de quitar el valor atípico, describe y predice las ventas totales basadas en el número de empleados mejor que el primer modelo. Ahora el analista de datos dispone de un buen modelo para usar.

¿Quieres más información? ¿Tiene preguntas? Obtenga respuestas en la comunidad de usuarios de JMP (community.jmp.com).