데이터 분석 > 관계 분석 > 다중 예측 변수가 있는 회귀 사용
발행일 : 08/23/2023

다중 예측 변수가 있는 회귀 사용

하나의 예측 변수가 있는 회귀 사용에서는 하나의 예측 변수와 하나의 반응 변수로 구성된 단순 회귀 모형을 생성하는 방법을 소개했습니다. 다중 회귀는 둘 이상의 예측 변수를 사용하여 평균 반응 변수를 예측합니다.

시나리오

이 예에서는 초코바의 영양 정보가 포함된 Candy Bars.jmp 데이터 테이블을 사용합니다.

영양사는 다음 정보를 사용하여 칼로리를 예측하려고 합니다.

총 지방

탄수화물

단백질

다중 회귀를 사용하여 이 세 가지 예측 변수를 통해 평균 반응 변수를 예측합니다.

관계 발견

칼로리와 총 지방, 탄수화물 및 단백질 간의 관계를 시각화하려면 산점도 행렬을 생성합니다.

1. 도움말 > 샘플 데이터 폴더를 선택하고 Candy Bars.jmp를 엽니다.

2. 그래프 > 산점도 행렬을 선택합니다.

3. Calories를 선택하고 Y, 열을 클릭합니다.

4. Total fat g, Carbohydrate gProtein g를 선택하고 X를 클릭합니다.

5. 확인을 클릭합니다.

그림 5.26 산점도 행렬 결과 

Scatterplot Matrix Results

산점도 행렬은 칼로리와 세 변수 간에 양의 상관관계가 있음을 보여 줍니다. 칼로리와 총 지방 간의 상관관계가 가장 강합니다. 이제 영양사는 관계가 있다는 것을 알고 있으므로 평균 칼로리를 예측하기 위해 다중 회귀 모형을 생성할 수 있습니다.

다중 회귀 모형 생성

Candy Bars.jmp 샘플 데이터 테이블을 계속 사용합니다.

1. 분석 > 모형 적합을 선택합니다.

2. Calories를 선택하고 Y를 클릭합니다.

3. Total fat g, Carbohydrate gProtein g를 선택하고 추가를 클릭합니다.

4. "강조" 옆에 있는 효과 선별을 선택합니다.

그림 5.27 모형 적합 창 

Fit Model Window

5. 실행을 클릭합니다.

보고서 창에 모형 결과가 나타납니다. 모형 결과를 해석하려면 다음 영역에 중점을 둡니다.

실제값 대 예측값 그림 보기

모수 추정값 해석

예측 프로파일러 사용

참고: 모든 모형 결과에 대한 자세한 내용은 선형 모형 적합의 에서 확인하십시오.

실제값 대 예측값 그림 보기

실제값 대 예측값 그림은 실제 칼로리와 예측된 칼로리를 보여 줍니다. 예측값이 실제값에 가까워질수록 산점도의 점이 빨간색 선 주위로 모입니다(그림 5.28). 점이 모두 선에 매우 가깝기 때문에 모형이 선택한 요인을 기반으로 칼로리를 정확하게 예측한다는 것을 알 수 있습니다.

그림 5.28 실제값 대 예측값 그림 

Actual by Predicted Plot

모형 정확도의 또 다른 측도는 R² 값입니다. 이 값은 그림 5.28의 그림 아래에 나타납니다. R² 값은 모형에 의해 설명된 대로 칼로리의 변동률을 측정합니다. 1에 가까운 값은 모형이 정확하게 예측한다는 것을 의미합니다. 이 예에서 R² 값은 0.99입니다.

모수 추정값 해석

"모수 추정값" 보고서는 다음과 같은 정보를 보여 줍니다.

모형 계수

각 모수의 p

그림 5.29 모수 추정값 보고서 

Parameter Estimates Report

이 예에서 p 값은 모두 매우 작습니다(<.0001). 이것은 칼로리를 예측할 때 세 가지 효과(지방, 탄수화물 및 단백질)가 모두 유의하게 기여함을 나타냅니다.

모형 계수를 사용하여 지방, 탄수화물 및 단백질의 특정 값에 대한 칼로리 값을 예측할 수 있습니다. 예를 들어 다음 특성을 가진 초코바의 평균 칼로리를 예측한다고 가정해 보겠습니다.

지방 = 11g

탄수화물 = 43g

단백질 = 2g

이 값을 사용하여 예측 평균 칼로리를 다음과 같이 계산할 수 있습니다.

277.92 = -5.9643 + 8.99*11 + 4.0975*43 + 4.4013*2

이 예의 특성은 "Milky Way" 초코바(데이터 테이블의 59행)와 동일합니다. "Milky Way"의 실제 칼로리는 280이며 모형이 정확하게 예측한다는 것을 보여 줍니다.

예측 프로파일러 사용

예측 프로파일러를 사용하여 요인의 변화가 예측값에 어떻게 영향을 미치는지 확인할 수 있습니다. 프로파일 선은 요인이 바뀜에 따라 변화되는 칼로리 크기를 보여 줍니다. Total fat g의 선이 가장 가파르며, 이는 총 지방의 변화가 칼로리에 가장 큰 영향을 미친다는 것을 의미합니다.

그림 5.30 예측 프로파일러 

Prediction Profiler

각 요인의 수직선을 클릭하고 드래그하여 예측값이 어떻게 변하는지 확인하십시오. 현재 요인 값을 클릭하고 변경할 수도 있습니다. 예를 들어 요인 값을 클릭하고 "Milky Way" 초코바(59행)의 값을 입력합니다.

그림 5.31 Milky Way의 요인 값 

Factor Values for the Milky Way

참고: 예측 프로파일러에 대한 자세한 내용은 Profilers의 에서 확인하십시오.

결론

영양사는 이제 총 지방, 탄수화물 및 단백질을 기준으로 초코바의 칼로리를 예측할 수 있는 적절한 모형을 확보했습니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).