INTRODUCCIÓN

El presente informe nos indica un análisis de regresión y correlación para los estudiantes de matemática aplicada de pregrado de la Universidad surcolombiana, donde se afirma el valor de la matricula con respecto a la declaración de renta en $ (pesos colombianos). En este sentido, se busca un modelo de regresión que nos permita visualizaar los datos de la mejor manera y tener la flexibilidad para capturar en tomar los datos. Esto implica examinar estadísticas como el coeficiente de correlación y el coeficiente de determinación para así mismo buscar el mejor modelo que ayude a realizar un buen análisis de las variables presentadas.

EL COEFICIENTE DE CORRELACION DE PEARSON

El coeficiente de correlación de pearson es un estadístico paramétrico cuya aplicación es adecuada cuando las observaciones, de unidades maestreadas aleatoriamente, están medidas en escalas de intervalos. Se asume que ambas variables tienen una distribución aproximadamente normal, o sea, distribución normal bivariante. Esto puede comprobarse mediante un diagrama de dispersión de los datos, puesto que un diagrama de este tipo para datos normales bivariantes presenta un contorno aproximadamnte circular o elíptico. El circulo se acerca mas a una elipse en tanto r aumenta su valor.

Si no hay correlación de ningún tipo entre dos variable, entonces tampoco habrá correlación lineal, por lo que \(r=0\). Sin embargo, el que ocurra \(r=0\) solo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. Mientras mas cercano a cero la correlación es mas débil.

Ejemplo

peso <- c(51, 59, 49, 54, 50, 55, 48, 53, 52, 57)
long <- c(33.5, 38, 32, 37.5, 31.5, 33, 31, 36.5, 34, 35)
pairs(long ~ peso)  #permite elaborar un plot de correlacion

MÉTODO

Síntesis

  1. Datos

Inicialmente se tiene en cuentas las 2 variables que nos presentan, por un lado, la declaración de renta y el valor de la matricula. Presentamos las 2 variables de la siguiente manera:

Variable Independiente: \(X =\) Declaración de renta.

Variable Dependiente: \(Y =\) Valor de matricula $(pesos).

A continuación, en la tabla 1. Se observa los valores ajustados de las dos variables para los propósitos del presente informe.

Declaracionrenta <- c(9937392, 7200000, 7200000, 46219672, 4800000, 10800000, 28831347, 50035666, 10196000, 56000000, 16980000, 8273448, 3500000, 8000000, 9600000, 9959456, 6000000, 11000000, 13826640, 8832000, 9600000, 14880000, 11432543, 18749808, 15960000, 6094129, 23830000, 8000000, 14721383, 43389465, 51799000, 16650000, 9791984, 20244589, 9660725, 11421758, 28263967, 7200000, 15471000, 10800000, 14784000, 19776855, 7200000, 52445329, 8852604, 26411155, 7080000, 9375000, 6000000, 19847958, 24000000, 8856000, 9600000, 11459988, 3900000, 15929000, 9600000, 34205380, 5400000, 30793576, 30540290, 70856000, 24023524, 8400000, 12600000, 26953000, 6000000, 6400000, 15360000, 4800000, 4800000, 10800000, 43107540, 52517387, 7074000, 6193338, 13966000, 15139000, 8400000, 14684704, 14688000, 18762582, 27406356, 9600000, 4000000, 4200000, 20902889, 19655000, 3600000, 8844000, 18374904, 8400000, 27560836, 24137000, 7732200, 9000000, 8400000, 7200000, 40782000, 8880000, 8162560, 24483980, 3000000, 13628961, 10914666, 4200000, 5000000, 11100000, 4968000, 30886988, 9374904, 17705208, 32209671, 12000000, 8273460, 8852000, 7440000, 12589791, 8480000, 10156000, 8880000, 5400000, 11609000, 3600000, 7608000, 7737624, 9334792, 38974293, 8273000, 644000, 7200000, 740000, 5000000, 5600000, 2415709, 7000000, 8400000, 12000000, 9850284, 4800000, 8400000, 24314389, 
6000000, 8853000, 7800000, 10200000, 18484388, 8400000, 9374904, 9600000, 14400000, 14353386, 7800000, 4968708, 7200000, 9600000, 4300000, 13193000, 8612844, 16800000, 7000000, 93526000, 4800000, 7200000, 10381242, 6360000, 10800000, 3600000, 3842000, 11396070)

Derechomatricula <- c(418691, 407631, 313233, 1060241, 286473, 413747, 908098, 1366038, 386679, 1398090, 413747, 374488, 377873, 303520, 402407, 492970, 576896, 350691,402407, 295781, 295781, 505867, 566502, 423259, 652069, 384701, 867132, 303044, 402226, 1083896, 1366038, 472033, 479608, 505722, 826503, 439258, 649753, 374488, 505867, 423259, 398783, 619926, 313233, 1366038, 375808, 645343, 287764, 310013, 403441, 516688, 709066, 303520, 310013, 615381, 393076, 615381, 513182, 854473, 310013, 918484, 743181, 1366038, 938626, 394992, 423259, 676498, 394992, 394992, 882018, 384701, 402407, 439258, 1272609, 1272609, 398783, 670236, 670236, 670236, 295781, 427656, 402407, 439258, 776519, 522055, 381626, 381626, 516688, 702483, 286473, 313233, 516688, 403441, 726479, 635149, 283220, 303520, 407631, 514550, 411249, 313233, 472033, 1092259, 369313, 384701, 565616, 373305, 303520, 652069, 286473, 738137, 310013, 522055, 750901, 342915, 295781, 313233, 310013, 522055, 381626, 423259, 403830, 303044, 632077, 286473, 286473, 374488, 402407, 381626, 1060241, 354871, 295781, 381626, 374488, 381626, 374865, 636144, 303520, 403441, 414395, 414395, 322205, 303520, 775584, 402407, 595357, 310013, 505867, 454517, 313233, 836963, 427656, 536219, 384701, 374488, 321731, 402407, 505867, 435879, 516688, 407631, 472033, 402407, 1959850, 368574, 287764, 414395, 365849, 398783, 383433, 337536)

ANALISIS DE REGRESION

El Análisis de Regresión se usa cuando el investigador sabe que existe una relación entre las variables porque hay una teoría o investigaciones previas que la han descubierto. Por ejemplo, la relación entre espacio y tiempo ya se sabe que es la velocidad, o como la relación entre voltaje e intensidad de corriente eléctrica. En estos casos, el investigador suele estar interesado en verificar experimentalmente tal relación y el objeto de la regresión es encontrar la curva que mejor ajuste a sus datos experimentales.

Utilizando un diagrama de dispersión de puntos podemos resaltar las características de dos variables relacionadas, la linea que se genera denomina linea de mejor ajuste.

EJERCICIO

ej1 <- data.frame(Declaracionrenta, Derechomatricula)
reg1 <- lm(Declaracionrenta ~ Derechomatricula, data = ej1)
summary(reg1)
## 
## Call:
## lm(formula = Declaracionrenta ~ Derechomatricula, data = ej1)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -53028235  -4650392  -1092366   2842386  82550975 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -1.131e+06  1.733e+06  -0.653    0.515    
## Derechomatricula  3.008e+01  2.965e+00  10.147   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10490000 on 168 degrees of freedom
## Multiple R-squared:   0.38,  Adjusted R-squared:  0.3763 
## F-statistic:   103 on 1 and 168 DF,  p-value: < 2.2e-16

ANALISIS Dado el valor del coeficiente de determinación del R ajustado fue aproximadamente \(0.3763\). Lo cual indica una correlación lineal debil donde el grado de confiabilidad del ajuste a la ecuación de regresión no nos permite proyectar, por lo tanto no hay una relación lineal fuerte o significativa entre la declaración de renta y el derecho de matricula.

ANOVA

anova(reg1)
## Analysis of Variance Table
## 
## Response: Declaracionrenta
##                   Df     Sum Sq    Mean Sq F value    Pr(>F)    
## Derechomatricula   1 1.1321e+16 1.1321e+16  102.95 < 2.2e-16 ***
## Residuals        168 1.8474e+16 1.0996e+14                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

FORMA GRAFICA DE LA REGRESION

library(visreg)
## Warning: package 'visreg' was built under R version 4.3.3
visreg(reg1, "Derechomatricula", partial = F)