Primera Sesión con R

Mostrando el data frame Boston que se encuentra en el paquet MASS

library(MASS)
Boston

Directorio o carpeta de trabajo

Con la función getwd() obtengo el directorio o carpeta de trabajo

getwd()
## [1] "/cloud/project"

Establece cómo directorio de trabajo el folder agregados ubicado en “/cloud/project”*

setwd("/cloud/project/agregados")
# Pregunta por el directorio actual
getwd()
## [1] "/cloud/project/agregados"

Muestra el contenido del directorio de trabajo actual

dir()
## [1] "agregados"                       "Primera Sesión con R Civil.Rmd" 
## [3] "Primera-Sesión-con-R-Civil.html" "Primera-Sesión-con-R-Civil.Rmd" 
## [5] "project.Rproj"

Almacenamiento y eliminación de objetos

x <- 23
y <- 12
z <- 12.56

Muestra las variables

x
## [1] 23
y
## [1] 12
z
## [1] 12.56
x+y+z*x
## [1] 323.88

Descripción de un data frame

Carga y muestra el data frame Boston

library(MASS)
Boston

Muestra la estructura de las variables del data frame con la función str()

str(object, …)

Compactly Display the Structure of an Arbitrary R Object Compactly display the internal structure of an R object, a diagnostic function and an alternative to summary (and to some extent, dput). Ideally, only one line for each ‘basic’ structure is displayed. It is especially well suited to compactly display the (abbreviated) contents of (possibly nested) lists. The idea is to give reasonable output for any R object. It calls args for (non-primitive) function objects.

str(Boston)
## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : num  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 15.2 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 2.94 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

Muestra los nombres de las variables con la función name()

names(Boston)
##  [1] "crim"    "zn"      "indus"   "chas"    "nox"     "rm"      "age"    
##  [8] "dis"     "rad"     "tax"     "ptratio" "black"   "lstat"   "medv"

Muestra la variab medv

La variable medv: es median value of owner-occupied homes in $1000s.

Boston$medv
##   [1] 24.0 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 15.0 18.9 21.7 20.4 18.2
##  [16] 19.9 23.1 17.5 20.2 18.2 13.6 19.6 15.2 14.5 15.6 13.9 16.6 14.8 18.4 21.0
##  [31] 12.7 14.5 13.2 13.1 13.5 18.9 20.0 21.0 24.7 30.8 34.9 26.6 25.3 24.7 21.2
##  [46] 19.3 20.0 16.6 14.4 19.4 19.7 20.5 25.0 23.4 18.9 35.4 24.7 31.6 23.3 19.6
##  [61] 18.7 16.0 22.2 25.0 33.0 23.5 19.4 22.0 17.4 20.9 24.2 21.7 22.8 23.4 24.1
##  [76] 21.4 20.0 20.8 21.2 20.3 28.0 23.9 24.8 22.9 23.9 26.6 22.5 22.2 23.6 28.7
##  [91] 22.6 22.0 22.9 25.0 20.6 28.4 21.4 38.7 43.8 33.2 27.5 26.5 18.6 19.3 20.1
## [106] 19.5 19.5 20.4 19.8 19.4 21.7 22.8 18.8 18.7 18.5 18.3 21.2 19.2 20.4 19.3
## [121] 22.0 20.3 20.5 17.3 18.8 21.4 15.7 16.2 18.0 14.3 19.2 19.6 23.0 18.4 15.6
## [136] 18.1 17.4 17.1 13.3 17.8 14.0 14.4 13.4 15.6 11.8 13.8 15.6 14.6 17.8 15.4
## [151] 21.5 19.6 15.3 19.4 17.0 15.6 13.1 41.3 24.3 23.3 27.0 50.0 50.0 50.0 22.7
## [166] 25.0 50.0 23.8 23.8 22.3 17.4 19.1 23.1 23.6 22.6 29.4 23.2 24.6 29.9 37.2
## [181] 39.8 36.2 37.9 32.5 26.4 29.6 50.0 32.0 29.8 34.9 37.0 30.5 36.4 31.1 29.1
## [196] 50.0 33.3 30.3 34.6 34.9 32.9 24.1 42.3 48.5 50.0 22.6 24.4 22.5 24.4 20.0
## [211] 21.7 19.3 22.4 28.1 23.7 25.0 23.3 28.7 21.5 23.0 26.7 21.7 27.5 30.1 44.8
## [226] 50.0 37.6 31.6 46.7 31.5 24.3 31.7 41.7 48.3 29.0 24.0 25.1 31.5 23.7 23.3
## [241] 22.0 20.1 22.2 23.7 17.6 18.5 24.3 20.5 24.5 26.2 24.4 24.8 29.6 42.8 21.9
## [256] 20.9 44.0 50.0 36.0 30.1 33.8 43.1 48.8 31.0 36.5 22.8 30.7 50.0 43.5 20.7
## [271] 21.1 25.2 24.4 35.2 32.4 32.0 33.2 33.1 29.1 35.1 45.4 35.4 46.0 50.0 32.2
## [286] 22.0 20.1 23.2 22.3 24.8 28.5 37.3 27.9 23.9 21.7 28.6 27.1 20.3 22.5 29.0
## [301] 24.8 22.0 26.4 33.1 36.1 28.4 33.4 28.2 22.8 20.3 16.1 22.1 19.4 21.6 23.8
## [316] 16.2 17.8 19.8 23.1 21.0 23.8 23.1 20.4 18.5 25.0 24.6 23.0 22.2 19.3 22.6
## [331] 19.8 17.1 19.4 22.2 20.7 21.1 19.5 18.5 20.6 19.0 18.7 32.7 16.5 23.9 31.2
## [346] 17.5 17.2 23.1 24.5 26.6 22.9 24.1 18.6 30.1 18.2 20.6 17.8 21.7 22.7 22.6
## [361] 25.0 19.9 20.8 16.8 21.9 27.5 21.9 23.1 50.0 50.0 50.0 50.0 50.0 13.8 13.8
## [376] 15.0 13.9 13.3 13.1 10.2 10.4 10.9 11.3 12.3  8.8  7.2 10.5  7.4 10.2 11.5
## [391] 15.1 23.2  9.7 13.8 12.7 13.1 12.5  8.5  5.0  6.3  5.6  7.2 12.1  8.3  8.5
## [406]  5.0 11.9 27.9 17.2 27.5 15.0 17.2 17.9 16.3  7.0  7.2  7.5 10.4  8.8  8.4
## [421] 16.7 14.2 20.8 13.4 11.7  8.3 10.2 10.9 11.0  9.5 14.5 14.1 16.1 14.3 11.7
## [436] 13.4  9.6  8.7  8.4 12.8 10.5 17.1 18.4 15.4 10.8 11.8 14.9 12.6 14.1 13.0
## [451] 13.4 15.2 16.1 17.8 14.9 14.1 12.7 13.5 14.9 20.0 16.4 17.7 19.5 20.2 21.4
## [466] 19.9 19.0 19.1 19.1 20.1 19.9 19.6 23.2 29.8 13.8 13.3 16.7 12.0 14.6 21.4
## [481] 23.0 23.7 25.0 21.8 20.6 21.2 19.1 20.6 15.2  7.0  8.1 13.6 20.1 21.8 24.5
## [496] 23.1 19.7 18.3 21.2 17.5 16.8 22.4 20.6 23.9 22.0 11.9

Muestra la estadística descriptiva de la variable medv con la función summary()

summary(Boston)
##       crim                zn             indus            chas        
##  Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
##  1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
##  Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
##  Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
##  3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
##  Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
##       nox               rm             age              dis        
##  Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
##       rad              tax           ptratio          black       
##  Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
##      lstat            medv      
##  Min.   : 1.73   Min.   : 5.00  
##  1st Qu.: 6.95   1st Qu.:17.02  
##  Median :11.36   Median :21.20  
##  Mean   :12.65   Mean   :22.53  
##  3rd Qu.:16.95   3rd Qu.:25.00  
##  Max.   :37.97   Max.   :50.00

Interpretación del resumen de los precios de las casas de Boston

Crear una variable precios con los precios de las casas en dolaes y pesos

precios1 <- Boston$medv * 1000
precios2 <- precios1 * 3900

Resumen descriptivo de los precios en dolares

summary(precios1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5000   17025   21200   22533   25000   50000

INTERPRETACIÓN:

Claro, estos resultados provienen de la función summary() aplicada a los datos de los precios de las casas en Boston en dólares. Cada valor en la salida representa un estadístico descriptivo específico:

  • Min.: Este es el valor mínimo observado en los datos. En este caso, el precio mínimo registrado para una casa en Boston es de $5000.
  • 1st Qu.: Este es el primer cuartil o el valor que separa el 25% más bajo de los datos del 75% superior. En otras palabras, el 25% de las casas tienen un precio inferior o igual a $17025.
  • Median: También conocida como la mediana, este es el valor medio de los datos. En este caso, la mediana del precio de las casas es de $21200, lo que significa que el 50% de las casas tienen un precio inferior o igual a este valor.
  • Mean: Este es el promedio aritmético de todos los valores en los datos. El precio promedio de las casas en Boston es de $22533.
  • 3rd Qu.: Este es el tercer cuartil o el valor que separa el 75% más bajo de los datos del 25% superior. Esto significa que el 75% de las casas tienen un precio igual o inferior a $25000.
  • Max.: Este es el valor máximo observado en los datos. En este conjunto de datos, el precio máximo registrado para una casa en Boston es de $50000.

Resumen descriptivo de los precios en pesos

summary(precios2)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##  19500000  66397500  82680000  87877945  97500000 195000000

Relación del precio de la casa en función del numero de cuartos

# Cargar el conjunto de datos Boston
library(MASS)
data(Boston)

# Asignar las variables a objetos individuales
medv <- Boston$medv
rm <- Boston$rm

# Ajustar un modelo de regresión lineal
modelo <- lm(medv ~ rm)

# Mostrar el resumen del modelo
summary(modelo)
## 
## Call:
## lm(formula = medv ~ rm)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.346  -2.547   0.090   2.986  39.433 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -34.671      2.650  -13.08   <2e-16 ***
## rm             9.102      0.419   21.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.616 on 504 degrees of freedom
## Multiple R-squared:  0.4835, Adjusted R-squared:  0.4825 
## F-statistic: 471.8 on 1 and 504 DF,  p-value: < 2.2e-16

INTERPRETACION:

El resultado del análisis de regresión lineal es el siguiente:

  • Call: Indica el modelo que se ajustó, en este caso, una regresión lineal simple de “medv” en función de “rm”.

  • Residuals: Muestra un resumen de los residuos del modelo, que son las diferencias entre los valores observados y los valores predichos por el modelo. Indica la distribución de estos residuos, con los valores mínimos, primer cuartil (1Q), mediana, tercer cuartil (3Q) y máximo.

  • Coefficients: Muestra los coeficientes estimados para el modelo. En este caso, el intercepto tiene un valor estimado de -34.671 y el coeficiente para “rm” es 9.102. Estos coeficientes indican la relación estimada entre las variables.

  • Significance codes: Proporciona códigos de significancia para los coeficientes. En este caso, ambos coeficientes son altamente significativos, con valores muy pequeños en la columna “Pr(>|t|)”.

  • Residual standard error: Es una estimación de la desviación estándar de los residuos, que es una medida de cuánto varían los valores observados respecto a los valores predichos por el modelo.

  • Multiple R-squared: Es el coeficiente de determinación, que indica la proporción de la variabilidad en la variable dependiente (“medv”) que es explicada por el modelo. En este caso, alrededor del 48.35% de la variabilidad en “medv” es explicada por el número promedio de habitaciones (“rm”).

  • Adjusted R-squared: Es una versión ajustada del coeficiente de determinación que tiene en cuenta el número de predictores en el modelo. En este caso, es similar al coeficiente de determinación.

  • F-statistic: Es una prueba de significancia global para el modelo. En este caso, el valor extremadamente alto del estadístico F y el valor p muy pequeño indican que el modelo en general es altamente significativo.

  • p-value: Es el valor p asociado con el estadístico F, que indica la probabilidad de observar el estadístico F dado que la hipótesis nula (de que todos los coeficientes son cero) es verdadera. Un valor p muy pequeño indica que podemos rechazar la hipótesis nula y concluir que al menos uno de los coeficientes en el modelo es significativamente diferente de cero. En este caso, el valor p es prácticamente cero, lo que indica una alta significancia del modelo.