Primeros Pasos en R

R es un lenguaje de programación y entorno de software libre para computación estadística. Es una herramienta poderosa para el análisis de datos, la visualización y la modelización.

Variables y tipos de datos

En R, una variable es un nombre que se utiliza para referirse a un valor. Las variables se utilizan para almacenar datos y para realizar cálculos.

Los tipos de datos en R definen el tipo de valor que puede almacenar una variable. Los tipos de datos más comunes en R son:

  1. Numéricos: Los números enteros y los números decimales.
  2. Cadena de texto: Una secuencia de caracteres.
  3. Lógico: Un valor verdadero o falso.

Para definir una variable en R, se utiliza el operador de asignación (<-). Por ejemplo, para definir una variable de tipo numérico llamada mi_numero que almacene el valor 42, se escribiría el siguiente código:

mi_numero <- 42

El siguiente código crea tres variables de tres tipos de datos distintos

La primera línea de código asigna el valor 42 a la variable mi_numero. El operador de asignación es <-. La segunda línea de código asigna la cadena de texto “Hola, mundo!” a la variable mi_texto. Una cadena de texto es una secuencia de caracteres delimitada por comillas dobles. La tercera línea de código asigna el valor lógico TRUE a la variable mi_logico. El valor lógico TRUE representa un valor verdadero, mientras que el valor lógico FALSE representa un valor falso.

mi_numero <- 42                     # Un número entero 
mi_texto <- "Hola, mundo!"      # Un texto 
mi_logico <- TRUE               # Un valor lógico (verdadero)
mi_numero
## [1] 42
mi_texto
## [1] "Hola, mundo!"
mi_logico
## [1] TRUE

Operaciones básicas

suma <- 5 + 3 
resta <- 10 - 2 
multiplicacion <- 4 * 6 
division <- 20 / 4 
potencia <- 20^4

Vectores y matrices

vector_numerico <- c(1, 2, 3, 4, 5) 
vector_texto <- c("manzana", "banana", "cereza") 
matriz <- matrix(1:9, nrow = 3, ncol = 3) 

Acceso a elementos en vectores y matrices

primer_elemento <- vector_numerico[1] 
tercer_elemento <- vector_texto[3] 
elemento_matriz <- matriz[2, 2] 

Impresión en pantalla

print(suma) 
## [1] 8
print(vector_numerico) 
## [1] 1 2 3 4 5

Acceso a DatFrames de paquetes dataset cars del paquete datasets

cars
summary(cars) 
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
plot(cars) 

Acceso a dataset en paquete, ejemplo: el dataset Boston en el paquete MASS

library(MASS) 
data(Boston) 
summary(Boston)
##       crim                zn             indus            chas        
##  Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   Min.   :0.00000  
##  1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1st Qu.:0.00000  
##  Median : 0.25651   Median :  0.00   Median : 9.69   Median :0.00000  
##  Mean   : 3.61352   Mean   : 11.36   Mean   :11.14   Mean   :0.06917  
##  3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10   3rd Qu.:0.00000  
##  Max.   :88.97620   Max.   :100.00   Max.   :27.74   Max.   :1.00000  
##       nox               rm             age              dis        
##  Min.   :0.3850   Min.   :3.561   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median :6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5547   Mean   :6.285   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6240   3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :0.8710   Max.   :8.780   Max.   :100.00   Max.   :12.127  
##       rad              tax           ptratio          black       
##  Min.   : 1.000   Min.   :187.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median :330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   :408.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   :711.0   Max.   :22.00   Max.   :396.90  
##      lstat            medv      
##  Min.   : 1.73   Min.   : 5.00  
##  1st Qu.: 6.95   1st Qu.:17.02  
##  Median :11.36   Median :21.20  
##  Mean   :12.65   Mean   :22.53  
##  3rd Qu.:16.95   3rd Qu.:25.00  
##  Max.   :37.97   Max.   :50.00

Introducción a la Estadística con R

La estadística con R es el uso del lenguaje de programación R para realizar análisis estadísticos de datos. R es un lenguaje de programación gratuito y de código abierto que es muy popular entre los estadísticos y los científicos de datos.

Una introducción a la estadística con R suele cubrir los siguientes temas:

  • Introducción a la estadística: Conceptos básicos de estadística descriptiva e inferencial.
  • Fundamentos de R: Variables, tipos de datos, operadores, funciones y otros elementos básicos de R.
  • Análisis estadístico con R: Cómo realizar cálculos estadísticos, crear gráficos y realizar análisis de datos avanzados.

Una introducción a la estadística con R es una excelente manera de aprender a usar R para realizar análisis estadísticos.

Creación de un vector de datos (puedes usar datos reales)

datos <- c(34, 45, 23, 67, 56, 43, 29, 48, 56, 39)

Cálculo de estadísticas descriptivas

media <- mean(datos) 
mediana <- median(datos) 
desviacion <- sd(datos) 
resumen <- summary(datos) 

Imprimir las estadísticas

cat("Media:", media, "\n") 
## Media: 44
cat("Mediana:", mediana, "\n") 
## Mediana: 44
cat("Desviación Estándar:", desviacion, "\n") 
## Desviación Estándar: 13.44123

Visualización básica de datos

hist(datos, main = "Histograma de Datos", xlab = "Valores", ylab = "Frecuencia")