0.1 La importancia de estudiar RStudio para el procesamiento de datos.

El manejo eficiente y preciso de la información es un pilar fundamental en las disciplinas que dependen de la interpretación rigurosa de datos. En este contexto, RStudio, como entorno de desarrollo integrado para el lenguaje de programación R, se ha convertido en una herramienta indispensable para el procesamiento, análisis y visualización de datos.

RStudio es una herramienta clave para el análisis y visualización de datos en diversas disciplinas.
En Derecho, facilita el estudio de jurisprudencia y estadísticas judiciales para identificar patrones y evaluar reformas.
En Ciencia de Datos, permite limpiar, transformar, modelar y visualizar información mediante librerías especializadas.
En Psicología, apoya la validación de hipótesis y el análisis de datos de experimentos y encuestas.
En Relaciones Internacionales, ayuda a procesar indicadores globales y modelar escenarios geopolíticos.

Su dominio fortalece las habilidades analíticas y promueve decisiones basadas en evidencia en un mercado laboral orientado a los datos.

1 Instalación y Configuración de R-STUDIO

Para comenzar a usar R, el primer paso es instalarlo en tu computadora. R es compatible con casi todas las plataformas, incluyendo los sistemas operativos más comunes. Windows, Mac OS X y Linux. Links de descarga para R y RStudio.

RStudio es un entorno de desarrollo integrado (IDE) disponible para R, el cual tiene un buen editor con resaltado de sintaxis, un visor de objetos de R y un gran número de características agradables que están integradas.Ademas, esta dedicado a la computación estadística y gráficos.

1.1 “Mundo” Tidyverse en R-Studio

El Tidyverse es una colección de paquetes del R que permiten preparar, procesar y graficar bases de datos. Se destacan los siguientes:

ggplot: permite crear visualizaciones elegantes de los datos de una manera relativamente sencilla.
stringr: permite manipular cadenas de caracteres con el fin de realizar sustituciones, detectar duplicados, analizar patrones, etc.
tidyr: tiene como objetivo obtener datos ordenados. Destacan funciones como gather para crear factores con base en nombres de columnas y separate para crear factores separando los caracteres de una columna.
readr: permite importar y exportar bases de datos en diferentes formatos y tiene implementada la función problems que detecta problemas en nuestras bases.

Para más información visitar la página web:
https://www.tidyverse.org/packages/

1.2 Creación de reportes en R con R Markdown:

2 Conceptos básicos de programación en R:

library(magrittr)
# Crear los datos
comandos <- c("x == y", "x != y", "x > y", "x < y", "x >= y", "x <= y", "&", "|", "!", "isTRUE(A)")
significado <- c("x es igual a y", "x no es igual a y", "x es mayor que y", "x es menor que y",
                 "x es mayor o igual que y", "x es menor o igual que y", "y", "o", "No", "Evalúa si A es cierta")

library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(kableExtra)

## 
## Adjuntando el paquete: 'kableExtra'

## The following object is masked from 'package:dplyr':
## 
##     group_rows

tabla <- data.frame(Comando = comandos, Significado = significado)

tabla %>%
  kbl(col.names = c("Comando", "Significado"), booktabs = TRUE) %>%
  kable_styling(full_width = TRUE, position = "center", font_size = 24) %>%
  row_spec(0, bold = TRUE, background = "#D3D3D3") %>%
  kable_paper("striped", full_width = FALSE) %>%
  column_spec(1, width = "6cm") %>%
  column_spec(2, width = "12cm")

Comando	Significado
x == y	x es igual a y
x != y	x no es igual a y
x > y	x es mayor que y
x < y	x es menor que y
x >= y	x es mayor o igual que y
x <= y	x es menor o igual que y
&	y

2.1 Creación de Objetos

R es un lenguaje orientado a objetos. Los objetos pueden ser usados para guardar valores y pueden madificarse mediante funciones como por ejemplo sumar dos objetos o calcular la media.

X <- 4
Y <- 2

2.1.1 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las operaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
Z <- X +Y

Z

## [1] 6

#multiplicación
2*2

## [1] 4

#división
2/2

## [1] 1

#potencia
4^2

## [1] 16

#raíz cuadrada
sqrt(16)

## [1] 4

3 Visualización de Bases de datos en R.

3.1 Cargar paquetes

Lo primero que tenemos que hacer es cargar los paquetes que vamos a utilizar para el análisis. En este caso vamos a usar:

library(tidyverse)# Incluye paquetes de importación, visualización entre otros

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ ggplot2   3.5.1     ✔ stringr   1.5.1
## ✔ lubridate 1.9.4     ✔ tibble    3.2.1
## ✔ purrr     1.0.4     ✔ tidyr     1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ tidyr::extract()         masks magrittr::extract()
## ✖ dplyr::filter()          masks stats::filter()
## ✖ kableExtra::group_rows() masks dplyr::group_rows()
## ✖ dplyr::lag()             masks stats::lag()
## ✖ purrr::set_names()       masks magrittr::set_names()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(dplyr)# Manipulación de Datos
library(ggplot2)# Visualización de datos 
library(readxl)# Importación de datos
require(tibble)# Tablas

Recordar que si no ha instalado estos paquetes debe correr primero el comando: install.packages("nombre del paquete")

4 Análisis Exploratorio de Datos

El análisis exploratorio de datos (Ver video) (EDA por sus siglas en inglés) implica el uso de gráficos y visualizaciones para explorar y analizar un conjunto de datos. El objetivo es explorar, investigar y aprender, no confirmar hipótesis estadísticas.

4.1 ¿Cuándo debo utilizarlo?

El análisis exploratorio de datos es una potente herramienta para explorar un conjunto de datos. Incluso cuando su objetivo es efectuar análisis planificados, el EDA puede utilizarse para limpiar datos, para análisis de subgrupos o simplemente para comprender mejor los datos. Un paso inicial importante en cualquier análisis de datos es representar los datos gráficamente.

No gráfico: Calcula estadísticas descriptivas de las variables

Gráfico: Calcula estadísticas de forma gráfica

Univariado: Analiza una sola variable a la vez

Multivariado: Analiza dos o más variables

A su vez, cada uno de esas dividisiones puede subdividirse según los tipos de datos con los que trabajemos: categóricos o numéricos.

4.2 Pasos para un Análisis Exploratorio de Datos (EDA)

4.2.1 Comprender el contexto

4.2.2 Importar datos:

Cargar los datos.
Comprender la estructura del dataset.

4.2.3 Limpieza, tratamiento y preparación:

Revisión de los tipos de datos y conversión si es necesario.
Revisión de valores faltantes.
Resumen estadístico inicial.
Detección de outliers.
- Los atípicos deben ser tratados.
- Si se tratan con imputación, y esta debe ser evaluada utilizando histogramas o pruebas analíticas de igualdad de distribución, dependiendo del resultado de la normalidad.

4.2.4 Análisis descriptivo de las variables:

Análisis de la distribución de las variables.
Identificación de relaciones entre variables.
Análisis de variables categóricas.
Exploración de interacciones de variables.

4.2.5 Documentación de hallazgos.

4.3 Representación de datos según su Naturaleza

tabla <- data.frame(
  "Naturaleza de la variable" = c("Cualitativa", "", "Cuantitativa", ""),
  "Escala de Medidas" = c("Nominal", "Ordinal", "Intervalo", "Razon"),
  "Frecuencias" = c("Si", "Si", "Agrupadas", ""),
  "Medidas de Localizacion" = c("Moda", "Moda", "Media, Mediana y Moda", ""),
  "Medidas de Dispersion" = c("No", "No", "Si", "Si"),
  "Medidas de Distribucion" = c("No", "No", "Si", "Si"),
  "Graficos" = c("Sectores, Barras", "Sectores, Barras (sin orden)", "Histograma, Tallo y hojas, Cajas y Bigotes, Dispersion.", "")
)

# Create the table with kableExtra
library(knitr)
library(kableExtra)

tabla %>%
  kable("html", align = "c", col.names = c(
    "Naturaleza de la variable", 
    "Escala de Medidas", 
    "Frecuencias", 
    "Medidas de Localizacion", 
    "Medidas de Dispersion", 
    "Medidas de Distribucion", 
    "Graficos"
  )) %>%
  kable_styling(full_width = F, position = "center", bootstrap_options = c("striped", "hover", "condensed", "responsive")) %>%
  row_spec(0, bold = TRUE, background = "#D9E2F1", color = "black") %>%
  row_spec(1:2, background = "white", color = "black") %>%
  row_spec(3:4, background = "#E7E7E7", color = "black")

Naturaleza de la variable	Escala de Medidas	Frecuencias	Medidas de Localizacion	Medidas de Dispersion	Medidas de Distribucion	Graficos
Cualitativa	Nominal	Si	Moda	No	No	Sectores, Barras
	Ordinal	Si	Moda	No	No	Sectores, Barras (sin orden)
Cuantitativa	Intervalo	Agrupadas	Media, Mediana y Moda	Si	Si	Histograma, Tallo y hojas, Cajas y Bigotes, Dispersion.
	Razon			Si	Si

4.4 Presentación y análisis de la Información en estudios Descríptivos.

tabla <- data.frame(
  "Tipo de Tabla" = c(
    "De Frecuencia (Variable Cualitativa)",
    "De Frecuencia (Variable Cuantitativa)",
    "De Asociacion (Dos Variables Cualitativas)",
    "De Asociacion (Una Variable Cualitativa y una Cuantitativa Discreta)",
    "De Asociacion (Una Variable Cualitativa y una Cuantitativa Continua)",
    "De Asociacion (Dos Variables Cuantitativas)"
  ),
  "Tipo de Grafico" = c(
    "- Barras simples\n- Pastel",
    "- Histograma",
    "- Barras compuestas\n- Barras superpuestas",
    "- Barras:\n  * Compuestas\n  * Superpuestas",
    "- Poligono de Frecuencia\n- Box plot (diagrama de cajas y bigotes)",
    "- Diagrama de Puntos"
  ),
  stringsAsFactors = FALSE
)

# Creating the table using kableExtra
tabla %>%
  kable("html", escape = FALSE, align = "l", col.names = c("Tipo de Tabla", "Tipo de Grafico")) %>%
  kable_styling(full_width = F, position = "center", bootstrap_options = c("striped", "hover", "condensed", "responsive")) %>%
  row_spec(0, bold = TRUE, background = "#D9E2F1", color = "black") %>%
  row_spec(c(3, 4), background = "#F2F2F2", color = "black") %>%
  row_spec(c(2, 5), background = "white", color = "black") %>%
  row_spec(c(1, 6), background = "#E7E7E7", color = "black") %>%
  column_spec(1, width = "4cm") %>%
  column_spec(2, width = "6cm")

Tipo de Tabla	Tipo de Grafico
De Frecuencia (Variable Cualitativa)	Barras simples Pastel
De Frecuencia (Variable Cuantitativa)	Histograma
De Asociacion (Dos Variables Cualitativas)	Barras compuestas Barras superpuestas
De Asociacion (Una Variable Cualitativa y una Cuantitativa Discreta)	Barras: Compuestas Superpuestas
De Asociacion (Una Variable Cualitativa y una Cuantitativa Continua)	Poligono de Frecuencia Box plot (diagrama de cajas y bigotes)
De Asociacion (Dos Variables Cuantitativas)	Diagrama de Puntos

4.5 Situación Problema.

Exploración de la Intersección entre la Psicología y la Ciencia de Datos: Comportamiento Humano en Entornos Digitales

En un centro de investigación psicológica enfocado en el comportamiento humano en entornos digitales como redes sociales y plataformas de juegos en línea. Recopilamos datos que incluyen variables demográficas, patrones de uso de redes sociales, datos de juegos en línea y mediciones psicológicas. Utilizamos herramientas de ciencia de datos y análisis estadístico para identificar patrones significativos que ayuden a comprender cómo diferentes factores influyen en el comportamiento en línea y el bienestar psicológico. Este enfoque integrado entre la psicología y la ciencia de datos nos permite desarrollar intervenciones efectivas para mejorar la calidad de vida en línea y promover la salud mental de los usuarios.

4.6 Construcción de una base de datos

A continuación se construirá la primera base de datos a partir de las variables. Para esto, como se observa en los siguientes comandos, se parte por la construcción de 11 variables de 20 casos cada una:

#Creación de las variables: todas tienen la misma cantidad de casos.
Paciente <- c("Mario", "Luis", "Pedro", "Maria", "Sandra", "Erika", "Laura","Luz","Olga")
Edad <- c(18, 20, 20, 17, 19, 22, 22, 22,31)
Sexo <- c("Masculino", "Femenino", "Masculino", "Femenino", "Masculino", "Femenino", "Masculino", "Femenino","Femenino")
Educacion <- c("Universidad", "Secundaria", "Universidad", "Posgrado", "Universidad", "Universidad", "Universidad", "Posgrado","Posgrado")
Ocupacion <- c("Estudiante", "Profesional", "Estudiante", "Profesional", "Estudiante", "Profesional", "Estudiante", "Profesional","Posgrado")
Red_Social_Principal <- c("Instagram", "Facebook", "Instagram", "Twitter", "TikTok", "Instagram", "Facebook", "Instagram","TikTok")
Tiempo_en_Redes_Sociales <- c(2.5, 3.0, 2.0, 2.5, 3.5, 2.2, 2.8, 3.0,2.0)
Horas_Semanales_de_Juego <- c(15, 20, 12, 10, 18, 15, 20, 15,41)
Autoestima <- c(8.2, 6.9, 7.8, 7.0, 8.5, 7.3, 8.0, 7.6,9)
Ansiedad_Social <- c(42, 50, 38, 45, 35, 48, 40, 42,45)
Satisfaccion_con_la_Vida <- c(7.5, 6.9, 8.0, 7.2, 7.8, 6.5, 7.0, 7.3,8)
Estres<- c(2,2,1,3,4,2,1,4,4)

A partir de las variables ya creadas se puede construir una base de datos.

df=data.frame(Paciente, Edad,Sexo,Edad,Educacion, Ocupacion, Red_Social_Principal,Horas_Semanales_de_Juego,Ansiedad_Social,Satisfaccion_con_la_Vida,Estres)
df

5 Representación de datos

La representación de datos se refiere al proceso de presentar la información de manera visual o tabular para facilitar su comprensión, análisis y comunicación. Esta representación puede tomar diversas formas, incluyendo gráficos, tablas, diagramas, mapas y resúmenes estadísticos. El objetivo principal de la representación de datos es convertir datos crudos en información comprensible y significativa.

Aquí hay una descripción de algunas formas comunes de representación de datos:

Gráficos: Los gráficos son representaciones visuales de datos que utilizan diferentes tipos de elementos visuales, como líneas, barras, puntos y áreas, para mostrar la relación entre variables o la distribución de datos. Algunos tipos comunes de gráficos incluyen gráficos de barras, gráficos de líneas, gráficos circulares, histogramas y diagramas de dispersión.

Tablas: Las tablas son representaciones tabulares de datos que organizan la información en filas y columnas. Las tablas son útiles para mostrar datos detallados o para comparar valores entre diferentes categorías o grupos. Pueden incluir valores numéricos, texto descriptivo y otras características.

5.1 Representación en Gráficos.

Para visualizar los datos en formato dataframe puede usar el comando View() o también head() para visualizar las primeras filas en consola.

head(df)

5.1.1 Diagrama de barras

ggplot2 es un sistema para crear gráficos de forma declarativa, basado en la Gramática de los Gráficos. Se deben proporcionar los datos, indicar a ggplot2 cómo asignar las variables a la estética y qué tipo de gráficas utilizar. La función geom_bar() se utiliza para producir gráficos de área 1d: gráficos de barras para x categóricas, e histogramas para y continuas

library(ggplot2)
ggplot(data=df, aes(x=Paciente, y=Edad)) + geom_bar(stat="identity")+labs(title = "Distribución de Edad por Paciente")

El diagrama puede ser dibujado en forma horizontal usando la función coord_flip()

ggplot(data=df, aes(x=Paciente, y=Edad)) + geom_bar(stat="identity")+labs(title = "Distribución de Edad por Paciente")+ coord_flip()

Podemos cambiar el ancho, así como también el color de las barras y bordes. Nótese que se puede hacer una copia de la gráfica en una variable, en este ejemplo en p para que luego pueda ser usada para presentar el grafico o realizar más transformaciones

ggplot(data=df, aes(x=Paciente, y=Edad)) + geom_bar(stat="identity",width=0.5)+labs(title = "Distribución de Edad por Paciente")

ggplot(data=df, aes(x=Paciente, y=Edad)) + geom_bar(stat="identity",width=0.5,color="blue", fill="green3")+labs(title = "Distribución de Edad por Paciente")

ggplot(data=df, aes(x=Paciente, y=Edad)) + geom_bar(stat="identity",width=0.8, fill="steelblue")+labs(title = "Distribución de Edad por Paciente")

#creando tabla de resumen
Tabla_1 <- df %>%
  dplyr::group_by(Red_Social_Principal) %>%                                  
  dplyr::summarise(Total = n()) %>%                                
  dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 1)) %>%   
  dplyr::arrange(Red_Social_Principal)
Tabla_1

"Grafico"

## [1] "Grafico"

G1<-ggplot(Tabla_1, aes(x =Red_Social_Principal, y=Total) ) + 
  geom_bar(width = 0.7,stat="identity",                 
           position = position_dodge(), fill="cyan4") +  
  ylim(c(0,5))+
  #xlim(c(0,300)) +                  
  #ggtitle("Un título") + 
  labs(x="Red Social", y= "Frecuencias \n (Porcentajes)")   +   
  geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%", ")")),  
            vjust=-0.9, 
            color="black", 
            hjust=0.5,
            # define text position and size
            position = position_dodge(0.9),  
            angle=0, 
            size=4.5) +   
  theme(axis.text.x = element_text(angle = 0, vjust = 1, hjust=1)) +      
  theme_bw(base_size = 16) +
  #coord_flip() +                                                         
  facet_wrap(~"Distribución de Tipo de Red Social")
G1

5.1.2 Gráfico de barras agrupado

Un gráfico de barras agrupado muestra un valor numérico para un conjunto de entidades divididas en grupos y subgrupos.

El conjunto de datos para el presente ejemplo proporciona 3 columnas: el valor numérico (value), y 2 variables categóricas. En el llamada aes(), x es (categ), y el subgrupo (categ) se da al argumento fill. En la función geom_bar(), debe especificarse position=“dodge” para que las barras estén una al lado de la otra.

El siguiente llamado es utilizado para el gráfico de barras agrupado

head(df)

ggplot(df, aes(fill = Sexo, y = Edad, x = Red_Social_Principal, label = Edad)) +
  geom_bar(position = "dodge", stat = "identity") +
  labs(title = "Distribución de la Red Social según la Edad y Sexo",
       x = "Red Social Principal",
       y = "Edad",
       fill = "Sexo")

ggplot(df, aes(fill = Sexo, x = Red_Social_Principal)) +
  geom_bar(position = "stack") +
  geom_text(stat = 'count', aes(label = ..count..), position = position_stack(vjust = 0.5), size = 3, color = "black") +
  labs(title = "Distribución de la Red Social según el Sexo",
       x = "Red Social Principal",
       y = "Frecuencia") +
  scale_fill_manual(values = c("blue2", "pink2"), name = "Sexo", labels = c("Hombre", "Mujer")) +
  theme(legend.position = "right")  # Ubicación de la leyenda

## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

5.1.3 Histograma

Los histogramas son útiles para representar la distribución de variables continuas como Edad, Tiempo en Redes Sociales y Horas Semanales de Juego. Cada barra del histograma muestra la frecuencia de los datos..

ggplot(data = df, aes(x = Edad)) +
  geom_histogram(binwidth = 1, fill = "skyblue", color = "black", alpha = 0.8) +
  labs(title = "Histograma de Edades",
       x = "Edad",
       y = "Frecuencia")

5.1.4 Gráfico Circular

ggplot2 no ofrece ningún geom específica para construir diagramas circulares (piecharts). El truco es el siguiente: El marco de datos de entrada tiene 2 columnas: los nombres de los grupos (group here) y su valor (value here), se construye un gráfico de barras apilado con una sola barra utilizando la función geom_bar(), luego se hace circular con coord_polar()

library(magrittr)
library(dplyr)

#Tabla resumen
Tabla_2 <- df %>% 
  group_by(Sexo) %>% # Variable a ser transformada
  count() %>% 
  ungroup() %>% 
  mutate(Porcentaje = `n` / sum(`n`)) %>% 
  arrange(Porcentaje) %>%
  mutate(etiquetas = scales::percent(Porcentaje))

#Grafico #2
require(scales)

## Cargando paquete requerido: scales

## 
## Adjuntando el paquete: 'scales'

## The following object is masked from 'package:purrr':
## 
##     discard

## The following object is masked from 'package:readr':
## 
##     col_factor

ggplot(Tabla_2, aes(x = "", y = Porcentaje, fill = Sexo)) +
  geom_col(color = "black") +
  geom_label(aes(label = etiquetas),
             position = position_stack(vjust = 0.5),
             show.legend = FALSE) +
  guides(fill = guide_legend(title = "Distribución de Pacientes según el Sexo")) + scale_color_gradient() +
  coord_polar(theta = "y") + ggtitle ("")

  #theme_void()

5.2 Representación en Tablas

La libreria questionr de R contiene la función freq la cual genera y formatea tablas de frecuencia simples a partir de una variable o una tabla, con porcentajes y opciones de formato. El resultado es un objeto de la clase data.frame.

library(questionr)

Tabla_Sexo <- questionr::freq(Sexo, cum = TRUE, sort = "dec", total = TRUE)
knitr::kable(Tabla_Sexo)

	n	%	val%	%cum	val%cum
Femenino	5	55.6	55.6	55.6	55.6
Masculino	4	44.4	44.4	100.0	100.0
Total	9	100.0	100.0	100.0	100.0

La tabla puede ordenarse opcionalmente en frecuencia descendente, y funciona bien con kable. Si deseamos ver la estructura de la tabla generada por freq() utilizamos la función str()

str(Tabla_Sexo)

## Classes 'freqtab' and 'data.frame':  3 obs. of  5 variables:
##  $ n      : num  5 4 9
##  $ %      : num  55.6 44.4 100
##  $ val%   : num  55.6 44.4 100
##  $ %cum   : num  55.6 100 100
##  $ val%cum: num  55.6 100 100

5.2.1 Tabla de frecuencias agrupada

Para realizar una tabla de frecuencias agrupada utilizaremos en este ejemplo la Regla de Sturges, en la que el número de clases es obtenido por medio de: \(c=1+ln(N)/ln(2)\) donde \(N\) representa el número total de datos. Consideremos el Ejemplo 23 de los apuntes, en el que se representan las edades de un conjunto de estudiantes.

Ejemplo: Se tienen las siguientes edades de algunos estudiantes

edades <- c(22, 19, 16, 13, 18, 15, 20, 14, 15, 16,
          15, 16, 20, 13, 15, 18, 15, 13, 18, 15)
knitr::kable(head(edades))

x
22
19
16
13
18
15

Encontremos el número de clases usando la regla de Sturges

n_sturges = 1 + log(length(edades))/log(2)
n_sturgesc = ceiling(n_sturges)
n_sturgesf = floor(n_sturges)

n_clases = 0
if (n_sturgesc%%2 == 0) {
  n_clases = n_sturgesf
} else {
  n_clases = n_sturgesc
}
R = max(edades) - min(edades)
w = ceiling(R/n_clases)

Calculemos ahora nuestra tabla de frecuencias con número de clases n_clases. Primero creamos una lista de fronteras de clases bins y luego agrupamos los datos basados en estas

bins <- seq(min(edades), max(edades) + w, by = w)
bins

## [1] 13 15 17 19 21 23

Edades <- cut(edades, bins)
Freq_table <- transform(table(Edades), Rel_Freq=prop.table(Freq), Cum_Freq=cumsum(Freq))
knitr::kable(Freq_table)

Edades	Freq	Rel_Freq	Cum_Freq
(13,15]	7	0.4117647	7
(15,17]	3	0.1764706	10
(17,19]	4	0.2352941	14
(19,21]	2	0.1176471	16
(21,23]	1	0.0588235	17

str(Freq_table)

## 'data.frame':    5 obs. of  4 variables:
##  $ Edades  : Factor w/ 5 levels "(13,15]","(15,17]",..: 1 2 3 4 5
##  $ Freq    : int  7 3 4 2 1
##  $ Rel_Freq: num  0.4118 0.1765 0.2353 0.1176 0.0588
##  $ Cum_Freq: int  7 10 14 16 17

Podemos también crear un histograma para la tabla de frecuencias agrupada

df2 <- data.frame(x = Freq_table$Edades, y = Freq_table$Freq)
knitr::kable(df2)

x	y
(13,15]	7
(15,17]	3
(17,19]	4
(19,21]	2
(21,23]	1

ggplot(data=df2, aes(x=x, y=y)) +
  geom_bar(stat="identity", color="blue", fill="green") +
  xlab("Rango de Edades") +
  ylab("Frecuencia")

6 Análisis Estadístico

Una función multiuso muy útil en R es summary(X), donde X puede ser uno de cualquier número de objetos, incluyendo conjuntos de datos, variables y modelos lineales, por nombrar algunos. Cuando se utiliza, el comando proporciona datos de resumen relacionados con el objeto individual que se introdujo en él. Así, la función de resumen tiene diferentes resultados dependiendo del tipo de objeto que tome como argumento. Además de ser ampliamente aplicable, este método es valioso porque a menudo proporciona exactamente lo que se necesita en términos de estadísticas de resumen.

Usando la función summary() podemos obtener estadísticos de interes y valores de posición:

summary(df$Horas_Semanales_de_Juego)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.00   15.00   15.00   18.44   20.00   41.00

Del anterior resultado se puede observar que la hora mínima en el juego fue de 10, el 25% se ubicó en 15 horas indicando que dedicaron 15 o menor o igual a 15, al igual que el 50%, en promedio dedicaron 18,4 horas de juego, el 75% dedicó menos o igual que 20 horas y la hora que más dedicaron fue de 41.

Por otro lado, se puede notar la función summary() no nos entrega todos los estadísticos de interés, para solucionar esto podemos hacer uso de la librería, pastecs y la función stat.desc(), como se muestra a continuación.

library(pastecs)

## 
## Adjuntando el paquete: 'pastecs'

## The following object is masked from 'package:tidyr':
## 
##     extract

## The following objects are masked from 'package:dplyr':
## 
##     first, last

## The following object is masked from 'package:magrittr':
## 
##     extract

stat.desc(df)

6.1 Caja y extensión

Los gráficos de caja (box plots), también conocidos como diagramas de cajas y bigotes, son una representación gráfica que permite resumir las características principales de los datos (posición, dispersión, asimetría, …) e identificar la presencia de valores atípicos. En esta sección revisaremos cómo hacer box plots en R base y en ggplot2.

Utilizando boxplot() R base

boxplot(df$Edad, horizontal=TRUE, col='steelblue')

Usando geom_boxplot() de la librería ggplot2

library(tidyverse)
library(hrbrthemes)
library(viridis)

## Cargando paquete requerido: viridisLite

## 
## Adjuntando el paquete: 'viridis'

## The following object is masked from 'package:scales':
## 
##     viridis_pal

df %>% 
  ggplot(aes(x = "", y = Edad)) +
  geom_boxplot(color = "black", fill = "yellow2", alpha = 0.5) +
  theme_ipsum() +
  theme(legend.position = "none", plot.title = element_text(size = 11)) +
  ggtitle("Distribución de las Edades") +
  coord_flip()

ggplot(df, aes(x = Sexo, y = Edad, fill = Sexo)) +
  geom_boxplot() +
  labs(title = "Diagrama de Edades según el Sexo",
       x = "Sexo", y = "Edades") +
  scale_fill_manual(values = c("lightblue", "pink")) +
  theme_minimal()

6.2 Coeficiente de Variación

El coeficiente de variación (CV) es una medida estadística que se utiliza para evaluar la variabilidad relativa de una muestra o población en relación con su media. Se calcula como la desviación estándar de los datos dividida por la media, y se expresa como un porcentaje multiplicado por 100 para facilitar su interpretación.

El CV es útil cuando se comparan distribuciones de datos con diferentes escalas o unidades, ya que normaliza la variabilidad en relación con la magnitud de los datos. Esto permite realizar comparaciones más significativas entre diferentes conjuntos de datos.

\[CV = \left( \frac{\text{Desviación Estándar}}{\text{Media}} \right) \times 100\]

Ahora vamos a hallar el coeficiente de variación de la variable Edad.

media <- mean(df$Edad)
desviacion <- sd(df$Edad)
coef_variacion <- (desviacion / media) * 100
cat("El coeficiente de variación es:", coef_variacion, "%\n")

## El coeficiente de variación es: 19.25285 %

6.3 Asimetría

El coeficiente de asimetría de Pearson es que es una medida estandarizada de la asimetría de una distribución de datos. Se calcula como el tercer momento estandarizado de la distribución, es decir, la diferencia promedio al cubo entre los datos y la media, dividida por la desviación estándar al cubo. Si el coeficiente de asimetría de Pearson es cero, la distribución es simétrica. Si es positivo, la cola de la distribución está en el lado derecho, y si es negativo, la cola está en el lado izquierdo. Esto proporciona información sobre la forma y dirección de la asimetría en la distribución de datos.

\[\text{Coeficiente de Asimetría de Pearson} = \frac{E[(X - \mu)^3]}{\sigma^3}\]

Como el coefiente de asmetría de Pearson es mayo que cero, indica que la edad presenta distribución asimetrica hacia la derecha.

6.4 Medidas de la curtosis

La curtosis es una medida estadística que describe la forma de la distribución de los datos en relación con una distribución normal estándar. La curtosis es una medida de la “picudez” de la distribución, es decir, cuán puntiaguda o aplanada es en comparación con una distribución normal.

\[\text{Curtosis} = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{x_i - \bar{x}}{s}\right)^4 - 3\]

Platicúrtica: Una distribución platicúrtica es aquella que tiene un exceso de curtosis negativo en comparación con la distribución normal estándar (cuyo exceso de curtosis es 0). Esto significa que la distribución tiene colas más ligeras y es más aplanada en comparación con la distribución normal. En una distribución platicúrtica, los valores se concentran más cerca de la media y hay menos valores extremos en comparación con una distribución normal.

Mesocúrtica: Una distribución mesocúrtica es aquella que tiene un exceso de curtosis igual a 0, es decir, su forma es similar a la de una distribución normal estándar. Esto significa que la distribución tiene una cantidad “normal” de picos y colas, y su forma se asemeja a una campana simétrica.

Leptocúrtica: Una distribución leptocúrtica es aquella que tiene un exceso de curtosis positivo en comparación con la distribución normal estándar. Esto significa que la distribución tiene colas más pesadas y es más puntiaguda en comparación con la distribución normal. En una distribución leptocúrtica, los valores tienden a agruparse más cerca de la media y hay más valores extremos en comparación con una distribución normal.

curtosis <- kurtosis(df$Edad)
cat("La curtosis de la muestra es:", curtosis, "\n")

## La curtosis de la muestra es: 0.8255815

6.5 Ejemplo Práctico #1.

Consideremos nuevamente la base de datos que contiene información acerca de incautaciones de bebidas alcohólicas fraudulentas y de contrabando en cierta ciudad. Puede acceder a la base de datos en el siguiente enlace: BASE_DATOS.xlsx.

url_base_Datos <-"https://raw.github.com/Kalbam/Datos/blob/main/BASE_DATOS.xlsx"

Las variables se describen como:

TL: Tipo de licor
PI: Precio de incautación. Se refiere al precio de venta en el establecimiento por unidad.
GAE: Grados de alcohol en etiqueta.
GAQ: Grados de alcohol en prueba química.
CE: Cantidad estandarizada. Número de unidades estandarizadas a 750 ml.

require(readxl) 
direccion="BASE_DATOS.xlsx"
DATOS<-read_excel(direccion,sheet="datos")

NOTA: La función read_excel importa un objeto tibble, que es en esencia un data.frame, pero que cuenta con algunas ventajas estéticas en las presentaciones e informes.

6.5.1 caracteristica generales de los datos

Verifiquemos que leímos bien los datos viendo el encabezado y la cola de los datos:

head(DATOS)

tail(DATOS)

Las dimensiones, los nombres de las columnas y la estructura de la base de datos se obtienen con los códigos:

dim(DATOS) # dimensiones de los datos

## [1] 300   5

colnames(DATOS) # Nombres de las columnas o variables

## [1] "TL"  "PI"  "GAE" "GAQ" "CE"

str(DATOS)

## tibble [300 × 5] (S3: tbl_df/tbl/data.frame)
##  $ TL : chr [1:300] "Aguardiente" "Aguardiente" "Aguardiente" "Aguardiente" ...
##  $ PI : num [1:300] 21470 26422 19737 30240 28374 ...
##  $ GAE: num [1:300] 29 29 29 29 38 38 29 38 38 38 ...
##  $ GAQ: num [1:300] 25.1 29 25.3 29 33.5 ...
##  $ CE : num [1:300] 251 262 289 266 232 ...

Otra función que funciona igual a str es glimpse, que hace parte del paquete tibble:

require(tibble)
glimpse(DATOS)

## Rows: 300
## Columns: 5
## $ TL  <chr> "Aguardiente", "Aguardiente", "Aguardiente", "Aguardiente", "Tequi…
## $ PI  <dbl> 21470, 26422, 19737, 30240, 28374, 33601, 33207, 33029, 30964, 309…
## $ GAE <dbl> 29, 29, 29, 29, 38, 38, 29, 38, 38, 38, 29, 29, 29, 35, 29, 38, 29…
## $ GAQ <dbl> 25.143, 29.000, 25.288, 29.000, 33.516, 31.198, 29.000, 33.060, NA…
## $ CE  <dbl> 250.6536, 261.7272, 289.1134, 266.3064, 231.7978, 248.8542, 252.57…

 summary(DATOS)

##       TL                  PI              GAE             GAQ       
##  Length:300         Min.   : 16308   Min.   :29.00   Min.   :24.27  
##  Class :character   1st Qu.: 26682   1st Qu.:29.00   1st Qu.:26.04  
##  Mode  :character   Median : 29390   Median :35.00   Median :30.07  
##                     Mean   : 31846   Mean   :33.54   Mean   :30.74  
##                     3rd Qu.: 32751   3rd Qu.:38.00   3rd Qu.:34.10  
##                     Max.   :430091   Max.   :40.00   Max.   :40.00  
##                     NA's   :5                        NA's   :2      
##        CE       
##  Min.   :  0.0  
##  1st Qu.:239.4  
##  Median :250.3  
##  Mean   :249.6  
##  3rd Qu.:261.7  
##  Max.   :296.5  
##  NA's   :3

6.5.2 Considere el resumen individual de las variables numéricas:

summary(DATOS$PI)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   16308   26682   29390   31846   32751  430091       5

summary(DATOS$GAE)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29.00   29.00   35.00   33.54   38.00   40.00

summary(DATOS$GAQ)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   24.27   26.04   30.07   30.74   34.10   40.00       2

6.5.3 Análisis Descriptivo Individual Variable categórica

Para hacer una tabla de frecuencias de las variables categóricas es necesario transformar primero la variable en factor:

# Se transforma primero en factor
 TL_FACTOR<- as.factor(DATOS$TL)
 # Se obtiene el resumen
 summary(TL_FACTOR)

##  Aguardiente Aguardientre          Ron          Run      Tequila       Whiski 
##          131            1           60            1           85            1 
##       Whisky         NA's 
##           20            1

Otra forma de obtener una tabla de frecuencias para las variables categóricas consiste en utilizar la función table del paquete base, que se carga automáticamente cuando abrimos una sesión del R o del R-Studio:

table(DATOS$TL)

## 
##  Aguardiente Aguardientre          Ron          Run      Tequila       Whiski 
##          131            1           60            1           85            1 
##       Whisky 
##           20

Para extraer los nombres de las categorías de una variable categórica usamos la función labels del paquete base:

unique(DATOS$TL)

## [1] "Aguardiente"  "Tequila"      "Ron"          "Whisky"       "Run"         
## [6] NA             "Whiski"       "Aguardientre"

Reemplazar los nombres de las categorías mal codificadas, utilizamos la función str_replace del paquete stringr y lo guardamos ya corregido directamente en la variable TL de DATOS:

require(stringr)


DATOS$TL <- str_replace(DATOS$TL, "Aguardientre", "Aguardiente")

unique(DATOS$TL)

## [1] "Aguardiente" "Tequila"     "Ron"         "Whisky"      "Run"        
## [6] NA            "Whiski"

Reemplazar los nombres de las categorías mal codificadas, utilizamos la función str_replace del paquete stringr y lo guardamos ya corregido directamente en la variable TL de DATOS:

require(stringr)

reemplazos <- c("Run" = "Ron", "Whiski" = "Whisky")

DATOS$TL <- str_replace_all(DATOS$TL, reemplazos)

unique(DATOS$TL)

## [1] "Aguardiente" "Tequila"     "Ron"         "Whisky"      NA

6.5.4 Identificando valores NA:

is.na(DATOS[1:10,]) # Identifica cuáles valores son NA

##          TL    PI   GAE   GAQ    CE
##  [1,] FALSE FALSE FALSE FALSE FALSE
##  [2,] FALSE FALSE FALSE FALSE FALSE
##  [3,] FALSE FALSE FALSE FALSE FALSE
##  [4,] FALSE FALSE FALSE FALSE FALSE
##  [5,] FALSE FALSE FALSE FALSE FALSE
##  [6,] FALSE FALSE FALSE FALSE FALSE
##  [7,] FALSE FALSE FALSE FALSE FALSE
##  [8,] FALSE FALSE FALSE FALSE FALSE
##  [9,] FALSE FALSE FALSE  TRUE FALSE
## [10,] FALSE FALSE FALSE FALSE FALSE

is.na(DATOS$TL) # Identifica cuáles valores son NA en TL

##   [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [49] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [61] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [73] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [85] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [97] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [109] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE
## [121] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [133] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [145] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [157] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [169] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [181] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [193] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [205] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [217] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [229] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [241] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [253] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [265] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [277] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [289] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

6.5.5 Identificando valores NA por columna:

 NAS_TL<-is.na(DATOS$TL) #GuardamosenNAS_TL
 DATOS[NAS_TL,] #FiltramosporlosNASdeTL

NAS_PI<-is.na(DATOS$PI) # Guardamos en NAS_PI
 DATOS[NAS_TL | NAS_PI,] # Filtramos por los NAS de TL y PI

6.5.6 Identificando las filas con al menos un NA:

La función complete.cases del paquete stats nos muestra cuáles filas tienen datos en TODAS sus columnas:

complete.cases(DATOS)

##   [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE
##  [13]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [25]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [49]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [61]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [73] FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [85]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
##  [97]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE
## [109]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE
## [121]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
## [133]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
## [145]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [157]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [169]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
## [181]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [193]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [205]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [217]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [229]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [241]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [253]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [265]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [277]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [289]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE

Cuando negamos estos casos completos obtenemos las filas donde hay al menos un valor faltante, es decir,

!complete.cases(DATOS)

##   [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE
##  [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [49] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [61] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [73]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
##  [85] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE
##  [97] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE
## [109] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE
## [121] FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE
## [133] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE
## [145] FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE
## [157] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [169] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE
## [181] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [193] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [205] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [217] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [229] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [241] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [253] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [265] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [277] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [289] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

Guardamos los valores anteriores en un vector para luego filtrar por las filas donde hay al menos un valor NA:

NAS_ALL <- !complete.cases(DATOS)

DATOS[NAS_ALL, ]  # Filas donde hay al menos un valor NA

6.5.7 Gráfica que identifica los NA en cada variable:

suppressWarnings(require(Amelia))

## Cargando paquete requerido: Amelia

## Cargando paquete requerido: Rcpp

## ## 
## ## Amelia II: Multiple Imputation
## ## (Version 1.8.3, built: 2024-11-07)
## ## Copyright (C) 2005-2025 James Honaker, Gary King and Matthew Blackwell
## ## Refer to http://gking.harvard.edu/amelia/ for more information
## ##

suppressWarnings(missmap(DATOS))

summary(DATOS)# Analicemos las mediadas de tendencia

##       TL                  PI              GAE             GAQ       
##  Length:300         Min.   : 16308   Min.   :29.00   Min.   :24.27  
##  Class :character   1st Qu.: 26682   1st Qu.:29.00   1st Qu.:26.04  
##  Mode  :character   Median : 29390   Median :35.00   Median :30.07  
##                     Mean   : 31846   Mean   :33.54   Mean   :30.74  
##                     3rd Qu.: 32751   3rd Qu.:38.00   3rd Qu.:34.10  
##                     Max.   :430091   Max.   :40.00   Max.   :40.00  
##                     NA's   :5                        NA's   :2      
##        CE       
##  Min.   :  0.0  
##  1st Qu.:239.4  
##  Median :250.3  
##  Mean   :249.6  
##  3rd Qu.:261.7  
##  Max.   :296.5  
##  NA's   :3

6.5.8 Identificando los valores atípicos:

 par(mfrow=c(1,4))
 boxplot(DATOS$PI,main="PI")
 boxplot(DATOS$GAE,main="GAE")
 boxplot(DATOS$GAQ,main="GAQ")
 boxplot(DATOS$CE,main="CE")

De los gráficos anteriores podemos ver que:

La variable PI tiene algunos valores atípicos muy altos.
Las variables GAE y GAQ NO presentan valores atípicos muy altos o muy bajos.
La variable CE presenta valores atípicos muy bajos.

Filtramos los datos sin los valores atípicos de la variable PI y de la variable CE, filtrando con la función filter del paquete dplyr con el siguiente código:

require(dplyr)
filter(DATOS, PI > 100000)

filter(DATOS, CE < 200)

Reemplazamos los valores atípicos por valores NA (lo cual es equivalente a eliminarlos):

DATOS$PI[DATOS$PI > 100000] <- NA
DATOS$CE[DATOS$CE < 200] <- NA

Repetimos los gráficos boxplot:

par(mfrow=c(1,4))
 boxplot(DATOS$PI,main="PI")
 boxplot(DATOS$GAE,main="GAE")
 boxplot(DATOS$GAQ,main="GAQ")
 boxplot(DATOS$CE,main="CE")

6.5.9 Reemplazando los valores NA de la variable Númerica:

Si se supone que estas variables tienen Distribución normal, se modifican por la Media, de lo contrario seria por la Mediana, como técnica básica de Imputación de datos.

Calculamos la media de las columnas numéricas con la función colMeans del paquete base. Para esto primero excluimos la variable categórica TL que se encuentra en la columna 1:

medias <- colMeans(DATOS[,-1], na.rm = TRUE)
medias

##          PI         GAE         GAQ          CE 
## 29518.52560    33.54000    30.74141   250.49003

El argumento na.rm=TRUE permite calcular las medias de los datos que no son NA.

6.5.10 Verificamos que ya no hay valores NA en las variables numéricas:

Para esto usamos la función replace_na del paquete tidyr:

require(tidyr)  # Cargamos el paquete

# Creamos una lista con los reemplazos:
reemplazos <- list(PI = medias[1], GAE = medias[2], GAQ = medias[3], CE = medias[4])

# Reemplazamos y guardamos en DATOS:
DATOS <- replace_na(DATOS, reemplazos)

summary(DATOS)

##       TL                  PI             GAE             GAQ       
##  Length:300         Min.   :16308   Min.   :29.00   Min.   :24.27  
##  Class :character   1st Qu.:26710   1st Qu.:29.00   1st Qu.:26.04  
##  Mode  :character   Median :29519   Median :35.00   Median :30.22  
##                     Mean   :29519   Mean   :33.54   Mean   :30.74  
##                     3rd Qu.:32459   3rd Qu.:38.00   3rd Qu.:34.07  
##                     Max.   :42022   Max.   :40.00   Max.   :40.00  
##        CE       
##  Min.   :210.9  
##  1st Qu.:239.7  
##  Median :250.5  
##  Mean   :250.5  
##  3rd Qu.:261.5  
##  Max.   :296.5

6.5.11 Reemplazando los valores NA de la variable categórica:

unique(DATOS$TL)

## [1] "Aguardiente" "Tequila"     "Ron"         "Whisky"      NA

FACTOR_TL<-as.factor(DATOS$TL) #Convertimos en factorTL
 FRECUENCIAS_TL<-summary(FACTOR_TL) #Tabla de frecuencias
 barplot(FRECUENCIAS_TL) #Graficamos las frecuencias

Si decidimos reemplazar por el valor más frecuente, lo cual NO es recomendable, lo hacemos con el código:

reemplazos <- list(TL = "Aguardiente")
DATOS <- replace_na(DATOS, reemplazos)

# Verificamos el cambio:
unique(DATOS$TL)

## [1] "Aguardiente" "Tequila"     "Ron"         "Whisky"

 FACTOR_TL<-as.factor(DATOS$TL) #Convertimos enfactor TL
 FRECUENCIAS_TL<-summary(FACTOR_TL) #Tabla de frecuencias
 barplot(FRECUENCIAS_TL) #Graficamos las frecuencias

6.5.12 Finalmente se realiza el esquema de los Datos y se verifica que no se encuentren NAS

suppressWarnings(missmap(DATOS))

Una vez realizado el procesamiento y limpieza de los datos, el siguiente paso consiste en efectuar el análisis exploratorio de datos. Para ello, continúe el ejercicio representando gráficamente las variables de mayor interés.

7 Técnicas de Estadistica Inferencial.

Para aplicar las técnicas de estadística inferencial, es necesario realizar previamente un análisis exploratorio de los datos. Tomaremos este contexto como base para la aplicación de dichas técnicas.

7.1 Ejemplo Práctico #2: Interacciones entre Factores Psicológicos y Percepción de las Relaciones Internacionales

El estudio de las relaciones internacionales no solo se basa en la política y la economía global, sino también en cómo los individuos perciben e interactúan con el mundo. Factores psicológicos como el nivel de estrés, la resiliencia y la percepción de equidad global pueden influir en la manera en que una persona interpreta los conflictos internacionales, participa en el activismo político o confía en instituciones internacionales.

7.1.1 Variables Incluidas

ID – Identificador único de cada participante.
Edad – Edad del encuestado (18 a 65 años).
Género – Masculino, Femenino, No binario.
Nivel de depresión – Escala de 1 a 10.
Nivel de resiliencia – Escala de 1 a 10.
Índice de felicidad global (0-100) – Medición autoinformada sobre la felicidad percibida.
Horas de interacción con extranjeros por semana – Cantidad de tiempo invertido en socializar con personas de otras nacionalidades.
Conocimiento en política internacional (0-100) – Escala que mide el nivel de información sobre relaciones internacionales.
Apertura a la migración (0-10) – Grado de aceptación de inmigrantes en su país.
Nivel de preocupación por conflictos internacionales (0-10) – Medición de la inquietud sobre conflictos entre países.
Participación en ONGs internacionales – Sí / No, sobre la afiliación a organizaciones no gubernamentales con enfoque global.
Grado de activismo político (0-10) – Nivel de participación en movimientos políticos o de derechos humanos.
Percepción de equidad global (0-10) – Opinión sobre la justicia y equidad entre países en términos de derechos humanos y economía.
Horas semanales dedicadas a temas de RRII – Tiempo invertido en estudiar o informarse sobre relaciones internacionales.

La base de datos utilizada para este análisis, titulada “Base de Datos Psicología y Relaciones Internacionales”, se encuentra disponible en el siguiente repositorio: GitHub - Kalbam/Datos.

Antes de aplicar las técnicas de estadística Inferecial se debe realizar un:

7.2 Análisis Exploratorio de Datos

En primer lugar analizamos las dimensiones de la base de datos:

#Necesitas instalar los sigueintes paquetes
#if (!require("readxl")) install.packages("readxl", dependencies=TRUE)
#if (!require("ggplot2")) install.packages("ggplot2", dependencies=TRUE)
#if (!require("dplyr")) install.packages("dplyr", dependencies=TRUE)
#if (!require("corrplot")) install.packages("corrplot", dependencies=TRUE)
#if (!require("ggpubr")) install.packages("ggpubr", dependencies=TRUE)
library(readxl)
library(ggplot2)
library(dplyr)
library(corrplot)

## corrplot 0.95 loaded

library(ggpubr)
data <- read_excel("Base_Datos_Psicologia_RI.xlsx", sheet = "Sheet1")
dim(data)

## [1] 100  14

Luego de visualizar la base de datos, se observa que consta de 100 observaciones con 14 variables. Además, se revela que la base de datos no cuenta con valores NA. A continuacion un resumen de las variables númericas

library(Amelia)

# Convertir a data frame clásico
data_df <- as.data.frame(data)

# Visualizar los NA
missmap(data_df)

summary(data)

##        ID              Edad          Género          Nivel de depresión
##  Min.   :  1.00   Min.   :19.00   Length:100         Min.   : 1.00     
##  1st Qu.: 25.75   1st Qu.:30.00   Class :character   1st Qu.: 3.00     
##  Median : 50.50   Median :44.50   Mode  :character   Median : 5.50     
##  Mean   : 50.50   Mean   :42.31                      Mean   : 5.38     
##  3rd Qu.: 75.25   3rd Qu.:54.25                      3rd Qu.: 8.00     
##  Max.   :100.00   Max.   :63.00                      Max.   :10.00     
##  Nivel de resiliencia Índice de felicidad global (0-100)
##  Min.   : 1.0         Min.   : 0.00                     
##  1st Qu.: 3.0         1st Qu.:29.75                     
##  Median : 5.0         Median :61.50                     
##  Mean   : 5.5         Mean   :53.48                     
##  3rd Qu.: 8.0         3rd Qu.:77.50                     
##  Max.   :10.0         Max.   :98.00                     
##  Horas de interacción con extranjeros por semana
##  Min.   : 0.00                                  
##  1st Qu.: 5.75                                  
##  Median :11.00                                  
##  Mean   :10.41                                  
##  3rd Qu.:15.00                                  
##  Max.   :20.00                                  
##  Conocimiento en política internacional (0-100) Apertura a la migración (0-10)
##  Min.   :  1.00                                 Min.   : 0.00                 
##  1st Qu.: 20.75                                 1st Qu.: 2.00                 
##  Median : 42.00                                 Median : 4.00                 
##  Mean   : 45.10                                 Mean   : 4.28                 
##  3rd Qu.: 69.00                                 3rd Qu.: 7.00                 
##  Max.   :100.00                                 Max.   :10.00                 
##  Nivel de preocupación por conflictos internacionales (0-10)
##  Min.   : 0.00                                              
##  1st Qu.: 2.00                                              
##  Median : 4.00                                              
##  Mean   : 4.48                                              
##  3rd Qu.: 7.00                                              
##  Max.   :10.00                                              
##  Participación en ONGs internacionales Grado de activismo político (0-10)
##  Length:100                            Min.   : 0.00                     
##  Class :character                      1st Qu.: 3.00                     
##  Mode  :character                      Median : 5.00                     
##                                        Mean   : 4.93                     
##                                        3rd Qu.: 7.00                     
##                                        Max.   :10.00                     
##  Percepción de equidad global (0-10) Horas semanales dedicadas a temas de RRII
##  Min.   : 0.00                       Min.   : 0.00                            
##  1st Qu.: 3.00                       1st Qu.: 5.00                            
##  Median : 5.00                       Median : 9.00                            
##  Mean   : 5.34                       Mean   :10.11                            
##  3rd Qu.: 8.00                       3rd Qu.:16.00                            
##  Max.   :10.00                       Max.   :20.00

La muestra analizada presenta un rango de edad entre 19 y 63 años, con una media de 42.31 años y una mediana de 44.50 años. El nivel de depresión varía entre 1 y 10, con una media de 5.38 y una mediana de 5.50, donde el 25% de los participantes tienen valores inferiores a 3 y el 75% inferiores a 8. En cuanto a la resiliencia, su distribución es equilibrada, con valores entre 1 y 10, y una media y mediana de 5. El índice de felicidad global presenta una amplia variabilidad (0-98), con una media de 53.48 y una mediana de 61.50, mostrando una distribución sesgada a la izquierda. Se recomienda analizar las correlaciones entre resiliencia, felicidad y depresión para comprender mejor los patrones de bienestar psicológico.

7.3 Análisis Univariados

7.3.1 Distribución de Edad

ggplot(data, aes(x = Edad)) +
  geom_histogram(binwidth = 5, fill = "skyblue", color = "black") +
  theme_minimal() +
  ggtitle("Distribución de Edad")

El histograma muestra la distribución de edades en la base de datos, con un rango que va aproximadamente de los 18 a los 70 años. Se observa una mayor concentración de individuos en los grupos de edad entre los 25 y 30 años, así como entre los 50 y 60 años, lo que indica posibles picos en la frecuencia de participantes en estas edades.

7.3.2 Distribución de la muestra por Género

La distribución no es completamente uniforme, ya que hay fluctuaciones en la cantidad de observaciones por intervalo, lo que sugiere que algunos rangos de edad están mejor representados que otros en la muestra. También se nota una menor cantidad de individuos en los extremos de la distribución, especialmente en edades cercanas a los 70 años.

gender_counts <- data %>% 
  count(Género) 

kable(gender_counts, format = "html") %>% 
  kable_styling("striped", full_width = FALSE)

Género	n
Femenino	43
Masculino	45
No binario	12

library(ggplot2)

ggplot(data, aes(x = Género, fill = Género)) +
  geom_bar(color = "black", alpha = 0.7) +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  scale_fill_manual(values = c("skyblue", "lightcoral", "plum")) +
  labs(title = "Distribución de la muestra por Género",
       x = "Género",
       y = "Frecuencia") +
  theme_minimal() +
  theme(legend.position = "none",
        plot.title = element_text(hjust = 0.5, size = 14, face = "bold"))

La muestra está compuesta por Masculino ≈ 45%, Femenino ≈ 43% y No binario ≈ 12%.

Se observa equilibrio entre hombres y mujeres, lo que facilita comparaciones entre estos dos grupos.

El grupo No binario es menor pero relevante para un análisis inclusivo; conviene reportar intervalos de confianza o evitar sobre-interpretar diferencias para este subgrupo por su menor tamaño.

7.4 Análisis Bivariados

ggplot(data, aes(x = Género, y = `Nivel de depresión`, fill = Género)) +
  geom_boxplot() +
  theme_minimal() +
  ggtitle("Nivel de Depresión por Género")

El gráfico de cajas muestra la distribución del nivel de depresión según el género de los participantes en la base de datos. Se observan diferencias en la mediana y la dispersión de los valores entre los grupos.

Femenino: Presenta una mediana de nivel de depresión intermedia en comparación con los otros géneros, con una distribución más concentrada y menor dispersión.
Masculino: Se observa una mayor dispersión en los datos, con valores más extremos, lo que sugiere una mayor variabilidad en los niveles de depresión en este grupo.
No binario: Tiene una distribución más uniforme y una mediana de nivel de depresión ligeramente superior a la del grupo femenino.

En general, se pueden notar diferencias en la variabilidad y centralidad del nivel de depresión según el género, lo que sugiere posibles factores diferenciales que influyen en la distribución de la variable analizada.

ggplot(data, aes(x = `Nivel de resiliencia`, y = `Índice de felicidad global (0-100)`)) +
  geom_point(color = "blue") +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  theme_minimal() +
  ggtitle("Relación entre Resiliencia y Felicidad")

## `geom_smooth()` using formula = 'y ~ x'

El gráfico de dispersión representa la relación entre el nivel de resiliencia y el índice de felicidad global (0-100). Se observa que los datos están distribuidos de manera dispersa, sin un patrón claramente definido.

La línea de tendencia en rojo indica una leve pendiente negativa, lo que sugiere una relación inversa muy débil entre resiliencia y felicidad. Es decir, a medida que el nivel de resiliencia aumenta, el índice de felicidad tiende a disminuir ligeramente, aunque la dispersión de los datos indica que esta relación no es fuerte ni consistente.

En general, la gran variabilidad en los datos sugiere que existen otros factores que podrían estar influyendo en la felicidad más allá de la resiliencia.

8 Taller #1

8.1 Lineamientos para Análisis Exploratorio de Datos (EDA) en RPubs (Primer Corte)

Plazo máximo: por definir.

En este informe, los estudiantes deberán organizarse en grupos de tres personas y explorar las bases de datos disponibles en el siguiente repositorio:
https://github.com/Kalbam/Data_Psicolog-a

El objetivo es realizar un análisis descriptivo básico de la base de datos seleccionada, empleando tablas de resumen y gráficos.
El producto final debe incluir un documento publicado en RPubs y un archivo .R con los códigos utilizados.

El análisis debe contener los siguientes apartados:

Contextualización de la base de datos y variables
- Describa en qué consiste la base seleccionada.
- Presente las variables explicando qué mide cada una.
Características generales de la base de datos
- Número de filas y columnas.
- Nombres de las variables.
- Tipos de variables (numéricas, categóricas, texto, etc.).
Análisis de variables según su tipo
- Describa las variables numéricas mediante medidas de resumen y gráficos.
- Describa las variables categóricas con tablas de frecuencia y gráficos de barras.
Revisión de valores faltantes (NA)
- Identifique y comente si la base contiene valores ausentes.
Detección de valores atípicos
- Analice si existen outliers en las variables numéricas y represéntelos con boxplots.
Comentarios de resultados
- Interprete y redacte conclusiones claras para cada hallazgo del análisis.

Estadística Inferencial

Psicología - Ciencia de Datos - Relaciones Internacionales

Keyla Vanessa Alba Molina MSc.