TALLER 1 Estadistica

1. Revisión de datos:

1.1 ¿Cuál es la población objetivo? Estudiantes ..

1.2 ¿Existe una muestra? ¿Cuál es? 500 estudiantes de distintos niveles educativos …

1.3 Menciones un parámetro y un estadístico en este estudio. El parametro es la confianza en el gobierno y el estadistico el nivel educativo

** 1.4 Clasifique cada una de las variables de la base de datos acuerdo con su naturaleza y nivel de medición**

“Tipos de datos

nivel educativo: cualitativo ordinal confianza en el gobierno: cualitativa ordinal (baja, media, alta) ingreso mensual: numerica continua genero: cualitativa nominal exposicion a noticias: numerica continua aprobacion del presidente: numerica discreta edad: numerica discreta

genero: categorico nominal nivel educativo:categorico ordinal confianza en el gobierno: categorico nominal exposicion de noticias: categorico nominal aprobacion de presidente: numerico discreto edad: numerico discreto ingreso mensual: numerico continuo horas de consumo de noticias: numerico continuo

Instalar y cargar paquetes necesarios

Recuerde que la instación se realiza una sóla vez con la función instal..packages(“nombre del paquete”), luego se deben llamar con la función library(nombre del paquete).

install.packages("ggplot2")

## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.4'
## (as 'lib' is unspecified)

2. Preparación de la base de datos:

Cargar base de datos:

datos = read.csv("dataset_aprobacion_presidente.csv")

Nombres de variables

names(datos)

## [1] "genero"                 "nivel_educativo"        "confianza_gobierno"    
## [4] "exposicion_noticias"    "aprobacion_presidente"  "edad"                  
## [7] "ingreso_mensual"        "horas_consumo_noticias"

Dimesiones de la base de datos

dim(datos)

## [1] 300   8

Revisiòn de datos faltantes

### Revisión de valores faltantes

sum(is.na(datos))

## [1] 45

Revisión de datos atípicos

sum(is.na(datos))

## [1] 45

Hay algunos valores atipicos en ingresos mensuales y horas de consumo en noticias

3. Organización de datos en tablas de frecuencias:

Tabla para la variable: genero

# Cargar los datos
datos <- read.csv("dataset_aprobacion_presidente.csv")

# Crear la tabla de frecuencias
tabla_frecuencia <- as.data.frame(table(datos$genero))

# Renombrar columnas
colnames(tabla_frecuencia) <- c("Género", "Frecuencia")

# Mostrar la tabla de frecuencias
print(tabla_frecuencia)

##      Género Frecuencia
## 1  femenino        135
## 2 masculino        136
## 3      otro         29

#tabla 2

Tabla para la variable: Confianza en el gobierno

# Crear la tabla de frecuencias para la variable confianza en el gobierno
tabla_confianza <- as.data.frame(table(datos$confianza_gobierno))

# Renombrar columnas
colnames(tabla_confianza) <- c("Confianza en el Gobierno", "Frecuencia Absoluta")

# Calcular la frecuencia relativa
tabla_confianza$Frecuencia_Relativa <- tabla_confianza$`Frecuencia Absoluta` / sum(tabla_confianza$`Frecuencia Absoluta`)

# Calcular la frecuencia acumulada
tabla_confianza$Frecuencia_Acumulada <- cumsum(tabla_confianza$`Frecuencia Absoluta`)

# Mostrar la tabla de frecuencias
print(tabla_confianza)

##   Confianza en el Gobierno Frecuencia Absoluta Frecuencia_Relativa
## 1                     alta                  39           0.1300000
## 2                     baja                 161           0.5366667
## 3                    media                 100           0.3333333
##   Frecuencia_Acumulada
## 1                   39
## 2                  200
## 3                  300

#tabla agrupada

Tabla para las variables: Hora de exposicion a noticias

# Crear la tabla de frecuencias para la variable exposición a noticias
tabla_exposicion <- as.data.frame(table(datos$exposicion_noticias))

# Mostrar la tabla de frecuencias
print(tabla_exposicion)

##       Var1 Freq
## 1     alta   70
## 2     baja   93
## 3 moderada  137

#tabla de contingencia

4. Organización de datos en gráficos

Gráfico de tipo circular para la variable: Aprobacion presidencial

# Gráfico 1

# Crear la tabla de frecuencias
tabla_aprobacion <- table(datos$aprobacion_presidente)

# Crear el gráfico de pastel
pie(tabla_aprobacion, 
    labels = paste(names(tabla_aprobacion), "(", round(prop.table(tabla_aprobacion) * 100, 1), "%)"), 
    main = "Distribución de Aprobación Presidencial",
    col = rainbow(length(tabla_aprobacion)))

# Agregar leyenda
legend("topright", legend = names(tabla_aprobacion), fill = rainbow(length(tabla_aprobacion)))

¿Qué ve?

La mayoria de encuestados muestran una desaprobacion alta hacia la gestion presidencial

Gráfico de tipo barras para la variable: Edad

     # Cargar los datos
datos <- read.csv("dataset_aprobacion_presidente.csv")

# Crear el histograma (gráfico de barras para variable numérica)
hist(datos$edad, 
     main = "Distribución de Edades", 
     xlab = "Edad", 
     ylab = "Frecuencia", 
     col = "skyblue", 
     border = "black", 
     breaks = 10)  # Ajusta el número de barras según sea necesario

¿Qué ve? Resalta un mayor numero de personas en los intervalos entre 40 y 50 años, mientras que la edad de 10 y 70 años permanecen con menores cifras

Gráfico de tipo caja para la variable: ingreso mensual

# Crear el diagrama de caja y bigotes en orientación horizontal
boxplot(datos$ingreso_mensual, 
        main = "Diagrama de Caja y Bigotes del Ingreso Mensual", 
        xlab = "Ingreso Mensual", 
        col = "lightblue", 
        border = "black", 
        notch = TRUE, 
        horizontal = TRUE)  # Se agrega horizontal = TRUE para orientación horizontal

¿Qué ve? La mayoria de ingresos se encuentran entre 2000 y 4000, tambien se observan algunos valores atipicos en los extremos.

5. Hallazgos y conclusiones

El genero masculino fue ligeramente mayor encuestado que el femenino y drasticamente mas encuestado que el categorizado como otros.
El nivel educativo con mayor numero de personas encuestadas es el universitario, seguido por la secundaria, primaria, posgrado y por ultimo sin educacion
Segun la muestra el presidente presenta una impopularidad latente al constar con la mayoria de opiniones de popularidad en baja, seguidas de medio y por ultimo alto
La muestra se puede considerar moderadamente educada al tener un gran numero de encuestados en la categoria de “moderadamente expuesto a noticias” a pesar de tener una menor cantidad de encuestados expuestos altamente a noticias
La muestra expone que las edades en rango de entre 40 y 50 años son las mas comunes dentro del estudio
El diagrama de caja y bigotes muestra una media del salario entre 2000 y 4000

(…)

Taller1_Grupo:_7__

2025-02-XX