library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2 ✔ tibble 3.3.0
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.1.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(summarytools)
##
## Adjuntando el paquete: 'summarytools'
##
## The following object is masked from 'package:tibble':
##
## view
La estadística descriptiva usa los recursos de gráficos, tablas de frecuencias y medidas de resumenes para el analísis de datos ante la incertidumbre y ser útilidad en la toma de decisiones.
Media: es el promedio entre los valores que conforman la muestra. Es el más sensible a valores atípicos
Rango: Es la diferencia que existe entre el mayor valor y menor valor. R=Mayor valor - menor valor
Desviación estandar (s): Es el promedio de desvios respecto de la mustra
ejemplo: Los alumnos de una escuela de fútbol tienen las siguientes edades
10 13 11 9 10
8 11 14 10 9
11 10 9 14 8
| X | f | h | F | H | % |
|---|---|---|---|---|---|
| 8 | 2 | 0.1 | 2 | 0.1 | 10% |
| 9 | 3 | 0.2 | 5 | 0.3 | 30% |
| 10 | 4 | 0.26 | 9 | 0.56 | 56% |
| 11 | 3 | 0.2 | 12 | 0.76 | 76% |
| 13 | 1 | 0.1 | 13 | 0.86 | 86% |
| 14 | 2 | 0.1 | 15 | 0.96 | 96% |
Donde x representa la variable de estudio en este caso, cada valor corresponde a la edad de los alumnos de una escuela de fútbol.
f= frecuencia absoluta que representa la cantidad de veces que se repite un valor.
h= frecuencia relativa que se obtiene de divir la frecuencia absoluta en el tamaño muestral, en este caso n=15 h=f/n
F= frecuencia absoluta acumuladas
H= frecuencia relativa acumulada
%= se obtiene a partir de multiplicar la frecuencia relativa absoluta por 100. %=Hx100
Mientras que los histogramas se usan con variables cuantitativas contínuas, donde las barras no tienen espacio entre si, demostrando que hay continuidad entre ellas.
Parte práctica.
Fruto <-c (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
Grs <-c(386,521,363,416,507,438,380,497,475,131)
Tabla <-data.frame(Fruto,Grs)
Tabla
## Fruto Grs
## 1 1 386
## 2 2 521
## 3 3 363
## 4 4 416
## 5 5 507
## 6 6 438
## 7 7 380
## 8 8 497
## 9 9 475
## 10 10 131
st_options(lang = "es")
descr(Grs)
## Estadísticas descriptivas
## Grs
## N: 10
##
## Grs
## ------------------ --------
## Media 411.40
## Dev.std. 113.46
## Min 131.00
## Q1 380.00
## Mediana 427.00
## Q3 497.00
## Max 521.00
## DAP 83.03
## RI 110.00
## CV 0.28
## Asimetría -1.31
## ES-Asimetría 0.69
## Curtosis 0.92
## Num.Válido 10.00
## N 10.00
## Pct.Válido 100.00
Se pesaron 10 pomelos, de los cuales el promedio de pesaje fue de 411.4 gramos. Donde el limon mas con mas peso cuenta con 521 y el minimo con 131 El 50% de los valores centrales, es decir el Rango cuartilico es de 110.00 gramos La mediana, es decir el valor central es de 427.00 gramosy el coeficiente de variación es de 0.28, lo que significa que los datos obtenidos no son creibles para el analisis. Curtosis de 0.92. al ser positiva los datos se encuentran agrupados hacia el centro
ggplot(Tabla, aes(y = Grs)) +
geom_boxplot(fill = "skyblue", color = "black") +
labs(
tittle = "Peso de pomelos" ,
y = "Peso de pomelos (gr)"
) +
theme_classic()
Los valores centrales que se encuentra entre el Q3 y Q1, es decir el Rango intercuartilico se encuentran aproximadamente entre 380 gramos y 400 gramos La media se encuentra en el valor de 420 gramos aproximadamente. Tenemos 1 dato atípico antes de los 100gr. En general el 100% de la muestra abarca desde los 360 gramos hasta los 490 gramos. La media no se encuentra centrada, se encuentra mas abajo del centro, dejando mayoria de datos por encima de la media, lo que indica que asimetria es hacia la izquierda.