library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.1.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(summarytools)
## 
## Adjuntando el paquete: 'summarytools'
## 
## The following object is masked from 'package:tibble':
## 
##     view
  1. La estadística descriptiva usa los recursos de gráficos, tablas de frecuencias y medidas de resumenes para el analísis de datos ante la incertidumbre y ser útilidad en la toma de decisiones.

  1. Media: es el promedio entre los valores que conforman la muestra. Es el más sensible a valores atípicos

  2. Rango: Es la diferencia que existe entre el mayor valor y menor valor. R=Mayor valor - menor valor

  3. Desviación estandar (s): Es el promedio de desvios respecto de la mustra

  1. La tabla de frecuencias expone de manera ordenada los valores númericos de la muestra, y tiene como variables frecuencia absoluta, frecuencia relativa, frecuencia relativa acumuladas y frecuencia absolutas acumuladas, porcentaje. Sirve para ordenar la información en cuantas veces se repiten los valores o rango de la variable de estudio. Se usa en variables cuantitativas

ejemplo: Los alumnos de una escuela de fútbol tienen las siguientes edades

10 13 11 9 10

8 11 14 10 9

11 10 9 14 8

Edad de alumnos de una escuela de fútbol
X f h F H %
8 2 0.1 2 0.1 10%
9 3 0.2 5 0.3 30%
10 4 0.26 9 0.56 56%
11 3 0.2 12 0.76 76%
13 1 0.1 13 0.86 86%
14 2 0.1 15 0.96 96%

Donde x representa la variable de estudio en este caso, cada valor corresponde a la edad de los alumnos de una escuela de fútbol.

f= frecuencia absoluta que representa la cantidad de veces que se repite un valor.

h= frecuencia relativa que se obtiene de divir la frecuencia absoluta en el tamaño muestral, en este caso n=15 h=f/n

F= frecuencia absoluta acumuladas

H= frecuencia relativa acumulada

%= se obtiene a partir de multiplicar la frecuencia relativa absoluta por 100. %=Hx100

  1. Los gráficos de barra se usan en variables cuálitativa y cuantitativas discretas. Las barras se encuentran separadas, esto significa que no hay continuidad entre ellas.

Mientras que los histogramas se usan con variables cuantitativas contínuas, donde las barras no tienen espacio entre si, demostrando que hay continuidad entre ellas.

Parte práctica.

Fruto <-c (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
Grs <-c(386,521,363,416,507,438,380,497,475,131)
Tabla <-data.frame(Fruto,Grs)
Tabla
##    Fruto Grs
## 1      1 386
## 2      2 521
## 3      3 363
## 4      4 416
## 5      5 507
## 6      6 438
## 7      7 380
## 8      8 497
## 9      9 475
## 10    10 131
st_options(lang = "es")
descr(Grs)
## Estadísticas descriptivas  
## Grs  
## N: 10  
## 
##                         Grs
## ------------------ --------
##              Media   411.40
##           Dev.std.   113.46
##                Min   131.00
##                 Q1   380.00
##            Mediana   427.00
##                 Q3   497.00
##                Max   521.00
##                DAP    83.03
##                 RI   110.00
##                 CV     0.28
##          Asimetría    -1.31
##       ES-Asimetría     0.69
##           Curtosis     0.92
##         Num.Válido    10.00
##                  N    10.00
##         Pct.Válido   100.00

Se pesaron 10 pomelos, de los cuales el promedio de pesaje fue de 411.4 gramos. Donde el limon mas con mas peso cuenta con 521 y el minimo con 131 El 50% de los valores centrales, es decir el Rango cuartilico es de 110.00 gramos La mediana, es decir el valor central es de 427.00 gramosy el coeficiente de variación es de 0.28, lo que significa que los datos obtenidos no son creibles para el analisis. Curtosis de 0.92. al ser positiva los datos se encuentran agrupados hacia el centro

ggplot(Tabla, aes(y = Grs)) +
  geom_boxplot(fill = "skyblue", color = "black") +
  labs(
    tittle = "Peso de pomelos" ,
    y = "Peso de pomelos (gr)"
  ) +
  theme_classic()

Los valores centrales que se encuentra entre el Q3 y Q1, es decir el Rango intercuartilico se encuentran aproximadamente entre 380 gramos y 400 gramos La media se encuentra en el valor de 420 gramos aproximadamente. Tenemos 1 dato atípico antes de los 100gr. En general el 100% de la muestra abarca desde los 360 gramos hasta los 490 gramos. La media no se encuentra centrada, se encuentra mas abajo del centro, dejando mayoria de datos por encima de la media, lo que indica que asimetria es hacia la izquierda.