Objetivos

Simular una muestra aleatoria conforme a la distribucón normal con la función rnorml() de media igual a 175 y desviación estándar de 6, demostrar la lejanía de los datos con respecto a la media.

Las librerías

library(mosaic)
## Warning: package 'mosaic' was built under R version 3.6.3
## Loading required package: dplyr
## Warning: package 'dplyr' was built under R version 3.6.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Loading required package: lattice
## Loading required package: ggformula
## Warning: package 'ggformula' was built under R version 3.6.3
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.6.3
## Loading required package: ggstance
## Warning: package 'ggstance' was built under R version 3.6.3
## 
## Attaching package: 'ggstance'
## The following objects are masked from 'package:ggplot2':
## 
##     geom_errorbarh, GeomErrorbarh
## 
## New to ggformula?  Try the tutorials: 
##  learnr::run_tutorial("introduction", package = "ggformula")
##  learnr::run_tutorial("refining", package = "ggformula")
## Loading required package: mosaicData
## Warning: package 'mosaicData' was built under R version 3.6.3
## Loading required package: Matrix
## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2
## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Note: If you use the Matrix package, be sure to load it BEFORE loading mosaic.
## 
## Have you tried the ggformula package for your plots?
## 
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
## 
##     mean
## The following object is masked from 'package:ggplot2':
## 
##     stat
## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally
## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var
## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum

Los datos

Genera una muestra de 300 estudiantes varones de una Institución de educación superior cuya media es de 175 cm y desviación estándar de 6 cm.

set.seed(2020)
estaturas <- round(rnorm(n = 300, mean = 175, sd = 6),4)
estaturas
##   [1] 177.2618 176.8093 168.4119 168.2176 158.2208 179.3234 180.6347 173.6237
##   [9] 185.5548 175.7042 169.8813 180.4556 182.1782 172.7705 174.2604 185.8003
##  [17] 185.2240 156.7674 161.2662 175.3498 188.0462 181.5891 176.9093 174.5611
##  [25] 180.0056 176.1925 182.7870 180.6203 174.1154 175.6626 170.1250 170.5378
##  [33] 181.5721 189.6122 177.3287 176.7438 173.2864 175.4561 171.6382 177.6831
##  [41] 180.4510 171.9696 173.1940 170.6438 167.9195 176.5184 172.7757 175.1331
##  [49] 178.9603 177.9328 173.8673 178.6082 170.9574 177.8563 175.7125 175.7274
##  [57] 173.8837 167.0304 171.5985 178.4730 186.4542 176.5045 165.4101 194.2098
##  [65] 180.7314 177.2119 180.5375 173.7669 175.5578 176.0096 179.7750 184.8760
##  [73] 164.6985 173.0899 169.5752 170.7760 164.3314 170.6665 175.2769 176.4619
##  [81] 178.7700 174.8522 188.8849 176.0633 168.8535 188.6481 163.6657 181.5637
##  [89] 186.0770 178.1262 165.8022 163.3638 177.9215 182.4714 173.6964 170.3224
##  [97] 177.0932 179.0903 171.8112 170.9356 164.6273 169.0524 171.4870 177.3011
## [105] 179.4800 169.4295 172.9709 184.2707 176.5991 176.7972 173.0632 183.6121
## [113] 181.0392 164.6835 176.7935 170.0516 167.8025 167.3417 174.2609 187.9957
## [121] 173.1263 177.2046 182.6166 161.4109 167.2609 176.1273 179.5099 185.7081
## [129] 184.0496 169.2810 175.6205 171.3666 174.4144 174.2593 168.7319 174.5508
## [137] 185.5608 166.4073 190.9732 167.2529 175.0906 174.7619 188.1486 163.1414
## [145] 177.7820 173.4267 168.1857 176.2678 175.5966 156.6599 172.9172 163.3202
## [153] 173.7035 166.3048 177.0726 176.1292 168.2329 175.3027 170.9038 178.8883
## [161] 178.6622 171.9241 179.5264 176.1286 163.4303 182.4149 176.9697 169.8705
## [169] 163.6259 180.0802 182.4642 176.4176 170.4358 179.6333 178.9693 165.4376
## [177] 161.8579 167.9395 181.3000 174.9658 173.3439 180.0911 168.7064 164.5985
## [185] 189.4848 173.8261 180.5607 170.7192 167.2015 180.3058 182.2038 167.9780
## [193] 179.5688 180.2205 170.6365 178.7597 168.4513 171.9034 175.1016 178.9659
## [201] 170.6228 180.1083 172.6211 177.4401 168.7687 167.4647 181.9421 181.2321
## [209] 174.4286 168.4102 178.3621 173.4818 188.2426 170.5417 177.6782 175.6342
## [217] 168.8792 180.5438 168.3649 171.7375 178.3860 166.5996 174.1585 174.1343
## [225] 170.3919 178.8295 181.7123 177.6752 163.5510 174.9161 178.0379 177.7021
## [233] 165.0249 185.0189 159.3615 179.7854 177.9201 179.0761 175.8302 185.1699
## [241] 175.2667 175.1912 190.2187 184.5759 175.7951 173.4971 162.9528 183.8027
## [249] 173.0313 170.2328 174.9882 171.3645 184.2599 168.2186 167.3861 170.7101
## [257] 182.4640 175.9158 177.8732 179.7172 168.9135 165.0432 173.8243 178.3633
## [265] 174.0413 166.8480 165.9793 174.4163 180.8036 173.1919 160.5087 167.6455
## [273] 171.2505 169.1461 160.6797 188.4015 180.3511 176.3151 169.9315 166.8320
## [281] 175.8872 158.3401 179.5468 170.1096 181.3014 172.6448 175.0633 180.8953
## [289] 180.2923 162.2170 156.3297 171.2995 182.5510 173.6360 176.9456 170.8533
## [297] 171.8709 185.9319 169.2995 171.5563

Análisis descriptivo mediante visualización de datos

Diagrama de dispersión

plot(estaturas)

### Histograma Se observa que hay gran cantidad de datos entre 170 y 180, la mayor concentración está en ese intérvalo

hist(estaturas)

Diagrama de caja

  • El diagrama de caja muestra valores atípicos por encima del 190 y por debajo del 160, la mediana es 175.0961
  • De igual forma se visualiza que la concetración de los datos entre el primer y tercer cuartil está entre 170.3 y 179.148575
boxplot(estaturas)

Estadísticos de la muestra

  • Se identifica n como el tamaño de la muestra o sea 300
  • Se obtiene la media de la muestra
  • Se obtiene la desviación estándar de la muestra
n <- length(estaturas)
media <- mean(estaturas)
desv.std <- sd(estaturas)

n
## [1] 300
media
## [1] 174.7075
desv.std
## [1] 6.817341

Comprobaciones de la distribución normal

1. 1 Alrededor del 68% de las veces, una variable aleatoria normal toma un valor dentro de una desviación estándar de la media.

Encontar el límite inferior y superior al 68%

li <- media - 1 * desv.std
ls <- media + 1 * desv.std

li
## [1] 167.8902
ls
## [1] 181.5248
  • ¿Cuántas personas hay en esta muestra con estatura entre 167.8901603 y 181.524843?:212
  • ¿Qué porcentaje representa ?: 70.6666667%

Visualizando la gráfica de campana al 68%

m <- round(media,0)
ds <- round(desv.std,0)
lir <- round(li,0)
lsr <- round(ls,0)

plotDist("norm", mean = m, sd = ds, groups = x > lir & x < lsr, type = "h")

### ¿Cuál es la probabilidad de que una persona x tenga un estatura en el intérvalo de 167.8901603 y 181.524843

  • Determinar la probabilidad
  • Determinar por medio de la función pnorm(). Restar la probabilidad acumulada de la variable aleatoria X con valor igual al límite superior 181.524843 menos la probabilidad acumulada de la variable aletoria x con valor igual a 167.8901603
prob.x <- pnorm(q = ls, mean = media, sd = desv.std) - pnorm(q = li, mean = media, sd = desv.std)

prob.x
## [1] 0.6826895
  • La probabilidad de que un persona varón conforme a la muestra tomada tenga una estatura entre 167.8901603 y 181.524843 es de : 68.27 %

2. Alrededor del 95% de las veces, una variable aleatoria normal toma un valor dentro de dos desviaciones estándar de la media. μ±2σ

Encontar el límite inferior y superior al 68%

li <- media - 2 * desv.std
ls <- media + 2 * desv.std

li
## [1] 161.0728
ls
## [1] 188.3422
  • ¿Cuántas personas hay en esta muestra con estatura entre 161.0728189 y 188.3421844?:284
  • ¿Qué porcentaje representa ?: 94.6666667%

Visualizando la gráfica de campana al 95%

m <- round(media,0)
ds <- round(desv.std,0)
lir <- round(li,0)
lsr <- round(ls,0)

plotDist("norm", mean = m, sd = ds, groups = x > lir & x < lsr, type = "h")

### ¿Cuál es la probabilidad de que una persona x tenga un estatura en el intérvalo de 161.0728189 y 188.3421844

  • Determinar la probabilidad
  • Determinar por medio de la función pnorm(). Restar la probabilidad acumulada de la variable aleatoria X con valor igual al límite superior 188.3421844 menos la probabilidad acumulada de la variable aletoria x con valor igual a 161.0728189
prob.x <- pnorm(q = ls, mean = media, sd = desv.std) - pnorm(q = li, mean = media, sd = desv.std)

prob.x
## [1] 0.9544997
  • La probabilidad de que un persona varón conforme a la muestra tomada tenga una estatura entre 161.0728189 y 188.3421844 es de : 95.45 %

3. Alrededor del 99% de las veces, una variable aleatoria normal toma un valor dentro de dos desviaciones estándar de la media. μ±3σ

  • Encontar el límite inferior y superior al 68%
li <- media - 3 * desv.std
ls <- media + 3 * desv.std

li
## [1] 154.2555
ls
## [1] 195.1595
  • ¿Cuántas personas hay en esta muestra con estatura entre 154.2554776 y 195.1595258?:300
  • ¿Qué porcentaje representa ?: 100%

Visualizando la gráfica de campana al 99%

m <- round(media,0)
ds <- round(desv.std,0)
lir <- round(li,0)
lsr <- round(ls,0)

plotDist("norm", mean = m, sd = ds, groups = x > lir & x < lsr, type = "h")

### ¿Cuál es la probabilidad de que una persona x tenga un estatura en el intérvalo de 154.2554776 y 195.1595258

  • Determinar la probabilidad
  • Determinar por medio de la función pnorm(). Restar la probabilidad acumulada de la variable aleatoria X con valor igual al límite superior 195.1595258 menos la probabilidad acumulada de la variable aletoria x con valor igual a 154.2554776
prob.x <- pnorm(q = ls, mean = media, sd = desv.std) - pnorm(q = li, mean = media, sd = desv.std)

prob.x
## [1] 0.9973002

conclusion

La distribución normal (en ocasiones llamada distribución gaussiana) es la distribución continua que se utiliza más comúnmente en estadística. La distribución normal es de vital importancia en estadística por tres razones principales:

Muchas variables continuas comunes en el mundo de los negocios tienen distribuciones que se asemejan estrechamente a la distribución normal.

La distribución normal sirve para acercarse a diversas distribuciones de probabilidad discreta, como la distribución binomial y la distribución de Poisson.

La distribución normal proporciona la base para la estadística inferencial clásica por su relación con el teorema de límite central.