Processing math: 100%
  • 1 Objetivo
  • 2 Descripción
  • 3 Desarrollo
    • 3.1 Cargar librerías
    • 3.2 Cargar datos
      • 3.2.1 La estructura de los datos
      • 3.2.2 Transformar datos
        • 3.2.2.1 Descubriendo datos atípicos
    • 3.3 Media y desviación estándar de la variable estatura
    • 3.4 Histograma de los datos
    • 3.5 Simulación de muestras
      • 3.5.1 Semilla inicial
      • 3.5.2 Simulación con 10 datos
      • 3.5.3 Histograma y polígono de la muestra
      • 3.5.4 Simulación con 50 datos
      • 3.5.5 Histograma y polígono de la muestra
      • 3.5.6 Simulación con 200 datos
      • 3.5.7 Histograma y polígono de la muestra
      • 3.5.8 Simulación con 1000 datos
      • 3.5.9 Histograma y polígono de la muestra
      • 3.5.10 Simulación con 10000 datos
      • 3.5.11 Histograma y polígono de la muestra
      • 3.5.12 Simulación con 1000000 (un millón de datos)
      • 3.5.13 Histograma y polígono de la muestra
      • 3.5.14 Representar probabilidad de estatura de mujeres.
  • 4 Interpretación

1 Objetivo

Simular función de densidad de varias muestras de la estatura de mujeres

2 Descripción

El caso intenta simular la recolección de varias muestras diferentes en cantidad n que permiten reflejar la función de densidad de cada una de ellas.

Las muestras tienen solo una variable, la estatura de las personas mujeres en el norte una región y específicamente en la Entidad Federativa (estado) de Durango, México.

Se calcula una media aritmética y una desviación estándar de los datos lo cual permite emular y simular encuestas sobre la estatura de las mujeres en Durango de varias muestras alrededor de estos dos estadísticos.

El caso inicia con la carga de librerías adecuadas para el desarrollo del mismo

Se presenta la función de densidad de cada uno de las muestras

Se interpreta el caso de la función de densidad

3 Desarrollo

3.1 Cargar librerías

library(dplyr)
library(ggplot2)
library(readr)
library(cowplot)

Se utiliza la función para expresar los valores numéricos en notación no exponencial y científica

options (scipen = 999)

3.2 Cargar datos

Se cargan los datos del enlace https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/CN_ANTROPOMETRIA.csv

datos_originales <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/CN_ANTROPOMETRIA.csv", encoding = "UTF-8")


# datos_originales <- read.csv("../../datos/CN_ANTROPOMETRIA.csv", encoding = "UTF-8")

3.2.1 La estructura de los datos

str(datos_originales)
## 'data.frame':    33818 obs. of  57 variables:
##  $ UPM                : int  1 1 1 1 1 2 3 3 3 3 ...
##  $ VIV_SEL            : int  1 4 4 4 5 2 2 2 4 4 ...
##  $ HOGAR              : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ NUMREN             : int  2 4 8 9 2 2 1 5 1 5 ...
##  $ PESO1_1            : num  NA 74 28.4 20.7 63.6 ...
##  $ PESO1_2            : num  NA 74 28.5 20.7 63.6 ...
##  $ P2                 : int  NA 2 2 2 2 2 NA 2 NA 2 ...
##  $ P3                 : int  NA 1 1 1 1 1 NA 1 NA 1 ...
##  $ TALLA4_1           : num  NA 148 136 106 152 ...
##  $ TALLA4_2           : num  NA 148 136 106 152 ...
##  $ P5                 : int  NA 1 1 1 1 1 NA 1 NA 1 ...
##  $ P6                 : int  NA 4 NA NA 4 NA NA 4 NA NA ...
##  $ P7_1               : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ CIRCUNFERENCIA8_1  : num  NA 101.5 NA NA 93.7 ...
##  $ CIRCUNFERENCIA8_2  : num  NA 101.5 NA NA 93.7 ...
##  $ P9                 : int  NA 1 NA NA 1 1 NA NA NA NA ...
##  $ P10                : int  9 NA NA NA NA NA 1 NA 1 NA ...
##  $ P11                : int  4 NA NA NA NA NA 4 NA 4 NA ...
##  $ PESO12_1           : num  60.4 NA NA NA NA ...
##  $ PESO12_2           : num  60.3 NA NA NA NA ...
##  $ P13                : int  2 NA NA NA NA NA 2 NA 2 NA ...
##  $ P14                : int  1 NA NA NA NA NA 1 NA 1 NA ...
##  $ TALLA15_1          : num  147 NA NA NA NA ...
##  $ TALLA15_2          : num  147 NA NA NA NA ...
##  $ P16                : int  1 NA NA NA NA NA 1 NA 1 NA ...
##  $ TALLAPIE17_1       : num  44.4 NA NA NA NA NA 52.1 NA 59.9 NA ...
##  $ P18                : int  1 NA NA NA NA NA 1 NA 1 NA ...
##  $ CIRCPANTORRILLA19_1: num  31.5 NA NA NA NA NA 35.7 NA 36.6 NA ...
##  $ P20                : int  1 NA NA NA NA NA 1 NA 1 NA ...
##  $ CINTURA21_1        : num  105 NA NA NA NA ...
##  $ CINTURA21_2        : num  105 NA NA NA NA ...
##  $ P22                : int  1 NA NA NA NA NA 1 NA 1 NA ...
##  $ HEMIENVERGADURA23_1: num  NA NA NA NA NA NA NA NA NA NA ...
##  $ P24                : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ MEDIABRAZO25_1     : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ P26                : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ P27_1_1            : int  115 86 NA NA 101 117 115 NA 125 NA ...
##  $ P27_1_2            : int  69 48 NA NA 74 73 69 NA 82 NA ...
##  $ P27_2_1            : int  121 76 NA NA 102 123 114 NA 127 NA ...
##  $ P27_2_2            : int  72 47 NA NA 75 74 71 NA 84 NA ...
##  $ P28                : chr  "12:38" "19:58" "" "" ...
##  $ P29                : int  1 1 NA NA 1 1 1 NA 1 NA ...
##  $ P30                : int  1 1 NA NA 1 1 1 NA 1 NA ...
##  $ EDAD               : int  73 30 10 3 49 20 61 12 72 16 ...
##  $ EDAD_MESES         : int  886 362 122 45 595 242 736 149 874 202 ...
##  $ SEXO               : int  2 2 2 1 2 1 2 2 1 1 ...
##  $ ENT                : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ DOMINIO            : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ ALTITUD            : int  1885 1885 1885 1885 1885 1885 1885 1885 1885 1885 ...
##  $ REGION             : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ EST_DIS            : int  5 5 5 5 5 5 4 4 4 4 ...
##  $ UPM_DIS            : int  1 1 1 1 1 2 3 3 3 3 ...
##  $ ESTRATO            : int  3 3 3 3 3 3 2 2 2 2 ...
##  $ F_ANTROP           : int  1239 4336 724 1233 2478 1225 1753 1091 2338 1091 ...
##  $ F_ANTROP_INSP      : int  1258 4404 439 1349 2517 1244 1773 1328 2364 1328 ...
##  $ GPO_INSP           : int  4 4 2 1 4 4 4 3 4 3 ...
##  $ DIAS               : int  27007 11066 3764 1427 18171 7410 22458 4578 26659 6218 ...

3.2.2 Transformar datos

Las variables de interés de este conjunto de datos son la estatura, el género o sexo de la persona y la entidad o estado de la República Mexicana de en donde vive. Estas variables son por nombre las siguientes:

  • TALLA_4_1 Corresponde a la estatura

  • SEXO Corresponde al género [1 Hombre | 2 Mujer]

  • ENT entidad federativa en donde reside. [de la 1 a la 32]

  • EDAD que representa la edad de las personas

Se hace una selección de estas cuatro variables con un filtro de aquellas personas (mujeres) valor de la variable sexo que sea 1, de la entidad federativa en donde el estado por catálogo de Durango es el numero 10 y que además tengan una edad entre 18 y 65 años. Todo el resultado del filtrado en una variable llamada datos

datos <- select(.data = datos_originales, TALLA4_1, SEXO, ENT, EDAD) %>%
  filter(SEXO == 2 & ENT == 10 & EDAD >=18 & EDAD <= 65)

Se renombran las variables del conjunto de datos a solo minúsculas y nombres asociativos.

colnames(datos) <- c('estatura', 'genero', 'entidad', 'edad')
str(datos)
## 'data.frame':    328 obs. of  4 variables:
##  $ estatura: num  151 154 162 152 153 ...
##  $ genero  : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ entidad : int  10 10 10 10 10 10 10 10 10 10 ...
##  $ edad    : int  54 48 43 33 36 65 59 54 25 29 ...

3.2.2.1 Descubriendo datos atípicos

ggplot(data = datos, aes(x = estatura)) + geom_boxplot() 

Se detectan datos atípicos de mujeres con estatura por debajo del primer cuartil menos 1.5 veces el rango intercuartílico y por encima del tercer cuartil mas 1.5 veces el rango intercuartílico.

Se hace un deputado de los datos quitando datos atípicos

datos <- filter(datos, estatura >= 140 & estatura <= 190)
ggplot(data = datos, aes(x = estatura)) + geom_boxplot() 

Se quitaron los datos atípicos

3.3 Media y desviación estándar de la variable estatura

Con estos datos se determina la media y la desviación estándar de todas las mujeres que fueron encuestadas que sean de Durango.

media <- round(mean(datos$estatura, na.rm = TRUE), 4)
desv.std <- round(sd(datos$estatura, na.rm = TRUE), 4)
paste("La media aritmética de la estatura de las mujeres en Durango es de", media ," y la desviación estándar es de: ", desv.std)
## [1] "La media aritmética de la estatura de las mujeres en Durango es de 157.0905  y la desviación estándar es de:  6.2227"

3.4 Histograma de los datos

Se presenta el histograma de la estatura de las mujeres en Durango de acuerdo a encuesta de nutrición 2018.

g0 <- ggplot(data = datos, aes(x = estatura)) +
  geom_histogram(binwidth = 1)
g0

3.5 Simulación de muestras

Se crea una muestra de 10 datos. Se simula una encuesta a mujeres de Durango y se les pregunta su estatura, se sabe conforme a la encuesta original, al cálculo de la media aritmética y la desviación estándar que deben tener una media aproximada de 157.0905 con una desviación de 6.2227 centímetros aproximadamente.

3.5.1 Semilla inicial

Se inicializa la semilla con valor del año de edición del libro 2023 para generar los mismos valores aleatorios al ejecutar las instrucciones en R

set.seed(2023)

3.5.2 Simulación con 10 datos

Se saca un vector con una muestra con diez datos, se utiliza la función rnorm() para generar valores aleatorios y adecuando los parámetros y los argumentos en la función, se espera que tengan aproximadamente la media y la desviación estándar previamente conocida.

Se imprimen ordenados los diez datos

n <- 10
muestra1 <- rnorm(n = n, mean = media, sd = desv.std)
sort(muestra1)
##  [1] 145.4225 150.9739 151.4046 153.1485 154.1775 154.6060 155.9322 156.5691
##  [9] 163.3234 163.8782

3.5.3 Histograma y polígono de la muestra

g1 <- ggplot() +
  geom_histogram(aes(x=muestra1), fill="lightblue", bins=30) +
  geom_freqpoly(aes(x=muestra1), color = 'red', bins=30) 
g1 

Se observa como los picos (topes arriba) de las línea de cada polígono en rojo que se extienden desde cero hasta la parte más alta de la barra que refleja la frecuencia (count) de cada intervalo establecido.

Por ejemplo en la primer columna de la gráfica a la izquierda hay un valor aproximadamente de 146, hay otros dos valores con aproximadamente 150 y 151, hay tres valores con aproximadamente 153, 154 y 155, y así sucesivamente hasta la última barra en azul y con el polígono en rojo con un valor aproximado de 164.

Ahora bien ¿Qué sucede si se generan 50 encuestas en una nueva muestra?

3.5.4 Simulación con 50 datos

Se genera y simula una muestra que representa la estatura de 50 mujeres encuestadas con los parámetros de media aritmética y desviación conocidos.

n <- 50
muestra2 <- rnorm(n = n, mean = media, sd = desv.std)
sort(muestra2)
##  [1] 144.2378 145.5922 150.3023 151.7323 152.0440 153.1116 153.1775 153.3389
##  [9] 154.3205 154.3627 154.4597 154.5221 154.5289 154.5509 155.2590 155.3800
## [17] 155.8194 156.3151 156.8110 158.6095 158.9636 158.9720 159.1251 159.1775
## [25] 159.6961 159.7559 159.8003 159.9037 160.2467 160.5879 160.6512 160.7983
## [33] 161.2184 161.2248 161.4113 161.4253 161.4363 161.7789 162.6707 163.1616
## [41] 163.7859 164.1173 164.4545 164.6733 165.0347 166.5174 166.9524 171.2836
## [49] 171.8574 174.1111

3.5.5 Histograma y polígono de la muestra

g2 <- ggplot() +
  geom_histogram(aes(x=muestra2), fill="lightblue", bins=30) +
  geom_freqpoly(aes(x=muestra2), color = 'red', bins=30) 
g2

Aquí los polígonos se empiezan a hacer picos menos achatados en el punto superior de ellos, así mismo, se observa como empieza a existir valores centralizados en medio de todos los datos de la distribución.

¿Que sucede si se aumenta a 200 datos?

3.5.6 Simulación con 200 datos

Se genera y simula una muestra que representa la estatura de 200 mujeres encuestadas con los parámetros de media aritmética y desviación conocidos.

n <- 200
muestra3 <- rnorm(n = n, mean = media, sd = desv.std)
sort(muestra3)
##   [1] 136.8920 144.2649 144.6696 144.9941 145.1231 145.1288 145.6482 145.6601
##   [9] 146.2732 146.9522 147.3487 147.7870 147.8212 147.8896 147.9120 148.1294
##  [17] 148.4463 148.8188 148.8506 148.9264 149.0962 149.4792 149.4935 149.5018
##  [25] 149.6165 149.6744 149.7868 149.8067 149.8441 150.0818 150.1017 150.2048
##  [33] 150.7457 150.8377 151.0046 151.0942 151.1884 151.2357 151.3492 151.4036
##  [41] 151.4707 151.6985 151.7738 151.7839 151.9576 152.0679 152.0686 152.3092
##  [49] 152.4142 152.6002 152.6124 152.6469 152.6557 152.7515 152.7689 152.8233
##  [57] 153.0471 153.0615 153.2244 153.4156 153.5024 153.6402 153.7675 153.8683
##  [65] 153.8823 153.8929 154.0430 154.1343 154.2973 154.6740 154.7461 154.7782
##  [73] 154.8645 154.9515 155.0384 155.0904 155.1256 155.2624 155.3229 155.4215
##  [81] 155.6491 155.6584 155.8214 155.9674 156.1415 156.2633 156.3090 156.3394
##  [89] 156.3464 156.3639 156.3853 156.4107 156.4362 156.5622 156.5883 156.5926
##  [97] 156.9849 157.0440 157.0908 157.1008 157.1249 157.1287 157.1491 157.1917
## [105] 157.1952 157.4090 157.4397 157.4692 157.5822 157.7348 157.8567 157.8978
## [113] 157.9702 157.9735 158.0345 158.1168 158.2692 158.2719 158.4492 158.5994
## [121] 158.7406 158.7545 158.8281 158.9196 158.9607 159.0069 159.0409 159.1218
## [129] 159.1230 159.2457 159.2535 159.2874 159.3691 159.3810 159.4584 159.4737
## [137] 159.5079 159.5390 159.6333 159.7452 159.7580 159.9403 160.0430 160.1159
## [145] 160.1433 160.1790 160.2948 160.3283 160.4675 160.4751 160.5746 160.7873
## [153] 161.0414 161.2590 161.2911 161.3560 161.4546 161.7761 161.7863 161.7992
## [161] 161.8413 162.0687 162.3479 162.7253 162.8438 162.8491 162.8588 162.9590
## [169] 162.9818 163.0121 163.0383 163.1600 163.2397 163.2764 163.5888 163.6093
## [177] 163.8950 163.9301 164.0681 164.3859 164.8120 164.8733 165.2767 165.7257
## [185] 165.9103 165.9865 166.5745 166.7689 167.0039 167.6049 167.8138 167.9369
## [193] 168.1798 168.7844 169.4572 171.2782 171.8228 172.0133 173.1404 173.9209

3.5.7 Histograma y polígono de la muestra

g3 <- ggplot() +
  geom_histogram(aes(x=muestra3), fill="lightblue", bins=30) +
  geom_freqpoly(aes(x=muestra3), color = 'red', bins=30) 
g3

Se observa aún más como se comienza a centralizar el valor de la estatura, es decir hay más repuestas muy cerca de la media aritmética conocida.

¿que sucede si se aumenta a mil encuestas?

3.5.8 Simulación con 1000 datos

Se genera y simula una muestra que representa la estatura de 1000 mujeres encuestadas con los parámetros de media aritmética y desviación conocidos.

En este punto por cuestiones prácticas solo se muestran los primero y úlTimos 50 datos ordenados.

n <- 1000
muestra4 <- rnorm(n = n, mean = media, sd = desv.std)
head(sort(muestra4), 50)
##  [1] 139.7650 141.0852 141.2692 141.9149 142.0731 142.1087 142.7212 142.7316
##  [9] 143.1601 143.2199 143.5340 143.7139 143.8272 144.4440 144.5503 144.6041
## [17] 144.6658 144.7526 144.8132 144.8970 145.0478 145.0650 145.2730 145.3393
## [25] 145.4219 145.4380 145.4522 145.5615 145.6046 145.6139 145.8408 145.9127
## [33] 145.9243 145.9501 146.0631 146.0841 146.1278 146.1576 146.1819 146.2620
## [41] 146.2673 146.4953 146.5083 146.6073 146.6609 146.7104 146.7741 146.8182
## [49] 146.8389 146.9775
tail(sort(muestra4), 50)
##  [1] 167.2128 167.2244 167.3319 167.4253 167.5161 167.5375 167.6540 167.7004
##  [9] 167.7824 167.8093 167.8681 168.0514 168.0800 168.2029 168.3348 168.3471
## [17] 168.5091 168.6445 168.6742 168.7042 168.7502 168.7843 168.9394 168.9532
## [25] 168.9649 168.9686 169.2687 169.2990 169.4365 169.4544 169.6474 170.1821
## [33] 170.6063 170.6911 170.7006 171.0176 171.3586 171.3827 172.1010 172.1428
## [41] 172.2170 172.2619 172.6607 173.0580 173.2497 173.5282 174.0795 174.2347
## [49] 176.6588 185.5551

3.5.9 Histograma y polígono de la muestra

g4 <- ggplot() +
  geom_histogram(aes(x=muestra4), fill="lightblue", bins=30) +
  geom_freqpoly(aes(x=muestra4), color = 'red', bins=30) 
g4 

Aquí se observa aún mas la centralizacón de los datos con respecto a la estatura de mujeres y se empieza a visualizar en rojo una suavización del polígono como tendiendo a ser una curva que sube y baja.

¿Que sucede con una encuesta de diez mil datos?

3.5.10 Simulación con 10000 datos

Se genera y simula una muestra que representa la estatura de 10000 mujeres encuestadas con los parámetros de media aritmética y desviación conocidos.

En este punto por cuestiones prácticas, nuevamente solo se muestran los primeros y últimos 50 datos ordenados.

n <- 10000
muestra5 <- rnorm(n = n, mean = media, sd = desv.std)
head(sort(muestra5), 50)
##  [1] 135.1807 135.2340 135.7959 136.2718 136.5089 137.0866 137.1341 137.6901
##  [9] 138.1367 138.2346 138.2624 138.5816 138.6324 138.6682 138.8555 139.1405
## [17] 139.3162 139.4405 139.4727 139.4937 139.7332 139.7351 139.8216 139.8509
## [25] 139.8754 139.9197 139.9452 140.1423 140.1542 140.2288 140.2887 140.3069
## [33] 140.3425 140.3525 140.4089 140.4650 140.4891 140.6135 140.6395 140.8712
## [41] 141.0013 141.1516 141.1566 141.1952 141.2269 141.2943 141.3390 141.4305
## [49] 141.4420 141.4759
tail(sort(muestra5), 50)
##  [1] 173.3156 173.3659 173.3933 173.3997 173.4370 173.4981 173.7343 173.7656
##  [9] 173.8509 173.8528 173.9300 173.9498 174.0984 174.1287 174.1650 174.1963
## [17] 174.2268 174.2509 174.2930 174.4870 174.4887 174.5991 174.6919 175.0811
## [25] 175.1077 175.2115 175.2837 175.3098 175.3817 175.5530 175.5639 175.6628
## [33] 175.9954 176.1162 176.1307 176.5196 176.6831 176.9766 177.1583 177.4233
## [41] 177.6702 177.7218 177.9727 178.0984 178.1165 178.4036 178.6276 179.0362
## [49] 179.1618 185.3683

3.5.11 Histograma y polígono de la muestra

g5 <- ggplot() +
  geom_histogram(aes(x=muestra5), fill="lightblue", bins=30) +
  geom_freqpoly(aes(x=muestra5), color = 'red', bins=30) 
g5

Aquí se observa aún mas la centralización de los datos con respecto a la estatura de mujeres y se ve aún más claro en rojo un suave polígono (suavizar la curva) casi como una curva de campana.

3.5.12 Simulación con 1000000 (un millón de datos)

Se genera y simula una muestra que representa la estatura de 1000000 (un millón) de mujeres encuestadas con los parámetros de media aritmética y desviación conocidos.

En este punto por cuestiones prácticas, nuevamente solo se muestran los primeros y últimos 50 datos ordenados.

n <- 1000000
muestra6 <- rnorm(n = n, mean = media, sd = desv.std)
head(sort(muestra6), 50)
##  [1] 126.3011 126.8232 127.6691 127.9666 128.8058 128.8582 128.9186 128.9229
##  [9] 128.9899 129.1061 129.7044 129.8728 130.0650 130.1193 130.1866 130.2883
## [17] 130.2994 130.4107 130.9007 131.0207 131.0295 131.1805 131.2294 131.4431
## [25] 131.5012 131.5535 131.6007 131.7469 131.9573 131.9788 132.0087 132.0597
## [33] 132.1923 132.2476 132.3688 132.3729 132.3959 132.4066 132.4568 132.5055
## [41] 132.5100 132.6567 132.8065 132.8180 132.8284 132.8482 132.9108 132.9152
## [49] 132.9488 132.9626
tail(sort(muestra6), 50)
##  [1] 181.3305 181.3473 181.3924 181.4336 181.4487 181.5454 181.6405 181.6960
##  [9] 181.7031 181.7282 181.7405 181.7514 181.7937 181.8150 181.8725 181.9175
## [17] 181.9705 181.9788 182.0177 182.1001 182.1024 182.2233 182.2630 182.4417
## [25] 182.5300 182.6677 182.6981 182.7232 182.7745 182.7988 183.0708 183.1050
## [33] 183.1618 183.1839 183.2009 183.2925 183.3418 183.3495 183.3645 183.3795
## [41] 183.4823 183.6584 183.9363 184.0698 184.2685 184.7099 185.1169 185.2564
## [49] 187.3851 188.8227

3.5.13 Histograma y polígono de la muestra

g6 <- ggplot() +
  geom_histogram(aes(x=muestra6), fill="lightblue", bins=30) +
  geom_freqpoly(aes(x=muestra6), color = 'red', bins=30) 
g6

Se visualiza aún mas la centralización de los datos con respecto a la estatura de mujeres y se ve aún más claro en rojo una curva suave del polígono casi, una curva de campana normal.

Con lo anterior, se interpreta que las variables continuas pueden tomar valores numéricos reales y en un intervalo infinito y que la función de densidad es una generalización de los valores infinitos de las variables continuas.

Además si se requiere encontrar probabilidades, es necesario conocer el intervalo requerido de entre todo el intervalo de toda la densidad.

Por ejemplo la probabilidad de estatura de mujeres entre 155 y 165.

plot_grid(g1, g2, g3, g4, g5, g6)

En la anterior gráfica se observa que cada muestra genera una curva más suave y que representa una mayor cantidad o densidad de datos.

3.5.14 Representar probabilidad de estatura de mujeres.

¿Cuál es la probabilidad de encontrar una persona con una estatura de 170.09?. La respuesta es una probabilidad muy remota casi 0. Por el contrario ¿cuál es la probabilidad de encontrar a una persona que mida entre 155 y 165 cms?, Aquí si se entiende que hay bastantes personas que están en ese intervalo o rango de valores.

En R, con la función curve() se puede representar la función de densidad de manera alternativa.

Para esta curva se presume que las estaturas de las mujeres se comportan bajo una distribución de tipo normal. Este tema se verá en el capítulo 8. Sin embargo, aquí un pincelada de este tema

Tomando en cuenta cualquier muestra de las generadas con anterioridad, como límites se utilizan los valores mínimos y máximos de la muestra3.

curve(dnorm(x,media, desv.std), xlim=c(min(muestra3),max(muestra3)),col="blue",lwd=2,
      xlab="x",ylab="f(x)",main=paste("Función de Densidad (",media,",",desv.std,")"))

Retomando la pregunta ¿cuál es la probabilidad de encontrar a una persona que mida entre 155 y 165 cms?.

El sigiente código fué reutilizado del enlace que presenta https://estadistica-dma.ulpgc.es/cursoR4ULPGC/10-distribProbabilidad.html

regionX=seq(155, 165,0.01)  # Intervalo a sombrear
xP <- c(155, regionX, 165)  # Base de los polígonos que crean el efecto "sombra"
yP <- c(0,dnorm(regionX, media, desv.std), 0)   # Altura de los polígonos sombreados
curve(dnorm(x, media, desv.std),xlim=c(min(muestra3), max(muestra3)),yaxs="i",ylim=c(0, 0.10),ylab="f(x)",
      main='Densidad ') 
polygon(xP,yP,col="orange1")
box()

Hay otras maneras de construir estas curvas y sus intervalos que se verán en casos posteriores. Por lo pronto estas opciones.

Finalmente y nuevamente retomando la pregunta ¿cuál es la probabilidad de encontrar a una persona que mida entre 155 y 165 cms?. La respuesta es…. lo que representa el área sombreada.

4 Interpretación

Conforme se tienen más datos en una muestra con valores continuos la curva de densidad se hace más suave lo que a interpreta que puede haber muchos valores, es decir valores infinitos en todo e conjunto de datos o en cualquier intervalo de este.

Para pretender calcular una probabilidad con variables aleatorias continuas, se debe entender que esta no está específicamente asociada a un valor específico de la variable, sino que está relacionada con un intervalo f(x)=axb de toda la función de probabilidad f(x).