Estadística descriptiva

1. Variables y gráficos

La Estadística estudia los métodos científicos para recoger, organizar, resumir y analizar los datos, así como para sacar conclusione válidas y tomar decisiones razonables basadas en tal análisis.

Población y muestreo:

Al grupo entero de interés la llamamos población, mientras que a una pequeña parte de ese grupo lo llamamos muestra.

Tipos de variables

Una variable es un símbolo que puede tomar un conjunto prefijado de valores, llamado dominio de esa variable. Una variable que puede tomar cualquier valor entre dos valores dados se dice que es una variable continua (el tiempo, el peso, la estatura, números racionales), en caso contrario diremos que la variable es discreta (número de integrantes de una familia, número de veces que alguien se ha enfermado; números enteros).

Representación gráfica de datos

un gráfico es una representación de la relación entre variables. Algunas gráficas son:

Barras
Histograma
Circulares (pastel)
Boxplot (diagrama de cajas)
Series de tiempo

2. Distribución de frecuencias

Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase, se llama distribución de frecuencias (o tabla de frecuencias), como la siguiente tabla, muestra las frecuencias absolutas ($f_i$)

\[\begin{array}{c|c} \text{Altura} & \text{Número de estudiantes} \\ \hline \\ 160-162 & 5 \\ 163 - 165 & 18 \\ 166 - 168 & 42 \\ 169 - 171 & 27 \\ 172-174 & 6 \\ \hline \\ & \text{Total} \ 100 \end{array}\]

También podemos calcular la frecuencia relativa como $f_i/n$, e ir sumando cada frecuencia relativa para calcular la frecuencia relativa acumulada $(F_i)$.

3. Medidas de tendencia central

Valores que tienden a situarse en el centro del conjunto de datos ordenados por magnitud.

Media aritmética

La media aritmética $\overline{x}$ de un conjunto de $N$ números $x_1, x_2, ..., x_n$, se define por: \[\begin{equation} \overline{x} = \frac{\sum_{i=1}^n x_i}{N} = \frac{x_1 + x_2 + ... + x_n}{N} \end{equation}\]

Si los números $x_1, x_2,...,x_i$ ocurren con una frecuencia $f_1, f_2,..., f_i$ veces, respectivamente, entonces la media aritmética es \[\begin{equation} \overline{x} = \frac{\sum_{i=1}^n f_i \cdot x_i}{\sum f} = \frac{f_i \cdot x_1 + f_2 \cdot x_2 + ... + f_n \cdot x_n}{N} \end{equation}\]

donde $N =\sum f$ es la frecuencia total (o sea el número total de casos)

Mediana

La mediana muestral es el valor central cuando los datos se encuentran ordenados de menor a mayor. Si existe un número par de datos, coincide con la media de los dos valores centrales.

Moda

La moda muestral es el valor del conjunto de datos que ocurre con mayor frecuencia. La moda puede NO existir, e incluso no ser única (más de una) en caso de existir.

Cuartiles, deciles y percentiles (como medidas de posición)

Si un conjunto de datos está ordenado por magnitud, el valor central (o la media de los dos centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales. Esos valores denotados $Q_1, Q_2, Q_3$, se llaman primero, segundo y tecer cuartiles, respectivamente. el $Q_2$ coincide con la mediana.

Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, mientras que los valores que los dividen en 100 partes iguales se llaman percentiles, denotados por $P_1,P_2,...,P_{99}$.

El percentil 25 será el cuartil 1 ($Q1$) y el percentil 75 será el cuartil 3 ($Q3$) definidos de la siguiente manera. Para calcular el percentil 25 tenemos que

\[\begin{equation} P = \dfrac{k \cdot (n+1)}{100} \end{equation}\]

Donde $k$ es el percentil a calcular (i.e. 25 o 75) y $n$ es el número de datos. Cuando obtenemos un número entero, entonces el percentil 25 será el número en la posición calculada. Cuando se obtiene un valor decimal, entonces aplicamos la siguiente operación

\[\begin{equation} P = x_i + d \cdot (x_{i+1} - x_i) \end{equation}\]

Donde d es el decimal entre la posición $i$ e $i+1$. Veamos el siguiente ejemplo. Tenemos el siguiente conjunto de 9 datos: 14.69, 14.99, 17.15, 18.12, 19.1, 19.52, 31.05, 42.39, 42.4. Nótese que ya se encuentan ordenados. Para calcular el percentil 75

\[\begin{equation} P = \dfrac{k \cdot (n+1)}{n} = \dfrac{75 \cdot (10)}{100} = 7.5 \end{equation}\]

Entonces el percentil 75 está entre la posición 7 (31.05) y 8 (42.39). Como obtuvimos un número decimal entonces aplicamos lo siguiente \[\begin{equation} P = x_i + d \cdot (x_{i+1} - x_i) = 31.05 + 0.5 \cdot (42.39 - 31.05) = 36.72 \end{equation}\]

El percentil 75 ($P_{75}$), que es lo mismo que el $Q_3$ es 36.72. Así calcula Excel los cuartiles (boxplot). De aquí aprovechamos para calcular el rango intercuartil (IQR) como \[IQR = Q_3 - Q_1\] Para detectar valores atípoicos (outliers) calculamos la barrera superior y la barrera inferior Barrera inferior: $Q_1 + 1.5 \cdot IQR$ Barrera superior: $Q_3 + 1.5 \cdot IQR$

Para estos datos conviene hacer gráficas como los diagramas de cajas. Creamos un vector con los siguientes datos

datos <- c(14.69, 14.99, 17.15, 18.12, 19.1, 19.52, 31.05, 42.39, 42.4)

Creamos una gráfica de los datos

p <- boxplot(datos, horizontal = TRUE)

4. Medidas de dispersión

Rango

El rango es la diferencia entre el mayor y el menor valor de dato. Esto es \[ R = \text{Valor}_{max} - \text{Valor}_{min}\]

Varianza muestral

La varianza muestral, denotada por $s^2$, de los datos $x_i, ..., x_n$ con media $\overline{x} = \frac{\left( \sum_{i=1}^n x_i\right)}{n}$ se define como la media de los cuadrados de las desviaciones a la media muestral:

\[\begin{equation} s^2 = \frac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1} \end{equation}\]

Desviación típica (estándar)

Es la raíz cuadrada positiva de la al valor $s$, definido por

\[\begin{equation} s = \sqrt{s^2} = \sqrt{\dfrac{\sum_{i=1}^n (x_i - \overline{x})^2}{n-1}} \end{equation}\]

Es importante recalcar que la desviación típica (estándar) se mide en las mismas unidades que los datos originales.

Error estándar de la media

Definimos al error estándar de la media como la desviación estándar entre la raíz cuadra del conjunto de N datos

\[\begin{equation} \text{EEM} = \frac{s}{\sqrt{n}} \end{equation}\]

Coeficiente de variación

Se calcula dividiendo la desviación típica (estándar) entre el valor absoluto de la media. Nótese que es adimensional (no tiene unidades), por lo tanto nos permite comparar la variación de diferentes variables

\[CV = \dfrac{s}{|\overline{x}|}\]

Estadística inferencial

Definiciones de Probabilidad

Definición clásica

Supongamos que un suceso E tiene h probabilidades de ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma oportunidad de ocurrir que las demás. Entonces la probabilidad de que ocurra E se denota por \[ p = Pr(E) = \dfrac{h}{n}\] Por lo tanto, la probabilidad de que no ocurra E es $q = Pr(NO \ E) = 1 - p$

Definición como frecuencia relativa

La probabilidad empírica de un suceso se toma como la frecuencia relativa de ocurrencia del suceso cuando el número de observaciones es muy grande. La probabilidad misma es el límite de esa frecuencia relativa cuando el número de observaciones crece indefinidamente.

Distribuciones de probabilidad

Discretas

Si una variable $X$ puede tomar un conjunto dicreto de valores $X_1, X_2, ..., X_k$, con probabilidades respectivas $p_1, p_2, ...,p_k$ donde $p_1 + p_2, ..., p_k = 1$, decimos que tenemos definida una distribucipon de probabilidad discreta para $X$. La función $p(X)$ que tiene valores $p_1, p_2, ..., p_k$ para $X = X_1, X_2, ..., X_k$ se llama función de probabilidad (o una función de frecuencia de $X$). Como $X$ puede tomar ciertos valores con ciertas probabilidades, se le llama una **variable aleatoria discreta*. Por ejemplo:

Sea $X$ la suma de puntos obtenida de lanzar dos dados. Aquí hay que calcular el espacio muestral para encontrar intuitivamente la probabilidad. \[\begin{array}{c|c|c|c|c|c|c} \text{X} & 1 & 2 & 3 & 4 & 5 & 6 \\ \hline \\ 1 & 2 & 3 & 4 & 5 & 6 & 7 \\ 2 & 3 & 4 & 5 & 6 & 7 & 8 \\ 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ 4 & 5 & 6 & 7 & 8 & 9 & 10 \\ 5 & 6 & 7 & 8 & 9 & 10 & 11 \\ 6 & 7 & 8 & 9 & 10 & 11 & 12 \\ \end{array}\]

Entonces la distribución de probabilidad se muestra en la siguiente tabla. \[\begin{array}{c|c|c|c|c|c|c|c|c|c|c} \text{X} & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \\ \hline \\ p(X) & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & 6/36 & 5/36 & 4/36 & 3/36 & 2/36 & 1/36 \end{array}\]

La distribución de probabilidades se puede representar gráficamente dibujando $p(X)$ en función de $X$, igual que para las distribuciones de frecuencia relativa. Definimos dos vectores, uno con los valores de $X$ y otro con los valores de probabilidad de $X$.

x <- c(2,3,4,5,6,7,8,9,10,11,12)
p_x <- c(1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/36)
plot(x,p_x)

Para las variables aleatorias continuas no podemos realizar la misma gráfica de acuerdo con el siguiente ejemplo. Supongamos que queremos determinar la estatura de las personas de la universidad que miden entre 163.99 cm y 164.01 cm. Intuitivamente, la probabilidad de encontrar alguien que mida 164.00 cm exactos sería muy baja, pues puede haber infinitos valores entre dos valores (i.e. 163.99 cm y 164.01 cm). Por lo tanto, es conveniente buscar intervalos, por ejemplo entre 163 y 164 cm. Usando ese intervalo es más probable encontrar personas dentro de ese intervalo.

Continuas

Las ideas anteriores se pueden extender a variables continuas. Ahora se forma una curva continua. El polígono de frecuencias relativas de una muestra se convierte, en el caso teórico o límite de una población, en una curva continua. El área total bajo esa curva y sobre el eje $x$ es 1, y el área $X=a$ y $X=b$ da la probabilidad de que $X$ esté entre $a$ y $b$, que se denota por $Pr(a<X<b)$

plot(x,p_x, type="l")

Para entender mejor como se calcula la probabilidad de la función de densidad, hay que extender el concepto a área bajo una curva (integral). Probaremos que calcular el área de una figura geométrica definida por la ecuación $f(x)=3x+5$ mediante la fórmula de un trapezoide es la misma al determinar la integral definida de $f(x)$

Figura geometrica delimitada por la ecuación $f(x)=3x+5$

En la figura anterior, se forma un trapezoide con área de $6.5 \ u^2$. Ahora calculamos la integral en el intervalo de 0 a 1. Esto es \[ \int_0^1 3x+5 dx \] Resolviendo la integral nos queda \[ \dfrac{3x^2}{2} + 5x |_0^2 \] Evaluando con los límites de integración \[ [\dfrac{3(1)^2}{2} + 5(1)] - [\dfrac{3(0)^2}{2} + 5(0)] \] \[ \dfrac{3}{2} + 5 = \dfrac{13}{2} = 6.5 \ u^2 \]

Podemos ver que llegamos al mismo resultado. Entonces concluimos que calcular la integral en un intervalo es calcular el área bajo la curva. Para este curso de probabilidad, lo que nos interesa es que para calcular la probabilidad necesitamos calcular el área bajo la curva de la función de distribución.

Llamamos a $p(x)$ una función de densidad de probabilidad (o brevemente función de densidad). La variable $X$ se llama entonces variable aleatoria continua.

Hay que recalcar que la densidad de probabilidad para un valor x , en una población inmensamente grande es 0, pues la probabilidad de un valor único entre un número infinito de valores posibles de la variable tiende a 0. Sin embargo, si estudiamos la función de distribución podemos encontrar la probabilidad de valores de una muestra que se encuentren antes o después de un valor $X_i$. La función de distribución del ejemplo de los dos dados (el ejemplo más fácil) es la siguiente.

x1 <- c(2,3,4,5,6,7,8,9,10,11,12)
p_x1 <- c(1/36, 3/36, 6/36, 10/36, 15/36, 21/36, 26/36, 30/36, 33/36, 35/36, 36/36)
plot(x1,p_x1)

Condiciones de la función de probabilidad

La probabilidad de cada valor debe estar entre 0 y 1. $0 \leq f(x) \leq 1$
La suma de las probabilidades asignadas a todos los valores de la variable aleatoria debe ser 1 $\sum_{x_i}f(x) = 1$

En este sentido, si queremos calcular la probabilidad de obtener un 8 o menos, vemos la función de distribución y observamos que es $\dfrac{30}{36} = 0.789$. Para eso nos sirve la función de distribución. De hecho, la función pnorm calcula la probabilidad de obtener un valor mayor o igual a $x$ valor utilizando la función de distribución de la distribución normal estándar.

Ahora podemos empezar a estudiar la distribución binomial, después la normal y los intervalos de confianza.

Distribución binomial

La distribución binomial o distribución binómica es una distribución de probabilidad discreta que cuenta el número de éxitos en una secuencia de $n$ ensayos de Bernoulli independientes entre sí con una probabilidad fija $p$ de ocurrencia de éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos resultados son posibles, a uno de estos se le denomina “éxito” y tiene una probabilidad de ocurrencia $p$ y al otro se le denomina “fracaso” y tiene una probabilidad $q = 1-p$. Pogamos el primer ejemplo:

La probabilidad de que a un cliente nuevo le guste una hamburguesa es de 0.8. Esta probabilidad la sabemos por un poco de experiencia previa. Si llegan tres clientes nuevos, ¿Cuál es la probabilidad de que solo a 2 de ellos les guste la hamburguesa? Primero hay que verificar cuáles son los posbiles resultados.

\[\begin{array}{c|c|c} 1 & 2 & 3 \\ \hline SI & SI & NO \\ SI & NO & SI \\ NO & SI & SI \\ \end{array}\]

También podemos ver la tabla de acuerdo a las probabilidades \[\begin{array}{c|c|c} 1 & 2 & 3 \\ \hline 0.8 & 0.8 & 0.2 \\ 0.8 & 0.2 & 0.8 \\ 0.2 & 0.8 & 0.8 \\ \end{array}\]

Si vemos por renglón los resultados, observamos que el resultado $0.8 \times 0.8 \times 0.2$ se repite 3 veces, solo ordenado de manera diferente, por lo tanto podemos escribir $ 3 (0.8)^2 $. Estamos encontrando el número de combinaciones posibles de que a 2 personas sean elegidas de un total de 3. Estas combinaciones se escriben de acuerdo con el coeficiente binomial

\[ \binom{n}{k} = \dfrac{n!}{k! (n-k)!}\]

Para nuestro ejemplo, vemos que el número de combinaciones es \[ \binom{3}{2} = \dfrac{3!}{2! (3-2)!} = \dfrac{3!}{2! \cdot 1!} = 3 \]

Es decir, existen 3 formas de combinar 3 “personas” y que sean elegidas 2 de ellas; que son las que realizamos en la tabla anterior. Contestando a la pregunta, intuitivamente obtuvimos que la probabilidad de que a 2 de 3 personas les gusten las hamburguesas son $ 3 (0.8)^2 = 0.384 $. Este tipo de experimento sigue la distribución binomial.

\[ P(x) = \binom{n}{x} p^x (1-p)^{n-x} \]

Si aplicamos la fórmula anterior a los datos de nuestro interés (ejemplo de la hamburguesa), entonces tenemos que \[ P(2) = \binom{3}{2}(0.8)^2(0.20)^{3-2} = 0.384 \]

Veamos ahora un ejemplo más complicado. Resulta que has empleado un programa bien establecido para que pacientes obesos bajen de peso. En años previos, se ha visto que alrededor del 60% de los sujetos pierden 4 kg o más en seis meses. Esto es, de cada grupo de 10 sujetos, entre 4 y 8 pierden esta cantidad de peso. Ahora pierdes el financiamiento de tu programa y no puedes administrar el programa por ti mismo, decidiendo que la única manera de continuar el programa es solicitar voluntarios que administren el programa. ¿Cómo decidirás si el uso de voluntarios ha sido efectivo para el programa? ¿Continuarías usando voluntarios?

Asumamos que el objetivo para considerarlo éxito es que cada sujeto pierda los 4 kg en los seis meses establecidos. Cada sujeto puede verse como un éxito o fracaso. Tal como ocurre con una moneda. Cada grupo será formado por 10 sujetos, entonces $n=10$. La mayoría de las veces, según tu experiencia, entre 4 y 8 sujetos logran un programa exitoso, con promedio de 6. Entonces puedes tener cualquier valor de éxito entre 0 y 10. ¿Cuál sería el menor número de éxitos esperados para decir que el programa fue efectivo cuando es administrado por voluntarios? De menos habría que esperar que 6 de cada 10 sujetos del programa bajen de peso (para considerarlo éxito) y decidir que el programa administrado por voluntarios SI funciona.

Utilizando la distribución binomial nos ayuda a contestar esto. Digamos que solo 1 de 10 fue un éxito, esto es \[P(0) = \binom{10}{0}(0.6)^0(0.4)^{10} = 0.0001048 \] \[P(1) = \binom{10}{1}(0.6)^1(0.4)^{10-1} = 0.00157 \] \[P(2) = \binom{10}{2}(0.6)^2(0.4)^{10-2} = 0.0106 \] \[P(3) = \binom{10}{3}(0.6)^3(0.4)^{10-3} = 0.04246 \]

Así sucesivamente hasta calcular la siguiente tabla \[\begin{array}{c|c|c} \text{Número de sujetos} & \text{Probabilidad de obtener X éxitos} & \text{Probabilidad acumulada} \\ \hline 0 & 0.0001 & 0.0001 \\ 1 & 0.0016 & 0.0017 \\ 2 & 0.0106 & 0.0123 \\ 3 & 0.0425 & 0.0548 \\ 4 & 0.1115 & 0.1662 \\ 5 & 0.2007 & 0.3669 \\ 6 & 0.2508 & 0.6177 \\ 7 & 0.2150 & 0.8327 \\ 8 & 0.1209 & 0.9536 \\ 9 & 0.0403 & 0.9940 \\ 10 & 0.0060 & 1.000 \\ \end{array}\]

La gráfica de su función de masa es

x2 <- c(0,1,2,3,4,5,6,7,8,9,10) # en la fórmula cada uno de estos valores del vector puede ser X
p_x2 <- c(0.0001, 0.0016, 0.0106, 0.0425, 0.1115, 0.2007, 0.2508, 0.2150, 0.1209, 0.0403, 0.0060) #Probabilidad calculada con la función de densidad (fórmula de la distribución binomial)
plot(x2,p_x2)

La gráfica de su función de distribución será

x2 <- c(0,1,2,3,4,5,6,7,8,9,10) # en la fórmula cada uno de estos valores del vector puede ser X
p_x3 <- c(0.0001, 0.0017, 0.0123, 0.0548, 0.1662, 0.3669, 0.6177, 0.8327, 0.9536, 0.9940, 1.000) #Es la probabilidad acumulada de la tabla del ejemplo
plot(x2,p_x3)

Ahora estamos listos para hablar sobre variables aleatorias continuas y ver la distribución normal.

Distribución normal estándar

Primero ver los conceptos de como se hace una línea recta. Generamos valores de $x$ y con eso calculamos una línea recta $y=mx + b$

b=0
m=1
x <- seq(1,10,0.1)
y =m*x + b
plot(x,y)

Luego escribimos la ecuación que describe la gráfica de la distribución normal. Lo importante es que esta gráfica describe muchos tipos de fenómenos biológicos.

\[f(x)\;= \; \frac{1}{\sqrt{2 \pi \sigma^2}} \, e^{-\frac{(x-\mu)^2} {2 \sigma^2}}, \qquad \text{para todo $x$ real}\] Primero ver como se hace con pocos datos

x_est1 <- rnorm(20, mean = 165, sd = 9)
media = mean(x_est1)
sigma = sd(x_est1)
pi = 3.1416

f_dens = (1 / sqrt(2*pi*sigma^2)) * 2.718282^(-(x_est1 - media)^2/ (2* sigma^2)) #Esta es la ecuación de arriba

p <- plot(x_est1,f_dens)

A medida que aumentamos el tamaño de muestra (o calculamos la estatura de toda la población)

x_est <- rnorm(1000, mean = 165, sd = 9)
media = mean(x_est)
sigma = sd(x_est)
pi = 3.1416

f_dens = (1 / sqrt(2*pi*sigma^2)) * 2.718282^(-(x_est - media)^2/ (2* sigma^2)) #Esta es la ecuación de arriba

p <- plot(x_est,f_dens)

Intentemos calcular la probabilidad de encontrar alguien que mida $x=166$ cm de estatura utilizando los datos previos $\mu = 165$ y $\sigma = 9$. Para esto sustituímos los datos en la fórmula. Utilicemos la función dnorm que calcula la probabilidad utilizando la función de densidad (fórmula de la distribución normal)

dnorm(166, mean = 165, sd = 9)

## [1] 0.04405414

Realicemos el cálculo manualmente, queriendo encontrar la probabilidad de obtener 166 $(P=166)$, cuando la media es $\mu = 165$ y $\sigma = 9$. Esto es: \[P(x) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} e^{-{\dfrac{(x - \mu)^2}{2 \sigma^2}} }\]

\[ \begin{aligned} P(166) & = \dfrac{1}{\sqrt{2 \pi (9)^2}} e^{-{\dfrac{(166 - 165)^2}{2 (9)^2}} } \\ P(166) & = \dfrac{1}{22.559} e^{-{\dfrac{(1)^2}{162}} } \\ P(166) & = \dfrac{1}{22.559} e^{-0.00617} \\ P(166) & = \dfrac{0.9938}{22.559} \\ \\ P(166) & = 0.04405 \end{aligned}\]

Observemos que se obtuvo el mismo resultado que usando la función dnorm. De la misma forma que se hizo con la distribución binomial, podemos calcular $P(x)$ para cada uno de los valores de estatura utilizando la función de densidad de la distribución normal. Para 20 valores, tendríamos la siguiente tabla

\[\begin{array}{c|c|c} \text{Estatura} & \text{Probabilidad de obtener ese valor} & \text{Probabilidad acumulada} \\ \hline 154.9 & 0.023615414 & 0.023615414 \\ 155 & 0.023910245 & 0.04752566 \\ 156.7 & 0.028972413 & 0.076498072 \\ 158.5 & 0.034150886 & 0.110648958 \\ 160 & 0.037987988 & 0.148636946 \\ 160.5 & 0.039118324 & 0.18775527 \\ 162.8 & 0.043022122 & 0.230777393 \\ 165.3 & 0.044302249 & 0.275079642\\ 166 & 0.044054088 & 0.31913373 \\ 167.3 & 0.042902782 & 0.362036512 \\ 172 & 0.03275717 & 0.394793682 \\ 173.6 & 0.028079725 & 0.422873407 \\ 175.7 & 0.021864463 & 0.44473787 \\ 177.9 & 0.01586902 & 0.432527165 \\ 182.3 & 0.006987493 & 0.467594383 \\ 187.5 & 0.001947587 & 0.46954197 \\ 192.3 & 0.000445319 & 0.469987288 \end{array}\]

Podemos notar dos cosas, la primera que obtenemos la probabilidad $P(x_i)$ simplemente sustituyendo cada valor ($x_i$) en la fórmula. En segundo lugar, notamos que la probabilidad acumulada no es 1 porque solo tenemos 20 datos, y necesitamos una $n$ muy grande para obtener la probabilidad total ($P=1$). Sin embargo, así estaríamos obteniendo la función de distribución.

x_norm_manual <- c(154.9, 155, 156.7, 158.5, 160, 160.5, 162.8, 165.3, 166, 167.3, 172, 173.6, 175.7, 177.9, 182.3, 187.5, 192.3)
p_x_norm_manual <- c(0.023615414, 0.023910245, 0.028972413, 0.034150886, 0.037987988, 0.039118324, 0.043022122, 0.044302249, 0.044054088, 0.042902782, 0.03275717, 0.028079725, 0.021864463, 0.01586902, 0.006987493, 0.001947587, 0.000445319)
plot(x_norm_manual, p_x_norm_manual)

Esta sería la función de distribución

x_norm_manual <- c(154.9, 155, 156.7, 158.5, 160, 160.5, 162.8, 165.3, 166, 167.3, 172, 173.6, 175.7, 177.9, 182.3, 187.5, 192.3)
p_x_fuunc_dis_norm_manual <- c(0.023615414, 0.04752566, 0.076498072, 0.110648958, 0.148636946, 0.18775527, 0.230777393, 0.275079642, 0.31913373, 0.362036512, 0.394793682, 0.422873407, 0.44473787, 0.432527165, 0.467594383, 0.46954197, 0.469987288)
plot(x_norm_manual, p_x_fuunc_dis_norm_manual)

Una mejor aproximación es usar la función dnorm especificando la media y la desviación estándar para graficar los datos

y <- dnorm(x_est, mean = mean(x_est), sd = sd(x_est)) #Aquí está calculando para cada valor de x (x_est) la probabilidad utilizando la fórmula de la distribución normal 
plot(x_est, y) #x_est es el vector que tiene los 1000 valores aleatorios que siguen la distribución normal

El problema de esto es que tendríamos que determinar la variable de interés en toda la población (por cada variable) y hacer una gráfica para cada una y ver su distribución. Como no es práctico podemos tipificar la variable y encontrar la distribución normal estándar. Para tipificar tenemos que

\[ Z = \dfrac{X - \mu}{\sigma}\]

Y la ecuación es

\[f(x)\;= \; \frac{1}{\sqrt{2 \pi}} \, e^{-\frac{Z^2} {2}}, \qquad \text{para todo $x$ real}\]

Integremos la función de densidad en el intervalo de -1 a 1 \[ \int_{-1}^1 \dfrac{1}{\sqrt{2 \pi}} e^{-{\dfrac{z^2}{2}}} dx = 0.6826\] Si integramos en el intervalo de -2 a 2 \[ \int_{-2}^2 \dfrac{1}{\sqrt{2 \pi}} e^{-{\dfrac{z^2}{2}}} dx = 0.95451\]

Resulta que la integral de la función de densidad de la distribución normal estándar en el intervalo de -1 a 1 (una desviación estándar $\pm$ de la media) da como área bajo la curva 0.6826, en el intervalo de -2 a 2 (que significaría dos desviaciones estándar $\pm$ de la media) da como área bajo la curva 0.95451, lo que significa que en dos desvíaciones estándar de la media se encuentra el 95 % de la población.

x_est2 <- rnorm(1000, mean= 165.0595, sd= 9.019803)
media2 = mean(x_est2)
sigma2 = sd(x_est2)
pi = 3.1416
z = (x_est2 - media2)/sigma2

f_dens2 = 1 / sqrt(2*pi) * 2.718282^(-1/2 * (z^2)) 
q <- plot(z,f_dens2)

Los valores de z son

media_z = mean(z)
desviacion_z = sd(z)
media_z2 = round(mean(z))

media_z

## [1] -6.598274e-16

desviacion_z

## [1] 1

media_z2

## [1] 0

x_est3 <- seq(-4,4,0.1)
y3 <- dnorm(x_est3)
plot(x_est3,y3, type = "l")

Ahora si podemos determinar cada variable de interés (estatura, peso, IMC, etc.), tipificarla (o estandarizarla) y calcular la probabilidad usando la tabla Z. Determinamos la probabilidad de z (de la curva normal estándar) con valores que están entre 1.73 y 2.60. Utilizando el comando pnorm obtenemos la función de distribución acumulada.

pnorm(0) - pnorm(-0.68)

## [1] 0.2517478

pnorm(0.01)

## [1] 0.5039894

f_dens4 = 1 / sqrt(2*pi) * 2.718282^(-1/2 * (-0.68^2))
f_dens4

## [1] 0.5027111

Estadística_curso_2024

2024-06-02