R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

Módulo 3 - Desviación estándar

Distribución Normal de Probabilidad

Distribución Probabilidad Continua

Pueden tomar varias formas, pero un gran número de variables aleatorias observadas en la naturaleza poseen una distribución de frecuencia que tene más o menos la forma de mantículo, o bien, como se diriía en estadística, es aproximadamente una distribución normal de probabilidad.
El área bajo la curva es igua a 1, para variables aleatorias continuas, área = probabilidad. El área a la izquierda de la media es igual a S.
Para hallar la probabilidad de que una variable aleatoria normal x se encuentre en el intervalo de “a” a “b”, necesitamos obtener el área bajo la curva normal entre los puntos “a” y “b”. No obstante, hay un número infinitamente grande de distribuciones normales, uno para cada media y desviación estándar diferentes.

Variable Aleatoria Normal Estándar

Beneficio: nos permite usar la misma tabla para todas las distribuciones normales
La distribución de probabilidad para z se denomina “Distribución Normal Estandarizada”

Ejercicio No. 3

Un estudio demostró que el uso de gasolina para autos compactos vendidos en EEUU está distribuido normalmente, con una media de 25.5 millas por galón (mgp) y una desviación estándar de 45 mpg. ¿Qué porcentaje de autos recorre 30 mpg o más?

Buscan porcentaje
1-pnorm(30,25.5,4.5)
## [1] 0.1586553

Si un fabricante desea desarrollar un auto que supere al 95% de los compactos actuales, ¿cuál debe ser el rendimiento (mpg)?

Si dan X
qnorm(0.95,25.5,4.5)
## [1] 32.90184

Ejercicio No. 4

Suponga que los diámetros de tallos no soportados en a base de una especia particular de girasol, tienen una distribución normal con un diámetro promedio de 35 mm y una desviación estándar de 3 mm

¿Cuál es la probabilidad de que una planta de girasol tenga un diámetro de base de 40mm?
X es el valor que queremos calcular la probabilidad (en este caso, 40 mm).μ es la media de la distribución (35 mm).σ es la desviación estándar de la distribución (3 mm). Calculamos Z: Z = (40 - 35) / 3 Z = 5 / 3 ≈ 1.67. La probabilidad es de 0.0475
1-pnorm(40,35,3)
## [1] 0.04779035
x <-40
promedio <- 35
desviacion_estandar <- 3

Función de Densidad de Probabilidad (Normal)

x_densidad <- seq(promedio-3*desviacion_estandar, promedio+3*desviacion_estandar,length=1000)
y_densidad <- dnorm(x_densidad, promedio, desviacion_estandar)
plot(x_densidad,y_densidad,type ="l",lty=1, xlab="x", ylab="f(x)", main="Función de Densidad de Probabilidad (Normal)",col="maroon")

Función de Distribución de Probabilidad (Normal)

x_distribucion <- seq(promedio-3*desviacion_estandar, promedio+3*desviacion_estandar,length=1000)
y_distribucion <- pnorm(x_distribucion, promedio, desviacion_estandar)
plot(x_distribucion,y_distribucion,type ="l",lty=1, xlab="x", ylab="f(x)", main="Función de Distribución de Probabilidad (Normal)",col="purple")

Si 2 plantas de girasol e seleccionan al azar, ¿cuál es la probabilidad de que ambas plantas tengan un diámetro de base más de 40mm?

Probabilidad de ambas plantas > 40 mm = Probabilidad de una planta > 40 mm * Probabilidad de la otra planta > 40 mm Probabilidad de ambas plantas > 40 mm = 0.0475 * 0.0475 = 0.00225625
0.0475*0.0475
## [1] 0.00225625

¿Dentro de qué límites esperaría usted que se encuentren los diámetros de base, con probabilidad de 0.95?

Intervalo inferior = 35 - (1.9599 * 3) Intervalo superior = 35 + (1.9599 * 3) Intervalo inferior ≈ 28.1 Intervalo superior ≈ 41.88.
qnorm(1 - (1 - 0.95)/2)
## [1] 1.959964
35 - (1.9599 * 3)
## [1] 29.1203
35 + (1.9599 * 3)
## [1] 40.8797

¿Qué diámetro representa el 90avo percentil de la distribución de diámetros?

X=Zασ+μ. X=1.28163+35
qnorm(0.9)
## [1] 1.281552
1.2816*3+35
## [1] 38.8448
## PhantomJS not found. You can install it with webshot::install_phantomjs(). If it is installed, please make sure the phantomjs executable can be found via the PATH variable.
Shiny applications not supported in static R Markdown documents

Pruebas de hipótesis

Un nuevo proceso para producir diamantes sintéticos es rentable sólo si el peso de estos es mayor a 0.5 quilates. Para evaluarlo se generan 6 diamantes con los siguientes pesos: 0.46, 0.61, 0.52, 0.48, 0.57, 0,54
¿Se rechaza Ho?
peso_diamante <- c(.46,.61,.52,.48,.57,.54)
promedio <- mean(peso_diamante)
desviacion_estandar_muestra1 <- sqrt(var(peso_diamante))
n <- 6
miu_o <- 0.5 
t <- (promedio-miu_o)/(desviacion_estandar_muestra1/sqrt(n))
No se rechaza Ho, los datos no presentan suficiente evidencia para indicar que el peso medio de los diamantes excede los 0.5 quilates.
Función de densidad de probabilidad (t de Student)
x_densidad1 <- seq(-4,4, length=1000)
y_densidad1 <- dt(x_densidad, df=5)
plot(x_densidad1, y_densidad1, type="l", lty=1,xlab="t", ylab="f(t)", main="Función de densidad de probabilidad (t de Student)")

Función de distribución de probabilidad (t de Student)
x_distribucion1 <- seq(-4,4,length=1000)
y_distribucion1 <- pt(x_distribucion1, df=5)
plot(x_distribucion1, y_distribucion1, type="l", lty=1,xlab="t", ylab="f(t)", main="Función de distribución de probabilidad (t de Student)")

Ejercicio 7
Los desechos industriales y residuales descargados en nuestros ríos y arroyos absorben oxígeno y, por tanto, reducen la cantidad de oxígeno disuelto disponible para pedes y otras formas de fauna acuática. Una agencia estatal requiere un mínimo de 5 partes por millón (ppm) de oxígeno disuelto para que el contenido de oxígeno sea suficiente para sostener vida acuática. Seis especímenes de agua tomados de un río en un lugar específico durante la estación de aguas bajas (julio) dio lecturas de 4.9, 5.1, 4.9, 5.0, 5.0 y 4.7 de oxígeno disuelto. ¿Los datos dan suficiente evidencia para indicar que el contenido de oxígeno disuelto es menor a 5 ppm? Pruebe usando a = .05
datos <- c(4.9, 5.1, 4.9, 5.0, 5.0, 4.7)
valor_objetivo <- 5

resultado <- t.test(datos, mu = valor_objetivo, alternative = "less", conf.level = 0.95)
resultado
## 
##  One Sample t-test
## 
## data:  datos
## t = -1.1952, df = 5, p-value = 0.1428
## alternative hypothesis: true mean is less than 5
## 95 percent confidence interval:
##      -Inf 5.045727
## sample estimates:
## mean of x 
##  4.933333
No se rechaza Ho, el contenido de oxígeno disuelto es menor a 5 ppm.

Winsoring vs Trimming

Error típico
peso_diamante_con_error <- c(.46,.61,.52,.48,.57,54)
boxplot(peso_diamante_con_error, horizontal=TRUE)

Cómo solucionar
library(DescTools)
peso_diamante_con_error <- c(.46,.61,.52,.48,.57,54)
peso_diamantes_winsorizado <- Winsorize(peso_diamante_con_error,0.10)
peso_diamantes_winsorizado
## [1]  0.4600  0.6100  0.5200  0.4800  0.5700 40.6525
Trimming
peso_diamante_con_error <- c(.46,.61,.52,.48,.57,54)
peso_diamante_recortado <- Trim(peso_diamante_con_error,1)
peso_diamante_recortado
## [1] 0.61 0.52 0.48 0.57
## attr(,"trim")
## [1] 1 6