Llamar librerías

library(ggplot2)
library(gridExtra)
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
library(knitr)

Set Working Directory

setwd("/Users/estefanyvillalobos/Desktop/RPortfolio")

Distribución y Densidad de Probabilidad Normal

Distribuciones de Probabilidad Continua:
Pueden tomar varias formas, pero un gran número de variables aleatorias observadas en la naturaleza poseen una distribución de frecuencia que tiene más o menos la forma de montículo, o bien, como se diría en estadística, es aproximadamente una distribución normal de probabilidad.

Formula que genera esta distribución:

  • e = 2.72
  • pi = 3.141592653589793

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2} \]

  • El área bajo la curva es igual a 1.
  • Para variables aleatorias continuas, área = probabilidad.
  • El área a la izquierda de la media es igual a .S.
  • ” ” ” ” ” ” derechas ” ” ” ” ” ” ” ” ” ” ” “

Para hallar la probabilidad de que una variable aleatoria normal “x” se encuentre en el intervalo de “a” a “b” necesitamos obtener el área bajo la curva normal entre los puntos “a” y “b”. No obstante, hay un número infinitamente grande de distribuciones normales, uno para cada media y desviación estándar diferentes.

Variable Aleatoriamente Normal Estándar

Beneficio: nos permite usar la misma tabla para todas las distribuciones normales.
Formula:

\[z = \frac{x - \mu}{\sigma}\]

La distribución de probabilidad para “z” se denomina “Distribución Normal Estandarizada”

Ejercicio 3

a. Un estudio demostró que el uso de gasolina para autos compactos vendidos en EE.UU. está distribuido normalmente, con una media de 25.5 millas por galón (mpg) y una desviación estándar de 4.5 mpg. ¿Qué porcentaje de autos recorre 30 mpg o más?

Datos:

x = 30
μ = 25.5
σ = 4.5
P = ?

Formula:
\[z = \frac{x - \mu}{\sigma}\] \[z = \frac{30 - 25.5}{4.5}=1.00\] \[P = 1 - 0.8413 = 0.1587\]

Porcentaje bajo la curva (Probabilidad)

1-pnorm(30,25.5,4.5) # se le pone 1 - ya que en el ejercicio se le restó
## [1] 0.1586553

Respuesta: El 15.9% de autos recorre 30 mpg o más.

b. Si un fabricante desea desarrollar un auto que supere al 95% de los compactos actuales, ¿Cuál debe ser el rendimiento (mpg)?

\[X₀ = μ + Z₀ σ\] \[X₀ = 25.5 + 1.645(4.5)\] \[X₀ = 32.9\]

De Tablas, Z₀ = 1.645

Valor en el Eje X

qnorm(0.95,25.5,4.5)
## [1] 32.90184

Respuesta:El nuevo auto compacto debe recorrer 32.9 mpg para superar al 95% de los autos actuales.

Ejercicio 4

Suponga que los diámetros de tallos no sorportados en la base, de una especie particular de girasol, tienen una distribución normal con un diámetro promedio de 35mm y una desviación estándar de 3mm.

a. ¿Cuál es la probabilidad de que una planta de girasol tenga un diámetro de base de más de 40 mm?

? = Probabilidad base más de 40 mm

fomula
\[ \displaystyle f(x) = \frac{1}{\sigma \sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]

z = (40 - 35) / 3
z = 1.67
P = 1 - 0.9525
P = 0.0475 = 4.75%

La probabilidad es de 4.75%

Za <- (40-35)/3
Za
## [1] 1.666667
Pa <- 1-pnorm(40,35,3) 
Pa
## [1] 0.04779035

Función de Densidad de Probabilidad (Normal)

x<- 40
promedio<- 35
sd<- 3
# Lo maximo que nos podemos alejar del promedio es 3 deviaciones estandar de la media (99.7%)

x_den <- seq(promedio-3*sd,promedio+3*sd,length=1000)
y_den <- dnorm(x_den, promedio, sd)

plot(x_den, y_den, type="l", lty = 1, xlab = "x", ylab = "f(x)", main = "Función de Densidad de Probabilidad (Normal)", col = "darkgreen")

Función de Distribución de Probabilidad (Normal)

x_dist <- seq(promedio-3*sd,promedio+3*sd,length=1000)
y_dist <- pnorm(x_dist,promedio,sd)

plot(x_dist, y_dist, type="l", lty = 1, xlab = "x", ylab = "f(x)", main = "Función de Distribución de Probabilidad (Normal)", col = "blue")

b. Si 2 plantas de girasol se seleccionan al azar, ¿cuál es la probabilidad de que ambas plantas tengan un diámetro de base de más de 40 mm?

Por definición, la probabilidad de que dos eventos mutuamente excluyentes ocurran es la de multiplicar la probabilidad individual de cada una.

P1 * P2 = 0.0485 * 0.0485
P = 0.0023 = 0.23%

La probabilidad es de 0.23%

Pb <- Pa * Pa
Pb
## [1] 0.002283918

c. ¿Dentro de qué límites esperaría usted que se encuentren los diámetros de base, con probabilidad de 0.95?

? = Límites de la base
Sería calcular los extremos que quedan afuera del 95% (2.5% y 97.5%)

p1 = 0.025
x1 = 35 + -1.96(3)
x1 = 29.12

p2 = 0.975
x2 = 35 + 1.96(3)
x2 = 40.88

Los límites en los que se encuentran los diámetros de la base son 29.1 mm y 40.8 mm.

Esperaría que los girasoles con probabilidad de 0.95 se encuentren dentro de los límites.

Pc1 <- qnorm(0.025,35,3) #Límite 1
Pc1
## [1] 29.12011
Pc2 <- qnorm(0.975,35,3) #Límite 2
Pc2
## [1] 40.87989

d. ¿Qué diámetro representa al 90avo percentil de la distribución de diámetros?

p = 0.90
x = 35 + 1.28(3)
x = 38.84

El 90vo percentil está en un diámetro de 38.8 mm.

Pd <- qnorm(0.90,35,3)
Pd
## [1] 38.84465

Shiny App

## PhantomJS not found. You can install it with webshot::install_phantomjs(). If it is installed, please make sure the phantomjs executable can be found via the PATH variable.
Shiny applications not supported in static R Markdown documents

Ejercicio 5

Un nuevo proceso para producir diamantes sintéticos es rentable sólo di el peso de éstos es mayor a 0.5 quilates. Para evaluarlo se generaron 6 diamantes con los siguientes pesos:

Pesos: 0.46, 0.61, 0.52, 0.48, 0.57, 0.54

¿El proceso es rentable?

Solución:

  1. Ho: μ ≤ 0.5
    Ha: μ > 0.5

  2. α = 0.05

  3. Grafica de zonas de aceptación/rechazo

Valor crítico = 2.015
Grados de libertad = 5

  1. Formula
    \[\displaystyle t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}} \]

  2. Procedimiento

#Insertar formula

peso_diamante <- c(0.46, 0.61, 0.52, 0.48, 0.57, 0.54)
promedio <- mean(peso_diamante)
promedio
## [1] 0.53
sd_muestral <- sqrt(var(peso_diamante))
sd_muestral
## [1] 0.05585696
n <- 6
miu_o <- 0.5

t <- (promedio-miu_o)/(sd_muestral/sqrt(n))
t
## [1] 1.315587
  1. Respuesta: No se rechaza Ho, los datos no presentan suficiente evidencia para indicar que el peso medio de los diamantes exceda los 0.5 quilates.

Función de Densidad de Probabilidad (t de Student)

x_den <- seq(-4,4,length=1000)
y_den <- dt(x_den, df=5)
plot(x_den,y_den,type="l",lty=1,xlab="t",ylab="f(t)", main="Función de Densidad de Probabilidad (t de Student)")

plot
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x11aa4a1f8>
## <environment: namespace:base>

Función de Distribución de Probabilidad (t de Student)

x_den <- seq(-4,4,length=1000)
y_den <- pt(x_den, df=5)
plot(x_den,y_den,type="l",lty=1,xlab="t",ylab="f(t)", main="Función de Distribución de Probabilidad (t de Student)")

plot
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x11aa4a1f8>
## <environment: namespace:base>

Ejercicio 6

Contenido de O2 disuelto

Los desechos industriales y residuales descargados en nuestros ríos y arroyos absorben oxígeno y, por tanto, reducen la cantidad de oxígeno disuelto disponible para peces y otras formas de fauna acuática. Una agencia estatal requiere un mínimo de 5 partes por millón (ppm) de oxígeno disuelto para que el contenido de oxígeno sea suficiente para sostener vida acuática. Seis especímenes de agua tomados de un río en un lugar específico durante la estación de aguas bajas (julio) dio lecturas de 4.9, 5.1, 4.9, 5.0, 5.0 y 4.7 de oxígeno disuelto.

¿Los datos dan suficiente evidencia para indicar que el contenido de oxígeno disuelto es menor a 5 ppm? Pruebe usando α = 0.05

  1. Ho: μ ≤ 0.5
    Ha: μ < 0.5

  2. α = 0.05

  3. Grafica de zonas de aceptación/rechazo
    Valor crítico = -2.015
    Grados de libertad = 5

  4. Formula
    \[\displaystyle t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}} \]

  5. Procedimiento

ppm <- c(4.9, 5.1, 4.9, 5.0, 5.0, 4.7)
promedio <- mean(ppm)
promedio
## [1] 4.933333
sd_muestra <- sqrt(var(ppm))
sd_muestra
## [1] 0.136626
n <- 6
miu_o <- 5

t <- (promedio-miu_o)/(sd_muestra/sqrt(n))
t
## [1] -1.195229
  1. Respuesta: No se rechaza Ho.

Winsorizing vs Trimming

#install.packages("DescTools")
library(DescTools)

peso_diamante_error <- c(0.46, 0.61, 0.52, 0.48, 0.57, 54)
boxplot(peso_diamante_error,horizontal=TRUE)

#Winsorizing
peso_diamante_winsorizado <- Winsorize(peso_diamante_error,0.10) #el segundo argumento es el porcentaje a quitar
peso_diamante_winsorizado
## [1]  0.4600  0.6100  0.5200  0.4800  0.5700 40.6525
#Trimming
peso_diamante_recortado <- Trim(peso_diamante_error,1)
peso_diamante_recortado
## [1] 0.61 0.52 0.48 0.57
## attr(,"trim")
## [1] 1 6
