# Rendimiento

# rto <- c() 
rto = c(3.8, 3.5, 3.2, 2.8, 2.6,
        2.9, 3.1, 3.4, 3.0, 4.9)

Esta línea de código crea un vector llamado “rto” y le asigna los valores adecuados dentro de la función c()

Generando datos de una distribución Exponencial

set.seed(123)

#Esta línea de código establece una semilla para generar números aleatorios. Al proporcionar un valor específico (en este caso, 123), garantizamos que los resultados sean reproducibles.

rto_e = rexp(n = 1000, rate = 0.3)
#Esta línea de código genera datos aleatorios de una distribución exponencial. El argumento n especifica la cantidad de datos que se generarán y el argumento rate indica la tasa de la distribución exponencial.

hist(rto_e, breaks = 50, probability = T)
#crea un histograma de los datos generados anteriormente, utilizando la función hist(). El argumento rto_eespecifica los datos que se utilizarán para construir el histograma. El argumento breaks indica la cantidad de intervalos en los que se dividirá el rango de valores. El argumento probability se establece en TRUE para que el histograma muestre densidades relativas en lugar de frecuencias absolutas.

lines(density(rto_e), col='red', lwd=1.5)
#traza una línea de densidad sobre el histograma utilizando la función lines(). La función density()calcula la estimación de la densidad de los datos y lines()se utiliza para trazar la línea resultante.

abline(v = mean(rto_e), col='blue', lwd=2)
#traza una línea vertical en el valor de los medios de los datos utilizando la función abline(). El argumento v especifica que la linea es vertical y mean(rto_e)calcula la media de los datos
abline(v = quantile(rto_e, 0.05), col='green', lwd=2)

# traza una línea vertical en el percentil 5 de los datos y quantile(rto_e, 0.05)calcula el valor correspondiente al percentil 5 de los datos.

boxplot(rto_e)

rto_e_log = log(rto_e)
boxplot(rto_e_log)

hist(rto_e_log)

#calcula el logaritmo natural (logaritmo en base e) de los datos generados rto_e. Crea un nuevo vector rto_e_logque contiene los valores transformados por la función logaritmo.

#boxplot(rto_e_log): Esta línea de código crea un diagrama de caja (boxplot) basado en los datos transformados rto_e_log. El diagrama de caja muestra la distribución de los datos y resalta la información estadística como los cuartiles, la mediana y los valores atípicos.

#hist(rto_e_log): Esta línea de código genera un histograma basado en los datos transformados rto_e_log. .

rto_e_sqr = sqrt(rto_e)
boxplot(rto_e_sqr)

hist(rto_e_sqr)

#Esta línea de código calcula la raíz cuadrada de los datos generados rto_e. Crea un nuevo vector rto_e_sqrque contiene los valores transformados por la función raíz cuadrada. grafica diagrama de cajas e histograma

boxplot(rto,
        ylab = 'Distribución Rendmiento',
        main = 'Grafico de Cajas',
        ylim = c(2, 5))
# se etiqueta el eje y con 'Distribución Rendmiento'. main = 'Grafico de Cajas': Este argumento establece el texto que se muestra en el título del gráfico. ylim = c(2, 5): establece los límites del eje y en el gráfico.
media_rto = mean(rto)
#Esta línea de código calcula la media (promedio) de los valores 
media_rto_trun = mean(rto, trim = 0.2)
#calcula la media recortada (trimmed mean) de los valores en el vector 
mediana_rto = median(rto) 
#Esta línea de código calcula la mediana de los valores
q_rto = quantile(rto, c(0.4, 0.99))
#alcula los percentiles 40 y 99 de los valores en el vector 
q_rto

##   40%   99% 
## 3.060 4.801

#imprime en la consola los valores calculados en el paso anterior
points(1, media_rto, pch=16, col='red')

#agrega un punto rojo en las coordenadas (1, media_rto) en un gráfico existente. Se utiliza la función points()con el argumento pchestablecido en 16 para especificar el tipo de símbolo

plot(density(rto))

hist(rto)
abline(v = media_rto, col='red', lwd=2)
abline(v = media_rto_trun, col='blue', lwd=2, lty=2)
abline(v = mediana_rto, col='green', lwd=2)
abline(v = q_rto, col='purple', lwd=2)

# semilla para numeros aleatorios
set.seed(123)

# Rendmiento Normal
rto = rnorm(n = 1000, mean = 3, sd = 0.3)
#Esta línea genera 1000 valores aleatorios de una distribución normal con un medio de 3 y una desviación estándar de 0.3. 
# Altura de Planta
alt_plt = rto * 3 + rnorm(n = 1000, mean = 0, sd = .5)
#genera 1000 valores aleatorios para la variable "Altura de Planta". Los valores se obtuvieron multiplicando los valores de "Rendimiento Normal" por 3 y luego agregando ruido ocasional generado por una distribución normal con medios 0 y desviación estándar 0.5.

rto[1001] = 3.5
alt_plt[1001] = 7
#Estas dos líneas asignan valores específicos a las posiciones 1001 de los vectores "rto" y "alt_plt". En este caso, se establece que el "Rendimiento Normal" es 3.5 y la "Altura de Planta" es 7 en la posición 1001.

plot(alt_plt, rto, pch=16, cex=0.3)
#crea un gráfico de dispersión (scatter plot) con la "Altura de Planta" en el eje xy el "Rendimiento Normal" en el eje,  se reducen su tamaño a 0,3 ( cex=0.3).
points(alt_plt[1001], rto[1001], col='red', pch=16)

#agrega un punto rojo ( col='red') en el gráfico de dispersión en la posición correspondiente a la "Altura de Planta" y el "Rendimiento Normal" de la posicion 1001.
par(mfrow=c(1,2), mar=c(0,3,1,0))

#establece la configuración de división de la ventana gráfica en 1 fila y 2 columnas ( mfrow=c(1,2)). Además, ajusta los márgenes izquierdos ( mar[2]) y el derecho ( mar[4]) de las gráficas para que haya más espacio en los laterales.

boxplot(rto, pch=16, main='rto')

boxplot(alt_plt, pch=16, main ='alt_plt')

#Estas dos líneas generan dos diagramas de caja, uno para el "Rendimiento Normal" y otro para la "Altura de Planta". Los puntos se representan con "pch=16" y se muestra un título en cada gráfico ( main='rto'y main='alt_plt').

library(ggplot2)
library(ggExtra)
#cargan las librerías ggplot2y ggExtra, las cuales tendrán herramientas avanzadas para crear gráficos en R.

datos = data.frame(rto, alt_plt)

#crean un nuevo data frame llamado datosque combina los vectores rtoy alt_plten columnas correspondientes. Luego, se imprime en la consola el contenido del marco de datos.

graf1 = ggplot(datos)+
  aes(alt_plt, rto)+
  geom_point()+
  geom_point(aes(x = mean(alt_plt),
                 y = mean(rto)),
             color = 'red',
             size=2)
#crean un objeto "graf1" que representa un gráfico utilizando ggplot2. Se especifica el marco de "datos" como la fuente de datos y se asignan las variables alt_plty rto a los ejes x,y, respectivamente. Se utiliza geom_point()para agregar puntos en el gráfico correspondiente a los valores de alt_plty rto. Luego, se agrega otro punto de color rojo ( color = 'red') 
graf1
#muestra el grafico 

ggMarginal(graf1, type='boxplot')

## Warning: Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?
## Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?

#genera un gráfico adicional basado en graf1el uso de la función ggMarginal()de la librería ggExtra. El tipo de gráfico marginal especificado es un boxplot ( type='boxplot'). Esto añade un gráfico de diagrama de caja en los márgenes del gráfico principal, mostrando información adicional sobre la distribución de las variables.

library(mvoutlier)

## Loading required package: sgeostat

#mvoutlier proporciona funciones para detectar valores típicos multivariados en conjuntos de datos.
mvoutlier::corr.plot(alt_plt, rto, pch=16, cex=0.1)

## $cor.cla
## [1] 0.8749184
## 
## $cor.rob
## [1] 0.8844873

# utiliza la función corr.plot()de la librería mvoutlierpara generar un gráfico de dispersión con una línea de conexión entre las variables alt_plty rto. ""Robust cor" se refiere a una medida de conexión robusta o resistente a valores atípicos." se utilizan cuando se sospecha que los datos contienen valores atípicos, o cuando los supuestos de normalidad y linealidad no se cumplen.  varía entre -1 y 1. - Un valor de coincidencia cercana a 1 indica una confirmación positiva fuerte. Esto significa que las dos variables están altamente relacionadas de manera lineal positiva. A medida que una variable aumenta, la otra tiende a aumentar en proporción. -
cor(alt_plt, rto)

## [1] 0.8749184

#calcula las conexiones entre las variables alt_plty rto y utiliza la función cor(). El resultado es un valor que indica la fuerza y la dirección de la relación lineal entre las variables "classical cor". Un valor positivo cercano a 1 indica una conexión positiva fuerte, mientras que un valor negativo cercano a -1 indica una conexión negativa fuerte.

Un ejemplo del mal uso de la corralción

Profundidad Siembra

ps = rep(x = 0:5, each = 3)
ps

##  [1] 0 0 0 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5

#crea un vector llamado "ps" que contiene la repetición del vector 0:5. El parámetro "each = 3" indica que cada elemento del vector 0:5 se repetirá tres veces. Por lo tanto, "ps" será un vector con los siguientes elementos: 0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5 .


# Tiempo Germinación

set.seed(123)
tg = runif(n = 18, min = 0, max = 14)
#genera un vector llamado "tg" que contiene 18 números aleatorios uniformemente distribuidos entre 0 y 14. La función runifse utiliza para generar números aleatorios continuos.
tg = sort(tg, decreasing = TRUE)
#ordena el vector "tg" en orden descendente. Los números aleatorios generados en la línea anterior ahora se organizan de mayor a menor.
plot(tg, ps, pch=16)

# crea un gráfico de dispersión con los valores de "tg" en el eje xy los valores de "ps" en el eje y.
cor(tg, ps)

## [1] -0.9801869

#calcula la conexión entre los vectores "tg" y "ps". Proporciona una medida de la relación lineal entre las dos variables

library(Hotelling)

## Loading required package: corpcor

#La librería "Hotelling" proporciona funciones relacionadas con el análisis multivariante y la prueba de Hotelling.
data("bottle.df")
#Esta línea carga el conjunto de datos llamado "bottle.df" 
mis_datos = bottle.df[, -1]
#Esta línea crea una nueva variable llamada "mis_datos" que almacena todas las filas de "bottle.df" excepto la primera columna. La sintaxis "bottle.df[, -1]" se utiliza para seleccionar todas las filas y todas las columnas excepto la columna 1. El resultado es un nuevo conjunto de datos que contiene únicamente las variables de interés.

head(mis_datos)

##     Mn    Ba    Sr   Zr    Ti
## 1 56.1 170.7 145.1 77.4 267.4
## 2 53.8 166.2 143.3 71.6 270.0
## 3 58.7 184.2 156.5 78.2 286.4
## 4 54.6 170.5 158.1 75.3 273.6
## 5 58.6 185.2 161.3 83.9 289.9
## 6 56.8 180.5 146.7 79.2 274.0

#Esta línea muestra las primeras filas del conjunto de datos "mis_datos".

R = cor(mis_datos)
# Esta línea calcula la matriz de conexión entre las variables en el conjunto de datos "mis_datos" utilizando la función "cor()
library(ggcorrplot)
ggcorrplot(R, lab = TRUE)

# "ggcorrplot" proporciona funciones para visualizar matrices de utilización de gráficos llamativos y personalizables.

#crea un gráfico. El argumento "R" especifica la matriz de conexiones que se ajusta, y "lab = TRUE" indica que se mostrarán las etiquetas de las variables en el gráfico.

plot(mis_datos$Ti,
     mis_datos$Ba,
     pch=16)
#rea un gráfico de dispersión (scatter plot) con los valores de la variable "Ti" en el eje xy los valores de la variable "Ba" en el eje y
abline(lm(Ba ~ Ti, mis_datos),
       col='red', lwd=3)

#traza una línea de regresión lineal en el gráfico utilizando la función "abline()". La expresión "lm(Ba ~ Ti, mis_datos)" ajusta un modelo de regresión lineal con "Ba" como variable de respuesta y "Ti" como variable independiente utilizando los datos en "mis_datos".

library(PerformanceAnalytics)

## Loading required package: xts

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## 
## Attaching package: 'PerformanceAnalytics'

## The following object is masked from 'package:graphics':
## 
##     legend

chart.Correlation(mis_datos)

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

## Warning in par(usr): argument 1 does not name a graphical parameter

#La librería "PerformanceAnalytics" proporciona herramientas y funciones para el análisis y visualización de datos financieros y de rendimiento.

#Esta línea crea un gráfico de utilizar la función "chart.Correlation()" de la librería "PerformanceAnalytics". La función toma como argumento el conjunto de datos "mis_datos" y muestra un gráfico de matriz de correlación. El gráfico de conexiones muestra las correlaciones entre todas las combinaciones de variables en "mis_datos". Cada celda del gráfico representa la conexión entre dos variables, y el color y la intensidad del tono indican el valor de conexión. El gráfico proporciona una visualización rápida y efectiva de las relaciones de concordancia en el conjunto de datos.

#######

set.seed(123)
x = seq(1, 10, l=100)
#crea un vector llamado "x" que contiene una secuencia de números de 1 a 10, con una longitud de 100. La función seq()se utiliza para generar secuencias de números.
y = 0.2*x**4 + 3*x - 1
#calcula los valores de "y" mediante una función cuadrática. Se utiliza la operación de exponente **para elevar cada elemento de "x" a la cuarta potencia, luego se multiplican por 0,2 y se suman 3 veces el valor de "x". Finalmente, se resta 1.
y = y + runif(100, min = 3, max = 10)
#agrega ruidos aleatorios a los valores de "y". Se genera un vector de 100 números aleatorios uniformemente distribuidos entre 3 y 10 utilizando la función runif(), y luego se suma a los valores originales de "y". Esto introduce frecuentemente y aleatoriedad en los datos simulados

plot(x,y)

#rea un gráfico de dispersión con los valores de "x" en el eje xy los valores de "y" en el eje y.
cor(x,y, method = 'pearson')

## [1] 0.891964

#calcula las conexiones de Pearson entre los vectores "x" e "y" 
cor(x,y, method = 'spearman')

## [1] 0.9994359

#alcula las conexiones de Spearman entre los vectores "x" e "y"

Pearson se utiliza para evaluar la relación lineal entre variables continuas, mientras que la conexión de Spearman se utiliza para evaluar la relación monótona entre variables, sin necesidad de una relación lineal. La elección entre estas correlaciones depende de la naturaleza de los datos y el tipo de relación que se espera o se desea estudiar.

clase 2 Multivariado

J. Moreno

2023-06-29

Generando datos de una distribución Exponencial

plot(density(rto))

Un ejemplo del mal uso de la corralción

Profundidad Siembra