1.Instalar paquetes

#install.packages("ggplot2")
#install.packages("plotly")
#install.packages("UsingR")
#install.packages("MASS")
library(ggplot2)
library(UsingR)

## Cargando paquete requerido: MASS

## Cargando paquete requerido: HistData

## Cargando paquete requerido: Hmisc

## 
## Adjuntando el paquete: 'Hmisc'

## The following objects are masked from 'package:base':
## 
##     format.pval, units

library(MASS)
library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:Hmisc':
## 
##     src, summarize

## The following object is masked from 'package:MASS':
## 
##     select

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(plotly)

## 
## Adjuntando el paquete: 'plotly'

## The following object is masked from 'package:Hmisc':
## 
##     subplot

## The following object is masked from 'package:MASS':
## 
##     select

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

2

a.Represent these data employing a histogram and a superimposed density plot.

data("brightness")
data_brightness<-as.data.frame(brightness)

ggplot(data_brightness, aes(x = brightness)) +
  geom_histogram(binwidth = 0.1, fill = "lightblue", color = "black")+
  geom_density(alpha = 5, fill = "red") +
  labs(title = "Histograma con Curva de Densidad")

2.

b.Represente gráficamente estos datos mediante un diagrama de caja. ¿Dirías que los datos tienen “valores atípicos”? ¿Cuál es el segundo valor atípico más pequeño?

caja_brightness <- ggplot(data_brightness, aes(x = factor(1), y = brightness)) + geom_boxplot(outlier.colour = "red", outlier.shape = 19, outlier.size = 3) + 
labs(title = "Distribución de la Magnitud Aparente de las Estrellas", x = "Magnitud", y = "Valor de Magnitud")
caja_interactive <- ggplotly (caja_brightness)
caja_interactive

# Si existe datos atìpicos, ya que vemos algunos vaores por fuera de la caja, vemos ademas que el segundo dato atipico mas pequeñoe es de una estrella con magnitud de 2,28

C.Queremos conservar los datos que no se pueden considerar valores atípicos. Cree una nueva variable llamada brightness.sin que contenga solo los valores sin valores atípicos.

Q1 <- quantile(data_brightness$brightness, 0.25)
Q3 <- quantile(data_brightness$brightness, 0.75)

brightness_sin<- data_brightness %>% filter (data_brightness$brightness >= Q1 & data_brightness$brightness <= Q3) 

caja_brightness_sin <- ggplot(brightness_sin, aes(x = factor(1), y = brightness)) + geom_boxplot(outlier.colour = "red", outlier.shape = 19, outlier.size = 3) + 
labs(title = "Distribución de la Magnitud Aparente de las Estrellas", x = "Magnitud", y = "Valor de Magnitud")
caja_interactive_sin <- ggplotly (caja_brightness_sin)
caja_interactive_sin

3.UScereal contain information on the breakfast with cereals.

Determine e interprete las relaciones entre los siguientes pares de variables mediante diagramas de dispersión, diagramas de caja o gráficos de barras, según corresponda:

a.

b. fat & vitamins.

data("UScereal")

ggplot(UScereal, aes(x = fat, y = vitamins)) + 
geom_point(color = "blue", size = 3)+
labs (title= "Relación grasa vs vitaminas", x= "Grasa", y= "vitaminas")

## c. fat & shelf.

Boxplot_fatinshelf <- ggplot(UScereal, aes(x = as.factor(shelf), y = fat)) + 
geom_boxplot() + 
labs(title = "índice grasa en cereales por estantería", x = "Estantería", y = "Grasa de cereales")

boxplot_fatinteractive <- ggplotly (Boxplot_fatinshelf)
boxplot_fatinteractive

# D esta grafica podemos observar que en la estanteria 1 podemos encontrar en su gram mayoria, cereales con bajos indices de grasa en sus componentes, caso contrario de la estanteria 3 que podemos ver cereales con un contenido graso mas variable

d. carbohydrates & sugars

graficd <- ggplot(UScereal, aes(x = carbo, y = sugars)) + 
geom_point(aes(color = mfr), size = 2) +  
labs(title = "Relación hidratos de carbono vs azúcar", x = "Hidratos de Carbono", y = "Azúcar", color = "Fabricante")
graficd_interactive<- ggplotly (graficd)
graficd_interactive

e. fibre & manufacturer.

grafic_e <- ggplot(UScereal, aes(x = mfr, y = fibre)) + 
geom_boxplot() + 
labs(title = "Fibra utilizada en cereales por fabricante", x = "fabricante", y = "Fibra en cereales")

grafic_einteractive<- ggplotly(grafic_e)
grafic_einteractive

#De este grafico podemos interpretar que el fabricante N es el unico que utiliza fibra en todos sus cereales ademas de que tiene los cereales con mayor componente en fibra, por lo contrario, el fabricante que maneja menor cantidad de fibra en sus cereales es Q con una media de 1.

f. sodium & sugars.

graficf <- ggplot(UScereal, aes(x = sodium, y = sugars)) + 
geom_point(aes(color = mfr), size = 2) +  
labs(title = "Relación sodio vs azúcar", x = "Sodio en cereal", y = " Azucar en cereal", color = "Fabricante")
graficf_interactive<- ggplotly (graficf)
graficf_interactive

4. mammals contain information on relationship between body weight and brain weight of mammals.

a.Represente los datos para visualizar la relación.

library(MASS) 
data("mammals")
grafic4a <- ggplot(mammals, aes(x = body, y = brain)) + 
geom_point() +  
labs(title = "Relación peso corporal vs peso de su cerebro", x = "Peso corporal (kg)", y = "Peso de su cerebro (gr)")

grafic4_interactive<- ggplotly (grafic4a)
grafic4_interactive

#b. A simple vista no muestra una correlacion lineal

C.Transforme los datos usando la función de registro y repita el estudio. ¿Cómo cambian los resultados?

body_log <- log(mammals$body)
brain_log <- log(mammals$brain)

grafic4b <- ggplot(mammals, aes(x = body_log, y = brain_log)) + 
geom_point() +  
labs(title = "Relación peso corporal vs peso de su cerebro", x = "Peso corporal (kg)", y = "Peso de su cerebro (gr)")

interactive_grafic4b <- ggplotly(grafic4b)
interactive_grafic4b

# En este caso podemos observar una tendencia muy clara y podemos interpretar que si hay una correlaciòn lineal

5. La anorexia contiene información sobre el cambio de peso en pacientes femeninas.

a. ¿Qué tratamiento fue el más efectivo?

data("anorexia")
str(anorexia)

## 'data.frame':    72 obs. of  3 variables:
##  $ Treat : Factor w/ 3 levels "CBT","Cont","FT": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Prewt : num  80.7 89.4 91.8 74 78.1 88.3 87.3 75.1 80.6 78.4 ...
##  $ Postwt: num  80.2 80.1 86.4 86.3 76.1 78.1 75.1 86.7 73.5 84.6 ...

frecuencias_treat <- table(anorexia$Treat)
frecuencias_treat

## 
##  CBT Cont   FT 
##   29   26   17

anorexia <- anorexia %>% mutate(Diffweight = Postwt-Prewt)

grafic5_a <- ggplot(anorexia, aes(x = Treat, y = Diffweight)) + 
geom_boxplot() + 
labs(title = "Comparación efectividad según tratamiento", x = "Tipo de tratamiento", y = "Diferencia de peso después del tratamiento")

interactive_grafic5_a <- ggplotly(grafic5_a)
interactive_grafic5_a

# De acuerdo con lo que arroja la grafica, podemos interpretar que el tartamiento mas efectivo es el de FT dado a que maneja una media por encima a los demas

Taller_Analisis_Datos

Sebastian Tejada

2024-08-09

1.Instalar paquetes

2

a.Represent these data employing a histogram and a superimposed density plot.

2.

b.Represente gráficamente estos datos mediante un diagrama de caja. ¿Dirías que los datos tienen “valores atípicos”? ¿Cuál es el segundo valor atípico más pequeño?

C.Queremos conservar los datos que no se pueden considerar valores atípicos. Cree una nueva variable llamada brightness.sin que contenga solo los valores sin valores atípicos.

3.UScereal contain information on the breakfast with cereals.

Determine e interprete las relaciones entre los siguientes pares de variables mediante diagramas de dispersión, diagramas de caja o gráficos de barras, según corresponda:

a.

b. fat & vitamins.

d. carbohydrates & sugars

e. fibre & manufacturer.

f. sodium & sugars.

4. mammals contain information on relationship between body weight and brain weight of mammals.

a.Represente los datos para visualizar la relación.

C.Transforme los datos usando la función de registro y repita el estudio. ¿Cómo cambian los resultados?

5. La anorexia contiene información sobre el cambio de peso en pacientes femeninas.

a. ¿Qué tratamiento fue el más efectivo?