Etapa 2

M19 <- read.csv("C:\\Users\\santi\\Downloads\\reto_modelacion\\Datos_molec_2019.csv")
M20 <- read.csv("C:\\Users\\santi\\Downloads\\reto_modelacion\\Datos_molec_2020.csv")
M21 <- read.csv("C:\\Users\\santi\\Downloads\\reto_modelacion\\Datos_molec_2021.CSV")
M22 <- read.csv("C:\\Users\\santi\\Downloads\\reto_modelacion\\Datos_molec_2022.csv")
M23 <- read.csv("C:\\Users\\santi\\Downloads\\reto_modelacion\\Datos_molec_2023.csv")
M24 <- read.csv("C:\\Users\\santi\\Downloads\\reto_modelacion\\Datos_molec_2024.csv")

column_number <- which(colnames(base_reto) == "edad")
edad= base_reto[ ,column_number]
mean(edad)

## [1] 45.65803

median(edad)

## [1] 44

(min(edad)+max(edad))/2

## [1] 57.5

sd(edad)

## [1] 16.68

sd(edad)/mean(edad)

## [1] 0.3653246

cuartiles=quantile(edad, probs = c(0.25, 0.75))
cuartiles

## 25% 75% 
##  32  58

skewness(edad)

## [1] 0.3195985

kurtosis(edad)

## [1] -0.738101

frecuencia_relativa<- prop.table(table(edad))
frecuencia_relativa

18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40	41	42	43	44	45	46	47	48	49	50	51	52	53	54	55	56	57	58	59	60	61	62	63	64	65	66	67	68	69	70	71	72	73	74	75	76	77	78	79	80	81	82	83	84	85	86	87	88	89	90	91	92	93	94	95	97
0.0087749	0.0142905	0.0150426	0.0176333	0.0165469	0.0167976	0.0176333	0.0199733	0.0179676	0.0182183	0.0199733	0.0197225	0.0221461	0.0213939	0.0201404	0.0194718	0.0166305	0.0192211	0.0198897	0.0198061	0.0197225	0.0193047	0.0215611	0.0200568	0.0186361	0.0221461	0.0213939	0.0197225	0.0198897	0.018469	0.0179676	0.0178004	0.0177169	0.0183854	0.0186361	0.0178004	0.017299	0.0198061	0.0172154	0.0163797	0.0172154	0.0171319	0.0166305	0.0142905	0.0128698	0.0134548	0.0137055	0.0144576	0.0103627	0.0099448	0.0108641	0.010697	0.0113655	0.0096941	0.0087749	0.0088584	0.0073542	0.0066856	0.0065185	0.0056828	0.0050142	0.0041785	0.0041785	0.0035935	0.00234	0.0025907	0.001755	0.0020893	0.0015878	0.0010028	0.0008357	0.0010864	0.0004179	0.0005014	0.0004179	0.0001671	0.0002507	8.36e-05	0.0001671

frecuencia_absoluta<-frecuencia_relativa*dim(base_reto)[1]
barplot(frecuencia_absoluta, main = "Histograma de edades", col = "skyblue", xlab = "Edad", ylab = "Frecuencia")

boxplot(edad, main = "Boxplot de edades", ylab = "Edades", col = "skyblue")

abline(h = cuartiles[1], col = "green", lty = 2, lwd = 2)  
text(y = cuartiles[1], x = 1.2, col = "green")
abline(h = cuartiles[2], col = "green", lty = 2, lwd = 2)  
text(y = cuartiles[3], x = 1.2, col = "green")

Calcula las medidas de las variables cuantitativas por categoría de alguna variable categórica de interés Elabora gráficos de caja y bigote de las variables cuantitativas por categoría de alguna variable categórica de interés Elabora gráficos comparativos por años si tu objetivo es comparar años

column_number <- which(colnames(base_reto) == "p4")
p4= base_reto[ ,column_number]
mean(p4)

## [1] 1.434648

median(p4)

## [1] 0

(min(p4)+max(p4))/2

## [1] 49.5

sd(p4)

## [1] 3.852617

sd(p4)/mean(p4)

## [1] 2.685409

cuartiles=quantile(p4, probs = c(0.25, 0.75))
cuartiles

## 25% 75% 
##   0   2

skewness(p4)

## [1] 9.479147

kurtosis(p4)

## [1] 138.5202

frecuencia_relativa<- prop.table(table(p4))
frecuencia_relativa

0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	20	22	23	24	25	30	32	35	40	42	45	50	52	60	65	66	70	80	99
0.5931807	0.1256895	0.1021227	0.0693632	0.0354337	0.0236503	0.0145412	0.0040114	0.0063513	0.0010028	0.0078556	0.0004179	0.0042621	0.0004179	0.0003343	0.0027578	0.0001671	0.0003343	0.0001671	0.0028414	0.0001671	0.0001671	0.0004179	0.0004179	0.0010864	0.0001671	0.0002507	0.0005014	8.36e-05	8.36e-05	0.0006686	8.36e-05	0.0005014	8.36e-05	8.36e-05	0.0001671	8.36e-05	8.36e-05

frecuencia_absoluta<-frecuencia_relativa*dim(base_reto)[1]
barplot(frecuencia_absoluta, main = "Histograma de libros leídos", col = "skyblue", xlab = "Cantidad de libros", ylab = "Frecuencia")

boxplot(p4, main = "Boxplot de libros leídos", ylab = "Cantidad de libros", col = "skyblue")
abline(h = cuartiles[1], col = "green", lty = 2, lwd = 2)  
text(y = cuartiles[1], x = 1.2, col = "green")

abline(h = cuartiles[2], col = "green", lty = 2, lwd = 2)  
text(y = cuartiles[3], x = 1.2, col = "green")

y= p4
x= edad
modelo <- lm(y ~ x)

# Resumen del modelo

summary(modelo)

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -1.993 -1.488 -1.044  0.290 97.108 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.356419   0.102253  23.045   <2e-16 ***
## x           -0.020189   0.002104  -9.597   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.838 on 11964 degrees of freedom
## Multiple R-squared:  0.00764,    Adjusted R-squared:  0.007557 
## F-statistic: 92.11 on 1 and 11964 DF,  p-value: < 2.2e-16

plot(x, y, main = "Correlación entre edad y libros leídos", xlab = "Edad", 
     ylab = "p_35", col = "blue", pch = 19)

# Añadir la línea de regresión
abline(modelo, col = "red", lwd = 2)

column_number <- which(colnames(base_reto) == "p5")
p5= base_reto[ ,column_number]
  
#Calcula las medidas de las variables cuantitativas por categoría de alguna variable categórica de interés

#Elabora gráficos de caja y bigote de las variables cuantitativas por categoría de alguna variable categórica de interés


#blanco", "trabajo", "estudio", "cultura gen", "entretenimiento", "religión", "otro")


boxplot(p4 ~ p5, data = base_reto, main = "Boxplot de Edad por Tipo de Material", 
        xlab = "Tipo de Material", ylab = "Edad", col = c("lightblue", "lightgreen", "lightcoral"))

boxplot(p4 ~ p5, data = base_reto, main = "Boxplot de Libros Leídos por Tipo de Material", 
        xlab = "Tipo de Material", ylab = "Libros Leídos", col = c("lightblue", "lightgreen", "lightcoral"))

Elabora gráficos comparativos por años si tu objetivo es comparar años

column_number <- which(colnames(M19) == "p4")
p4_19= M19[ ,column_number]
column_number <- which(colnames(M20) == "p4")
p4_21= M21[ ,column_number]
column_number <- which(colnames(M24) == "p4")
p4_24= M24[ ,column_number]



frecuencia_relativa19<- prop.table(table(p4_19))
frecuencia_absoluta19<-frecuencia_relativa19*dim(M19)[1]


frecuencia_relativa21<- prop.table(table(p4_21))
frecuencia_absoluta21<-frecuencia_relativa21*dim(M21)[1]

frecuencia_relativa24<- prop.table(table(p4_24))
frecuencia_absoluta24<-frecuencia_relativa24*dim(M24)[1]


barplot(frecuencia_absoluta19, main = "Histograma de libros leídos en 2019", col = "skyblue", xlab = "Cantidad de libros", ylab = "Frecuencia")

barplot(frecuencia_absoluta21, main = "Histograma de libros leídos en 2021", col = "skyblue", xlab = "Cantidad de libros", ylab = "Frecuencia")

barplot(frecuencia_absoluta24, main = "Histograma de libros leídos en 2024", col = "skyblue", xlab = "Cantidad de libros", ylab = "Frecuencia")

Etapa 2

Equipo 7

2024-09-24