#importar libro de excel
library(readxl)
Datos_hombres_score <- library(readxl)
Datos_hombres_score <- read_excel("C:/2024/Semestre III/Metodos Multivariados/Datos hombres score.xlsx", 
    sheet = "Pre-test")
View(Datos_hombres_score)
score_m = as.numeric(Datos_hombres_score$Score_masculino)
hist(score_m)

#tengo que definir los puntos de corte para generar categorias, que metodo puede ser?
#metodo optimo para la raiz cuadrada para crear estratos
#hagamos la tabla de frecuencias
table(score_m)
## score_m
## 33 34 37 38 41 42 43 45 46 48 49 50 51 52 53 54 55 56 58 59 60 62 63 64 65 66 
##  1  1  3  1  1  1  1  1  2  1  1  2  3  4  2  1  3  3  1  1  2  1  2  1  1  1 
## 67 68 69 70 74 77 
##  2  1  1  1  2  1
tabla.masculino = table(score_m)
#raiz en R
raiz.tb.mascu = sqrt(tabla.masculino)
raiz.tb.mascu
## score_m
##       33       34       37       38       41       42       43       45 
## 1.000000 1.000000 1.732051 1.000000 1.000000 1.000000 1.000000 1.000000 
##       46       48       49       50       51       52       53       54 
## 1.414214 1.000000 1.000000 1.414214 1.732051 2.000000 1.414214 1.000000 
##       55       56       58       59       60       62       63       64 
## 1.732051 1.732051 1.000000 1.000000 1.414214 1.000000 1.414214 1.000000 
##       65       66       67       68       69       70       74       77 
## 1.000000 1.000000 1.414214 1.000000 1.000000 1.000000 1.414214 1.000000
#asi lo tienen en el tablero
F_m = cumsum(sqrt(tabla.masculino))
F_m
##        33        34        37        38        41        42        43        45 
##  1.000000  2.000000  3.732051  4.732051  5.732051  6.732051  7.732051  8.732051 
##        46        48        49        50        51        52        53        54 
## 10.146264 11.146264 12.146264 13.560478 15.292529 17.292529 18.706742 19.706742 
##        55        56        58        59        60        62        63        64 
## 21.438793 23.170844 24.170844 25.170844 26.585057 27.585057 28.999271 29.999271 
##        65        66        67        68        69        70        74        77 
## 30.999271 31.999271 33.413485 34.413485 35.413485 36.413485 37.827698 38.827698
#Ahora voy a generar los puntos de corte
#voy a divdir el ultimo numero de la raiz acumulada (38.82) en el numero de estratos que quiero generar
corte_m = round(max(F_m)/3, 2)
F_m/3
##         33         34         37         38         41         42         43 
##  0.3333333  0.6666667  1.2440169  1.5773503  1.9106836  2.2440169  2.5773503 
##         45         46         48         49         50         51         52 
##  2.9106836  3.3820881  3.7154215  4.0487548  4.5201593  5.0975096  5.7641762 
##         53         54         55         56         58         59         60 
##  6.2355808  6.5689141  7.1462644  7.7236146  8.0569480  8.3902813  8.8616858 
##         62         63         64         65         66         67         68 
##  9.1950192  9.6664237  9.9997570 10.3330903 10.6664237 11.1378282 11.4711615 
##         69         70         74         77 
## 11.8044949 12.1378282 12.6092327 12.9425661
#creo que esa primera división me dio 12.94
corte_m2 = corte_m*2
corte_m2
## [1] 25.88
#segundo punto de corte
#vamos a crear categorias
categoria = ifelse(score_m<50, "baja",ifelse(score_m>59, "alta","media")) #estos puntos los obtuve de excel
table(categoria)
## categoria
##  alta  baja media 
##    16    14    20
#concordancia de jueces, evaluacion de las propiedades
#vamos a evaluar datos pre y post test
resp = round(runif(96, 0.1, 0.6), 0)
resp=ifelse(resp==1, "SI", "NO")

#datos = data.frame(test = rep(c("pre", "post"), 48), 
                #   resp = resp #48 datos, 24 pre y 24 post

#Aca esta ecuación quedó a medio hacer
#preba de McNemar, prueba para el cambio de opinion
#vamos a pasar la tabla de pre y post test, hay 44 entrevistados, pre 20 del NO y 24 del SI, y post tengo 12 SI y 32 del NO
#creemos los datos en excel, ¿será que los 8 netos que cambiaron de opinion será significativo?
#Importar data set
library(readxl)
datos.mcNemar = Datos_hombres_score <- read_excel("C:/2024/Semestre III/Metodos Multivariados/Datos hombres score.xlsx", 
    sheet = "McNemar")

#crear una tabla entre pre test y post test
tabla=table(pre=datos.mcNemar$pre_test,post=datos.mcNemar$post_test)
#hubo cambio importante al perder 4 y ganar 12, teniendo un neto de ganancia de 8
#H0 , no hubo cambio de opinion
#Ha, si hay cambio de opinion, o de estatus
#donde hubo cambio es mucho mas grande que donde no hubo cambio
mcnemar.test(tabla) #meto la tabla
## 
##  McNemar's Chi-squared test with continuity correction
## 
## data:  tabla
## McNemar's chi-squared = 3.0625, df = 1, p-value = 0.08012
#chi cuadrado, 3.06, Pearson desarrollo un estadistico, donde se calcula la distancia entre los valores esperados y los que aparecen, ambos al cuadrado?, 
#df, 1 xk tiene 2 filas y dos columnas
#p valor, > 0.05 , no rechazo hipotesis nula, todo siguio igual, con la publicidad o charla no hubo cambio 
#este trabajo fue bi variable: pre y post, y SI o NO
#Peeero, la prueba Chi cuadrado de independencia, para tareas diferentes, a continuación se usará para Cambio de opinión, probando si par de variables cualitativas dependen entre si
#H0, una variable no tiene nada que ver con la otra
#Ha las maquinas no lo estan haciendo igual, tienen productos de calidad diferente
#Factores de riesgo, será que tenencia y manejo son independientes? 
#Será que el nivel edacucional afecta la opinion que se tiene sobre un político?
#la calidad de un producto tiene que ver con su refrigeración?
#cruzar variables de tipo cualitativo, una es de tipo ordinal
#Cuado saber que esta mal el tamaño de muestra
#si dos eventos son independientes es = a la % de que ocurra cada uno por separado
#crear la tabla de excel en R
M = matrix(data = c(25,15,5, 18, 14, 10, 5, 7, 22),
       byrow=TRUE, ncol = 3)
rownames(M) = c("propietario", "sociedad", "arrendatario")
colnames(M) = c("bueno", "medio", "bajo")
M
##              bueno medio bajo
## propietario     25    15    5
## sociedad        18    14   10
## arrendatario     5     7   22
M=as.table(M)
#Para estar seguro que los datos estan bien, 
#GL:3+2=5 , 5-1=4
#p valor, rechazo la H0, que la tenencia era independiente del manejo, con los datos vería que los propietarios lo hacen bien, la tenencia si afecta el manejo
prueba = chisq.test(M)
prueba
## 
##  Pearson's Chi-squared test
## 
## data:  M
## X-squared = 28.803, df = 4, p-value = 8.573e-06
prueba$observed
##              bueno medio bajo
## propietario     25    15    5
## sociedad        18    14   10
## arrendatario     5     7   22
prueba$expected
##                 bueno    medio     bajo
## propietario  17.85124 13.38843 13.76033
## sociedad     16.66116 12.49587 12.84298
## arrendatario 13.48760 10.11570 10.39669
#si el numero es muy grande, es señal de que lo observado vs esperado estada distanciandose, entonces el numero es mas grande y hay diferencia
#Si distan mucho, el valor p es muy chiquito, se rechaza H0
#que tal que la opinion este relacionada por el estrato socioeconómico
#si no hay relacion, me es irrelevante el como trate
#si hay relacion, lo tengo que poner en cuenta