a) ¿El modelo sirve?, ¿Qué tan explicativo es?
el modelo si sirve pues nos muestra la relacion en conjunta d emuchas variables para explicar si hay alguna relacion que deermine el voto hacia al gore.
b) De las variables utilizadas, ¿cuáles deben ser tomadas en cuenta?
LA DEPENDIENDTE (GORE00) que es la que sera objeto de investigacion. las demas son las independientes encargadas de la explicacion de la variable: (adultos mayores) ya que representan una poblacion a la que la campaña del democrata no fue dirigida, por sus mismas tendencias conservadoras (cos-hr). los ingresos per capita muestra a los estados con mas ingresos, los cuales pueden ser benficioso como el apoyo de california pero con la opocicion de texas. los graduados muestran una poblacion que es educada, una poblacion a la que apuntaba la campaña de al gore.
Recordar que previamente se deben realizar: a) Estadísticos univariados para cada variable. b) Estadísticos bivariados entre cada independiente y la dependiente.
link="https://docs.google.com/spreadsheets/d/e/2PACX-1vS1n98G7oYedWBj1JEEu8i6FqAK8ksrZSTgIg_aOOiOKk-00FlWBeyL21vQ-fzy4w/pub?output=csv"
gore=read.csv(link, stringsAsFactors = F)
names(gore)
## [1] "stateid" "CLU4_1" "state" "abortion" "abortlaw" "attend"
## [7] "battle04" "blkpct" "bush00" "bush04" "carfatal" "christad"
## [13] "college" "conpct_m" "cons_hr" "defexpen" "demnat" "dempct_m"
## [19] "demstate" "density" "division" "gb_win00" "gb_win04" "gore00"
## [25] "hispanic" "hscat4" "hsdip" "indpct_m" "kerry04" "libpct_m"
## [31] "modpct_m" "nader00" "nobelts" "over64" "permit" "prcapinc"
## [37] "region" "reppct_m" "seatbelt" "trnout00" "trnout04" "to_0004"
## [43] "under20" "unemploy" "union" "urban" "womleg"
gore=gore[,c(15, 27,24, 34, 36 )]
names(gore)
## [1] "cons_hr" "hsdip" "gore00" "over64" "prcapinc"
str(gore)
## 'data.frame': 50 obs. of 5 variables:
## $ cons_hr : num 73 79 67 48 41 67.8 37.6 40 67.9 63.7 ...
## $ hsdip : int 67 87 79 66 76 84 79 78 74 71 ...
## $ gore00 : num 41.6 27.7 44.7 45.9 53.5 ...
## $ over64 : num 13 4 14 15 10 10 15 13 19 10 ...
## $ prcapinc: int 18038 24081 19180 16911 22905 22662 28944 22952 22028 20420 ...
shapiro.test(gore$gore00)
##
## Shapiro-Wilk normality test
##
## data: gore$gore00
## W = 0.96801, p-value = 0.1918
es normal pues es mayor a 0.05 ### verificar si hay asimetriaa y atipicos
library(DescTools)
Skew(gore$gore00)
## [1] -0.360923
la cola va hacia la izquierda (asimetria negativa). la medida de resuemn es la mediana cuando hay asimetria. podemos velor en el grafico : histograma
library(ggplot2)
base=ggplot(data=gore, aes(x=gore00))
base+geom_histogram(bins = 20)
Con el diagrama de cajas, identificamos si hay atípicos
base=ggplot(data=gore, aes(y=gore00))
base+geom_boxplot()+coord_flip()
(es parametrico/normal) # c) Sobre las variables que tienen efecto, ¿Qué tipo de relación es? (sentido) y ¿Cuán fuerte es el efecto? (intensidad) ## analisis bivariado
library(dlookr)
## Loading required package: mice
## Loading required package: lattice
##
## Attaching package: 'mice'
## The following objects are masked from 'package:base':
##
## cbind, rbind
## Registered S3 method overwritten by 'xts':
## method from
## as.zoo.xts zoo
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
## Registered S3 method overwritten by 'gdata':
## method from
## reorder.factor DescTools
## Registered S3 methods overwritten by 'car':
## method from
## influence.merMod lme4
## cooks.distance.influence.merMod lme4
## dfbeta.influence.merMod lme4
## dfbetas.influence.merMod lme4
## Warning in fun(libname, pkgname): couldn't connect to display ":0"
##
## Attaching package: 'dlookr'
## The following object is masked from 'package:base':
##
## transform
normality(gore)
## Warning: `cols` is now required.
## Please use `cols = c(statistic)`
## # A tibble: 5 x 4
## vars statistic p_value sample
## <chr> <dbl> <dbl> <dbl>
## 1 cons_hr 0.956 0.0604 50
## 2 hsdip 0.952 0.0421 50
## 3 gore00 0.968 0.192 50
## 4 over64 0.916 0.00172 50
## 5 prcapinc 0.948 0.0285 50
todas=lm(gore00~., data = gore)
summary(todas)
##
## Call:
## lm(formula = gore00 ~ ., data = gore)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.386 -2.079 -0.060 3.198 8.969
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 62.5124824 10.5434471 5.929 3.98e-07 ***
## cons_hr -0.2247071 0.0385904 -5.823 5.72e-07 ***
## hsdip -0.5385703 0.1203003 -4.477 5.13e-05 ***
## over64 0.6469687 0.2677942 2.416 0.0198 *
## prcapinc 0.0013460 0.0002348 5.732 7.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.178 on 45 degrees of freedom
## Multiple R-squared: 0.7844, Adjusted R-squared: 0.7652
## F-statistic: 40.92 on 4 and 45 DF, p-value: 1.902e-14
library(ggplot2)
base=ggplot(data=gore, aes(x=cons_hr))
base+geom_histogram(bins=20)
shapiro.test(gore$cons_hr)
##
## Shapiro-Wilk normality test
##
## data: gore$cons_hr
## W = 0.95598, p-value = 0.06036
es normal, por lo }tanto utilizaremos pearson VALOR NUMERICO:
frollo=formula(~gore00 + cons_hr)
cor.test(frollo,data=gore,method = "pearson",exact=F)
##
## Pearson's product-moment correlation
##
## data: gore00 and cons_hr
## t = -7.9154, df = 48, p-value = 2.956e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.8523058 -0.5997400
## sample estimates:
## cor
## -0.7524727
library(ggpubr)
## Loading required package: magrittr
s1=ggscatter(gore,
x = "cons_hr", y = "gore00",
cor.coef = TRUE,
cor.method = "pearson")
s1
la relacion es negativa (muy fuerte): (-0.75). la hipotesdis decia que el nivel de conservadurismo estaba en contra de la votacion de al gore, este al ser un democrata. como vimos ene l grafico esta en lo cierno, con una relacion muy fuerte yb cion un grado de significancia muy amplia.
library(ggplot2)
base=ggplot(data=gore, aes(x=hsdip))
base+geom_histogram(bins=20)
shapiro.test(gore$hsdip)
##
## Shapiro-Wilk normality test
##
## data: gore$hsdip
## W = 0.95221, p-value = 0.04209
es no parametrico, por loq ue utilizaremos spearman aqui: VALOR NUMERICO:
num1=formula(~gore00 + hsdip)
cor.test(num1,data=gore,method = "pearson",exact=F)
##
## Pearson's product-moment correlation
##
## data: gore00 and hsdip
## t = -0.90726, df = 48, p-value = 0.3688
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3939527 0.1540731
## sample estimates:
## cor
## -0.129843
library(dlookr)
s2=ggscatter(gore,
x = "hsdip", y = "gore00",
cor.coef = TRUE,
cor.method = "spearman")
s2
no se encontro ninguna relacion significante (auqnue haya salido negativo “-0.048” su p value es “0.74”, superior a lo encontrado en el analsis de regresion)
(aqui no hay relacion, alemenos en la bivariada)
library(ggplot2)
base=ggplot(data=gore, aes(x= over64))
base+geom_histogram(bins=20)
el grafico nos dice que tiene una ascencion negativa
shapiro.test(gore$over64)
##
## Shapiro-Wilk normality test
##
## data: gore$over64
## W = 0.91614, p-value = 0.001715
no es parametria (es anormal) usaremos el spearsman VALOR NUMERICO:
num2=formula(~gore00 + hsdip)
cor.test(num2,data=gore,method = "pearson",exact=F)
##
## Pearson's product-moment correlation
##
## data: gore00 and hsdip
## t = -0.90726, df = 48, p-value = 0.3688
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3939527 0.1540731
## sample estimates:
## cor
## -0.129843
library(dlookr)
s3=ggscatter(gore,
x = "over64", y = "gore00",
cor.coef = TRUE,
cor.method = "spearman")
s3
la relacion es muy debil “0.33” positivo, el p value si es menor a 0.05 por ende si puede reconocer una significancia. pero la relacion es muy debil. ### con el nivel de ingresos: veamos el comoprmaniento de la variable (la normalidad)
library(ggplot2)
base=ggplot(data=gore, aes(x= prcapinc))
base+geom_histogram(bins=20)
con lo que se puede apreciar en el histograma es que hay una cieta cola a la izquierda (ppositivia), veamos el shapiro wilk +
shapiro.test(gore$prcapinc)
##
## Shapiro-Wilk normality test
##
## data: gore$prcapinc
## W = 0.9481, p-value = 0.02853
la dispocicion de los datos en esta variable son anormales. (0.02853) por lo tanto para analizar la relacion bivariada es necesario sperasman VALOR NUMERICO:
num3=formula(~gore00 + prcapinc)
cor.test(num3,data=gore,method = "pearson",exact=F)
##
## Pearson's product-moment correlation
##
## data: gore00 and prcapinc
## t = 5.1013, df = 48, p-value = 5.705e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3767479 0.7478437
## sample estimates:
## cor
## 0.5929181
library(dlookr)
s4=ggscatter(gore,
x = "prcapinc", y = "gore00",
cor.coef = TRUE,
cor.method = "spearman")
s4
si hay relacion directa media fuerte “.62”. la significatividad es muy elevada. esto quiere decir que los estadis con mayores indices de ingreso votan directamente por al gore
# paso 1:
all_ps=ggarrange(s1,s2,s3,s4,
ncol = 2, nrow = 2)
# paso 2
annotate_figure(all_ps,
top = text_grob("Correlacion con gore00",
color = "blue",
face = "bold",
size = 14))
la unica de las relaciones fuertes que se hallo es el “nivel de conservadurismo” (cons_hr) y la otra relacion debil que se hallo fue la de mayores por localidad (siendo aun asi, muy debil)…. eb}n todas las demas no se hallaron ningun tipo de relacion.
veamos denuevo la regresion, pero ahora solo con las dos significativas :
todas=lm(gore00~cons_hr+ over64 + prcapinc, data = gore)
summary(todas)
##
## Call:
## lm(formula = gore00 ~ cons_hr + over64 + prcapinc, data = gore)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.0519 -3.1872 0.7664 3.5291 8.5558
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 28.9501499 8.8155881 3.284 0.001961 **
## cons_hr -0.2403317 0.0457000 -5.259 3.67e-06 ***
## over64 0.8750167 0.3126210 2.799 0.007467 **
## prcapinc 0.0008939 0.0002521 3.546 0.000912 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.968 on 46 degrees of freedom
## Multiple R-squared: 0.6883, Adjusted R-squared: 0.668
## F-statistic: 33.86 on 3 and 46 DF, p-value: 1.043e-11
la hipotesis uno se comnprueba, ya que si hay una relacion negativa con una alta significancia. y una relacion positiva con lo relacionado a la edad.