Queremos analizar la votación de Al Gore en el año 2000 (gore00) teniendo en cuenta que podría depender de: el porcentaje de adultos mayores en la localidad (over 64), el ingreso per cápita (prcapinc), el porcentaje de graduados de secundaria (hsdip) y el nivel de conservadurismo (cons_hr).

Conteste, en base al modelo propuesto, las siguientes preguntas:

a) ¿El modelo sirve?, ¿Qué tan explicativo es?
el modelo si sirve pues nos muestra la relacion en conjunta d emuchas variables para explicar si hay alguna relacion que deermine el voto hacia al gore.

  b) De las variables utilizadas, ¿cuáles deben ser tomadas en cuenta?
  LA DEPENDIENDTE (GORE00) que es la que sera objeto de investigacion. las demas son las independientes encargadas de la explicacion de la variable: (adultos mayores) ya que representan una poblacion a la que la campaña del democrata  no fue dirigida, por sus mismas tendencias conservadoras (cos-hr). los ingresos per capita muestra a los estados con mas ingresos, los cuales pueden ser benficioso como el apoyo de california pero con la opocicion de texas. los graduados muestran una poblacion que es educada, una poblacion a la que apuntaba la campaña de al gore.

Recordar que previamente se deben realizar: a) Estadísticos univariados para cada variable. b) Estadísticos bivariados entre cada independiente y la dependiente.

link="https://docs.google.com/spreadsheets/d/e/2PACX-1vS1n98G7oYedWBj1JEEu8i6FqAK8ksrZSTgIg_aOOiOKk-00FlWBeyL21vQ-fzy4w/pub?output=csv"
gore=read.csv(link, stringsAsFactors = F)

names(gore)

##  [1] "stateid"  "CLU4_1"   "state"    "abortion" "abortlaw" "attend"  
##  [7] "battle04" "blkpct"   "bush00"   "bush04"   "carfatal" "christad"
## [13] "college"  "conpct_m" "cons_hr"  "defexpen" "demnat"   "dempct_m"
## [19] "demstate" "density"  "division" "gb_win00" "gb_win04" "gore00"  
## [25] "hispanic" "hscat4"   "hsdip"    "indpct_m" "kerry04"  "libpct_m"
## [31] "modpct_m" "nader00"  "nobelts"  "over64"   "permit"   "prcapinc"
## [37] "region"   "reppct_m" "seatbelt" "trnout00" "trnout04" "to_0004" 
## [43] "under20"  "unemploy" "union"    "urban"    "womleg"

gore=gore[,c(15, 27,24,  34, 36 )]

names(gore)

## [1] "cons_hr"  "hsdip"    "gore00"   "over64"   "prcapinc"

str(gore)

## 'data.frame':    50 obs. of  5 variables:
##  $ cons_hr : num  73 79 67 48 41 67.8 37.6 40 67.9 63.7 ...
##  $ hsdip   : int  67 87 79 66 76 84 79 78 74 71 ...
##  $ gore00  : num  41.6 27.7 44.7 45.9 53.5 ...
##  $ over64  : num  13 4 14 15 10 10 15 13 19 10 ...
##  $ prcapinc: int  18038 24081 19180 16911 22905 22662 28944 22952 22028 20420 ...

analisis univariado (la dependiente)

shapiro.test(gore$gore00)

## 
##  Shapiro-Wilk normality test
## 
## data:  gore$gore00
## W = 0.96801, p-value = 0.1918

es normal pues es mayor a 0.05 ### verificar si hay asimetriaa y atipicos

library(DescTools)
Skew(gore$gore00)

## [1] -0.360923

la cola va hacia la izquierda (asimetria negativa). la medida de resuemn es la mediana cuando hay asimetria. podemos velor en el grafico : histograma

library(ggplot2)
base=ggplot(data=gore, aes(x=gore00))
base+geom_histogram(bins = 20)

Con el diagrama de cajas, identificamos si hay atípicos

base=ggplot(data=gore, aes(y=gore00))
base+geom_boxplot()+coord_flip()

(es parametrico/normal) # c) Sobre las variables que tienen efecto, ¿Qué tipo de relación es? (sentido) y ¿Cuán fuerte es el efecto? (intensidad) ## analisis bivariado

library(dlookr)

## Loading required package: mice

## Loading required package: lattice

## 
## Attaching package: 'mice'

## The following objects are masked from 'package:base':
## 
##     cbind, rbind

## Registered S3 method overwritten by 'xts':
##   method     from
##   as.zoo.xts zoo

## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

## Registered S3 method overwritten by 'gdata':
##   method         from     
##   reorder.factor DescTools

## Registered S3 methods overwritten by 'car':
##   method                          from
##   influence.merMod                lme4
##   cooks.distance.influence.merMod lme4
##   dfbeta.influence.merMod         lme4
##   dfbetas.influence.merMod        lme4

## Warning in fun(libname, pkgname): couldn't connect to display ":0"

## 
## Attaching package: 'dlookr'

## The following object is masked from 'package:base':
## 
##     transform

normality(gore)

## Warning: `cols` is now required.
## Please use `cols = c(statistic)`

## # A tibble: 5 x 4
##   vars     statistic p_value sample
##   <chr>        <dbl>   <dbl>  <dbl>
## 1 cons_hr      0.956 0.0604      50
## 2 hsdip        0.952 0.0421      50
## 3 gore00       0.968 0.192       50
## 4 over64       0.916 0.00172     50
## 5 prcapinc     0.948 0.0285      50

todas=lm(gore00~., data = gore)
summary(todas)

## 
## Call:
## lm(formula = gore00 ~ ., data = gore)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.386  -2.079  -0.060   3.198   8.969 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 62.5124824 10.5434471   5.929 3.98e-07 ***
## cons_hr     -0.2247071  0.0385904  -5.823 5.72e-07 ***
## hsdip       -0.5385703  0.1203003  -4.477 5.13e-05 ***
## over64       0.6469687  0.2677942   2.416   0.0198 *  
## prcapinc     0.0013460  0.0002348   5.732 7.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.178 on 45 degrees of freedom
## Multiple R-squared:  0.7844, Adjusted R-squared:  0.7652 
## F-statistic: 40.92 on 4 and 45 DF,  p-value: 1.902e-14

nivel de conservadurismo:

library(ggplot2)

base=ggplot(data=gore, aes(x=cons_hr))
base+geom_histogram(bins=20)

shapiro.test(gore$cons_hr)

## 
##  Shapiro-Wilk normality test
## 
## data:  gore$cons_hr
## W = 0.95598, p-value = 0.06036

es normal, por lo }tanto utilizaremos pearson VALOR NUMERICO:

frollo=formula(~gore00 + cons_hr)

cor.test(frollo,data=gore,method = "pearson",exact=F)

## 
##  Pearson's product-moment correlation
## 
## data:  gore00 and cons_hr
## t = -7.9154, df = 48, p-value = 2.956e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8523058 -0.5997400
## sample estimates:
##        cor 
## -0.7524727

library(ggpubr)

## Loading required package: magrittr

s1=ggscatter(gore, 
          x = "cons_hr", y = "gore00",
          cor.coef = TRUE, 
          cor.method = "pearson")
s1

la relacion es negativa (muy fuerte): (-0.75). la hipotesdis decia que el nivel de conservadurismo estaba en contra de la votacion de al gore, este al ser un democrata. como vimos ene l grafico esta en lo cierno, con una relacion muy fuerte yb cion un grado de significancia muy amplia.

con el grado de los que terminaron la educacion secundaria (hsdip)

library(ggplot2)

base=ggplot(data=gore, aes(x=hsdip))
base+geom_histogram(bins=20)

shapiro.test(gore$hsdip)

## 
##  Shapiro-Wilk normality test
## 
## data:  gore$hsdip
## W = 0.95221, p-value = 0.04209

es no parametrico, por loq ue utilizaremos spearman aqui: VALOR NUMERICO:

num1=formula(~gore00 + hsdip)

cor.test(num1,data=gore,method = "pearson",exact=F)

## 
##  Pearson's product-moment correlation
## 
## data:  gore00 and hsdip
## t = -0.90726, df = 48, p-value = 0.3688
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3939527  0.1540731
## sample estimates:
##       cor 
## -0.129843

library(dlookr)
s2=ggscatter(gore, 
          x = "hsdip", y = "gore00",
          cor.coef = TRUE, 
          cor.method = "spearman")
s2

no se encontro ninguna relacion significante (auqnue haya salido negativo “-0.048” su p value es “0.74”, superior a lo encontrado en el analsis de regresion)

(aqui no hay relacion, alemenos en la bivariada)

con los mayores de la localidad (over 64)

library(ggplot2)

base=ggplot(data=gore, aes(x= over64))
base+geom_histogram(bins=20)

el grafico nos dice que tiene una ascencion negativa

shapiro.test(gore$over64)

## 
##  Shapiro-Wilk normality test
## 
## data:  gore$over64
## W = 0.91614, p-value = 0.001715

no es parametria (es anormal) usaremos el spearsman VALOR NUMERICO:

num2=formula(~gore00 + hsdip)

cor.test(num2,data=gore,method = "pearson",exact=F)

## 
##  Pearson's product-moment correlation
## 
## data:  gore00 and hsdip
## t = -0.90726, df = 48, p-value = 0.3688
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3939527  0.1540731
## sample estimates:
##       cor 
## -0.129843

library(dlookr)
s3=ggscatter(gore, 
          x = "over64", y = "gore00",
          cor.coef = TRUE, 
          cor.method = "spearman")
s3

la relacion es muy debil “0.33” positivo, el p value si es menor a 0.05 por ende si puede reconocer una significancia. pero la relacion es muy debil. ### con el nivel de ingresos: veamos el comoprmaniento de la variable (la normalidad)

library(ggplot2)

base=ggplot(data=gore, aes(x= prcapinc))
base+geom_histogram(bins=20)

con lo que se puede apreciar en el histograma es que hay una cieta cola a la izquierda (ppositivia), veamos el shapiro wilk +

shapiro.test(gore$prcapinc)

## 
##  Shapiro-Wilk normality test
## 
## data:  gore$prcapinc
## W = 0.9481, p-value = 0.02853

la dispocicion de los datos en esta variable son anormales. (0.02853) por lo tanto para analizar la relacion bivariada es necesario sperasman VALOR NUMERICO:

num3=formula(~gore00 + prcapinc)

cor.test(num3,data=gore,method = "pearson",exact=F)

## 
##  Pearson's product-moment correlation
## 
## data:  gore00 and prcapinc
## t = 5.1013, df = 48, p-value = 5.705e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3767479 0.7478437
## sample estimates:
##       cor 
## 0.5929181

library(dlookr)
s4=ggscatter(gore, 
          x = "prcapinc", y = "gore00",
          cor.coef = TRUE, 
          cor.method = "spearman")
s4

si hay relacion directa media fuerte “.62”. la significatividad es muy elevada. esto quiere decir que los estadis con mayores indices de ingreso votan directamente por al gore

# paso 1:
all_ps=ggarrange(s1,s2,s3,s4,
          ncol = 2, nrow = 2) 

# paso 2
annotate_figure(all_ps,
               top = text_grob("Correlacion con gore00", 
                               color = "blue", 
                               face = "bold", 
                               size = 14))

la unica de las relaciones fuertes que se hallo es el “nivel de conservadurismo” (cons_hr) y la otra relacion debil que se hallo fue la de mayores por localidad (siendo aun asi, muy debil)…. eb}n todas las demas no se hallaron ningun tipo de relacion.

veamos denuevo la regresion, pero ahora solo con las dos significativas :

todas=lm(gore00~cons_hr+ over64 + prcapinc, data = gore)
summary(todas)

## 
## Call:
## lm(formula = gore00 ~ cons_hr + over64 + prcapinc, data = gore)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.0519  -3.1872   0.7664   3.5291   8.5558 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 28.9501499  8.8155881   3.284 0.001961 ** 
## cons_hr     -0.2403317  0.0457000  -5.259 3.67e-06 ***
## over64       0.8750167  0.3126210   2.799 0.007467 ** 
## prcapinc     0.0008939  0.0002521   3.546 0.000912 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.968 on 46 degrees of freedom
## Multiple R-squared:  0.6883, Adjusted R-squared:  0.668 
## F-statistic: 33.86 on 3 and 46 DF,  p-value: 1.043e-11

la hipotesis uno se comnprueba, ya que si hay una relacion negativa con una alta significancia. y una relacion positiva con lo relacionado a la edad.