examen

library(htmltab)
A = htmltab(doc ="https://es.wikipedia.org/wiki/%C3%8Dndice_global_de_felicidad", 
               which ='//*[@id="mw-content-text"]/div/table')
str(A)
## 'data.frame':    156 obs. of  9 variables:
##  $ №                                     : chr  "1" "2" "3" "4" ...
##  $ País                                  : chr  "Finlandia" "Noruega" "Dinamarca" "Islandia" ...
##  $ Puntuación                            : chr  "7.633" "7.560" "7.555" "7.495" ...
##  $ PIB per cápita                        : chr  "1.305" "1.372" "1.351" "1.343" ...
##  $ Apoyo social                          : chr  "1.592" "1.595" "1.590" "1.644" ...
##  $ Esperanza de años de vida saludable   : chr  "0.874" "0.870" "0.868" "0.914" ...
##  $ Libertad para tomar decisiones vitales: chr  "0.681" "0.685" "0.683" "0.677" ...
##  $ Generosidad                           : chr  "0.192" "0.285" "0.284" "0.353" ...
##  $ Percepción de la corrupción           : chr  "0.393" "0.410" "0.408" "0.138" ...
names(A)
## [1] "№"                                     
## [2] "País"                                  
## [3] "Puntuación"                            
## [4] "PIB per cápita"                        
## [5] "Apoyo social"                          
## [6] "Esperanza de años de vida saludable"   
## [7] "Libertad para tomar decisiones vitales"
## [8] "Generosidad"                           
## [9] "Percepción de la corrupción"
library(stringr)
names(A)=str_split(names(A)," ",simplify = T)[,1]
str(A)
## 'data.frame':    156 obs. of  9 variables:
##  $ №          : chr  "1" "2" "3" "4" ...
##  $ País       : chr  "Finlandia" "Noruega" "Dinamarca" "Islandia" ...
##  $ Puntuación : chr  "7.633" "7.560" "7.555" "7.495" ...
##  $ PIB        : chr  "1.305" "1.372" "1.351" "1.343" ...
##  $ Apoyo      : chr  "1.592" "1.595" "1.590" "1.644" ...
##  $ Esperanza  : chr  "0.874" "0.870" "0.868" "0.914" ...
##  $ Libertad   : chr  "0.681" "0.685" "0.683" "0.677" ...
##  $ Generosidad: chr  "0.192" "0.285" "0.284" "0.353" ...
##  $ Percepción : chr  "0.393" "0.410" "0.408" "0.138" ...

formatea

A[,c(3:9)]=lapply(A[,c(3:9)], as.numeric)
str(A)
## 'data.frame':    156 obs. of  9 variables:
##  $ №          : chr  "1" "2" "3" "4" ...
##  $ País       : chr  "Finlandia" "Noruega" "Dinamarca" "Islandia" ...
##  $ Puntuación : num  7.63 7.56 7.55 7.5 7.49 ...
##  $ PIB        : num  1.3 1.37 1.35 1.34 1.42 ...
##  $ Apoyo      : num  1.59 1.59 1.59 1.64 1.55 ...
##  $ Esperanza  : num  0.874 0.87 0.868 0.914 0.927 0.878 0.896 0.876 0.913 0.91 ...
##  $ Libertad   : num  0.681 0.685 0.683 0.677 0.66 0.638 0.653 0.669 0.659 0.647 ...
##  $ Generosidad: num  0.192 0.285 0.284 0.353 0.256 0.333 0.321 0.365 0.285 0.361 ...
##  $ Percepción : num  0.393 0.41 0.408 0.138 0.357 0.295 0.291 0.389 0.383 0.302 ...

Si tomamos de nuestras variable de interés a esperanza de años de vida saludable como la dependiente, y a las demás como las independientes, puede concluir que:

paviModeloOrd=lm(Esperanza~PIB+Apoyo+Percepción+Libertad+Generosidad,data=A)
summary(paviModeloOrd)
## 
## Call:
## lm(formula = Esperanza ~ PIB + Apoyo + Percepción + Libertad + 
##     Generosidad, data = A)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.44391 -0.06484  0.01431  0.07939  0.24825 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.003605   0.047854  -0.075  0.94004    
## PIB          0.445871   0.036908  12.081  < 2e-16 ***
## Apoyo        0.139466   0.048666   2.866  0.00476 ** 
## Percepción   0.122647   0.128416   0.955  0.34108    
## Libertad     0.046434   0.078767   0.590  0.55641    
## Generosidad -0.002610   0.116482  -0.022  0.98216    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1295 on 150 degrees of freedom
## Multiple R-squared:  0.7373, Adjusted R-squared:  0.7285 
## F-statistic: 84.18 on 5 and 150 DF,  p-value: < 2.2e-16

Sólo dos variables tienen efecto .siiiii Una variable tiene efecto inverso.no dos variables tiene efecto inverso.no hay efecto Todas tienen efecto pero no significativo.

  1. Si tomamos de nuestras variable de interés a percepcion de la corrupción como la dependiente, y a las demás como las independientes, puede concluir que:

3.Si tomamos de nuestras variable de interés a percepcion de la corrupción como la dependiente, y a las demás como las independientes, puede concluir que

names(A)
## [1] "№"           "País"        "Puntuación"  "PIB"         "Apoyo"      
## [6] "Esperanza"   "Libertad"    "Generosidad" "Percepción"
paviModeloOrd=lm(Percepción~PIB+Apoyo+Esperanza+Libertad+Generosidad,data=A)
summary(paviModeloOrd)
## 
## Call:
## lm(formula = Percepción ~ PIB + Apoyo + Esperanza + Libertad + 
##     Generosidad, data = A)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.18413 -0.05413 -0.01276  0.04097  0.31134 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.04356    0.03013  -1.446 0.150266    
## PIB          0.04141    0.03269   1.267 0.207190    
## Apoyo       -0.03841    0.03153  -1.218 0.225052    
## Esperanza    0.04928    0.05160   0.955 0.341075    
## Libertad     0.19913    0.04727   4.213 4.34e-05 ***
## Generosidad  0.25261    0.07090   3.563 0.000492 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08212 on 150 degrees of freedom
## Multiple R-squared:  0.3098, Adjusted R-squared:  0.2868 
## F-statistic: 13.47 on 5 and 150 DF,  p-value: 7.529e-11

Si aumenta la generosidad en un punto, la percepcion sube en promedio 0.25 si Si aumenta el apoyo social en un punto, la percepcion baja en promedio 0.04 no esperanza de vida tiene mas efecto que apoyo social y PIB.

3.La correlación entre PIB y GENEROSIDAD es: p1.analizar:bipercapita“, y =”Generosidad" n-n

library(dlookr)
## Loading required package: mice
## Loading required package: lattice
## 
## Attaching package: 'mice'
## The following objects are masked from 'package:base':
## 
##     cbind, rbind
## Registered S3 method overwritten by 'xts':
##   method     from
##   as.zoo.xts zoo
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
## Registered S3 methods overwritten by 'car':
##   method                          from
##   influence.merMod                lme4
##   cooks.distance.influence.merMod lme4
##   dfbeta.influence.merMod         lme4
##   dfbetas.influence.merMod        lme4
## Warning in fun(libname, pkgname): couldn't connect to display ":0"
## 
## Attaching package: 'dlookr'
## The following object is masked from 'package:base':
## 
##     transform
normality(A)
## Warning: `cols` is now required.
## Please use `cols = c(statistic)`
## # A tibble: 7 x 4
##   vars        statistic  p_value sample
##   <chr>           <dbl>    <dbl>  <dbl>
## 1 Puntuación      0.985 7.97e- 2    156
## 2 PIB             0.977 1.18e- 2    156
## 3 Apoyo           0.917 8.71e- 8    156
## 4 Esperanza       0.954 5.15e- 5    156
## 5 Libertad        0.946 1.13e- 5    156
## 6 Generosidad     0.960 1.79e- 4    156
## 7 Percepción      0.814 8.49e-13    156

NO NORMALIDAD USAMOS SPEARMAN:

library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
s4=ggscatter(A, 
          x = "PIB", y = "Generosidad",
          cor.coef = TRUE, 
          cor.method = "spearman")
s4

MAYOR A 0.05.SE ACEPTA LA HO HO NO HAY CORRELACION ENTRE VARIABLES.Por tanto no es signficativa R es directa ,es positiva,y debil porque se acerca a O

baja, significativa, calculada mediante tecnica parametrica alta, significativa, calculada mediante tecnica no parametrica baja, no significativa, calculada mediante tecnica no parametrica (esto) baja, no significativa, calculada mediante tecnica parametrica Alta

practica 2:

A=read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vTiJ_lyQF-yfGWaMhKEy1_5p3q-mu5tNZjt6brQiHxPmjJ9z4G94ejn8h5SioFdZGvFNRpxKUuU52Uavhao2NQ/pub?output=csv",stringsAsFactors = F)
str(A)
## 'data.frame':    195 obs. of  13 variables:
##  $ regionUbigeo   : int  10000 10000 10000 10000 10000 10000 10000 20000 20000 20000 ...
##  $ provinciaUbigeo: int  10100 10200 10300 10400 10500 10600 10700 20100 20200 20300 ...
##  $ PROVINCIA      : chr  "CHACHAPOYAS" "BAGUA" "BONGARA" "CONDORCANQUI" ...
##  $ IDE            : num  0.774 0.662 0.632 0.46 0.605 ...
##  $ identidad      : num  98.6 94.6 97.5 86.2 96.2 ...
##  $ salud          : num  25.45 14.61 9.01 8.56 12.42 ...
##  $ educacion      : num  91.5 79.8 76.4 52.2 74.7 ...
##  $ saneamiento    : num  70.3 64.5 54.8 37.7 43.3 ...
##  $ electrificacion: num  84 67.9 72.2 39.5 67.4 ...
##  $ poblacion      : int  54783 77438 32317 51802 52185 30236 118747 161003 7974 16879 ...
##  $ costa          : chr  "NO" "NO" "NO" "NO" ...
##  $ capital        : chr  "SI" "NO" "NO" "NO" ...
##  $ tamano         : chr  "Pequena" "Pequena" "Muy pequena" "Pequena" ...

formateo

A[,c(11,12)]=lapply(A[,c(11,12)],as.factor)

A$tamano=as.ordered(A$tamano)

no olvidar que NO, SI se puede clasificar .Por tanto, es variable .En este caso variable DICOTOMICA.Convertimos en as.factor

W=c("Muy pequena","Pequena", "Mediana","Grande")
   A$tamano = factor(A$tamano, levels=W,ordered = TRUE)
str(A)
## 'data.frame':    195 obs. of  13 variables:
##  $ regionUbigeo   : int  10000 10000 10000 10000 10000 10000 10000 20000 20000 20000 ...
##  $ provinciaUbigeo: int  10100 10200 10300 10400 10500 10600 10700 20100 20200 20300 ...
##  $ PROVINCIA      : chr  "CHACHAPOYAS" "BAGUA" "BONGARA" "CONDORCANQUI" ...
##  $ IDE            : num  0.774 0.662 0.632 0.46 0.605 ...
##  $ identidad      : num  98.6 94.6 97.5 86.2 96.2 ...
##  $ salud          : num  25.45 14.61 9.01 8.56 12.42 ...
##  $ educacion      : num  91.5 79.8 76.4 52.2 74.7 ...
##  $ saneamiento    : num  70.3 64.5 54.8 37.7 43.3 ...
##  $ electrificacion: num  84 67.9 72.2 39.5 67.4 ...
##  $ poblacion      : int  54783 77438 32317 51802 52185 30236 118747 161003 7974 16879 ...
##  $ costa          : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 1 1 1 ...
##  $ capital        : Factor w/ 2 levels "NO","SI": 2 1 1 1 1 1 1 2 1 1 ...
##  $ tamano         : Ord.factor w/ 4 levels "Muy pequena"<..: 2 2 1 2 2 1 3 3 1 1 ...

Sin hacer regresión, que podriamos concluir de la relación entre saneamiento y costa (ser provincia en la costa) ? 2 puntos Que para calcularla se necesita la prueba U de Mann Whitney Que para calcularla se necesita la prueba t Que el saneamiento no es tan diferente, en promedio, si una provincia está o no en la costa. Que el saneamiento es mejor si la provincia no está en la costa

Sanemiento y costa N-Co P.Nomralidad Shpiro wilk

Sanemiento y costa N-Co P.Nomralidad Shpiro wilk

f1=formula(saneamiento ~ costa)
aggregate(f1, A,mean) 
##   costa saneamiento
## 1    NO    50.97556
## 2    SI    83.20243

OJO:ES IMPORTANTE HACER ESTO YA QUE DE AQUI SACAMOS EL F1 que esta dentro de Shapiro wilk.

normalidadTest=function(x) {y =shapiro.test(x); 
                            c(y$statistic, y$p.value)}

resultado= aggregate(f1, A,
                     FUN = normalidadTest) 



library(knitr)

shapiroTest=as.data.frame(resultado[,2])
names(shapiroTest)=c("SW_Statistic","Probabilidad")
kable(cbind(resultado[1],shapiroTest))
costa SW_Statistic Probabilidad
NO 0.9949525 0.8529651
SI 0.9580179 0.2422331

SON MAYORES A 0.05.HAY NORMALIDAD.USAMOS PRUEBAS DE TEST PARAMETRICAS PARFA DICOTOMIC.

t.test(f1,A)
## 
##  Welch Two Sample t-test
## 
## data:  saneamiento by costa
## t = -14.131, df = 73.273, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -36.77164 -27.68210
## sample estimates:
## mean in group NO mean in group SI 
##         50.97556         83.20243

Si tomamos de nuestras variable de interés a salud como la dependiente, y a las demás como las independientes, puede concluir que

Saneamiento y Capital tienen el mismo nivel de efecto Todas los efectos de la variable “tamaño” son negativos A mas identidad, menos salud Las provincias que son capital de region tendrian mejor nivel de salud

names(A)
##  [1] "regionUbigeo"    "provinciaUbigeo" "PROVINCIA"      
##  [4] "IDE"             "identidad"       "salud"          
##  [7] "educacion"       "saneamiento"     "electrificacion"
## [10] "poblacion"       "costa"           "capital"        
## [13] "tamano"
paviModeloOrd=lm(salud~ identidad+educacion+saneamiento+electrificacion+poblacion+costa+capital+tamano,data=A)
summary(paviModeloOrd)
## 
## Call:
## lm(formula = salud ~ identidad + educacion + saneamiento + electrificacion + 
##     poblacion + costa + capital + tamano, data = A)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.3402  -3.2217  -0.2625   2.6839  19.4999 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      2.596e+00  1.654e+01   0.157   0.8755    
## identidad       -2.388e-02  1.886e-01  -0.127   0.8994    
## educacion        1.140e-02  4.858e-02   0.235   0.8147    
## saneamiento      1.351e-01  2.594e-02   5.209 5.07e-07 ***
## electrificacion  2.556e-02  3.751e-02   0.681   0.4965    
## poblacion        1.399e-06  4.946e-06   0.283   0.7776    
## costaSI          2.171e+00  1.218e+00   1.783   0.0763 .  
## capitalSI        7.036e+00  1.546e+00   4.551 9.73e-06 ***
## tamano.L         1.093e-02  2.141e+00   0.005   0.9959    
## tamano.Q         2.836e+00  1.246e+00   2.276   0.0240 *  
## tamano.C         6.952e-01  7.770e-01   0.895   0.3721    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.86 on 183 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.5535, Adjusted R-squared:  0.5291 
## F-statistic: 22.68 on 10 and 183 DF,  p-value: < 2.2e-16

Saneamiento y Capital tienen el mismo nivel de efecto.NO PORQUE PESE A QUE SEA SIGNIFICATIVO AL 0.001 TIENEN DIFERENTES ESTIMATES ES DECIR LA SALUD AUMENTARA DE MANERA DISTITNAS EN LAS ODS VARIABLES. Todas los efectos de la variable “tamaño” son negativos.noo A mas identidad, menos salud.noooooooo Las provincias que son capital de region tendrian mejor nivel de salud.siiiiii

.otra pregunta: Si tomamos de nuestras variable de interés a identidad como la dependiente, y a las demás como las independientes, puede concluir que:

paviModeloOrd=lm(identidad~ salud+educacion+saneamiento+electrificacion+poblacion+costa+capital+tamano,data=A)
summary(paviModeloOrd)
## 
## Call:
## lm(formula = identidad ~ salud + educacion + saneamiento + electrificacion + 
##     poblacion + costa + capital + tamano, data = A)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.1774  -0.9021   0.2405   1.1481   4.0155 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      8.629e+01  1.165e+00  74.085  < 2e-16 ***
## salud           -3.668e-03  2.897e-02  -0.127  0.89938    
## educacion        1.190e-01  1.689e-02   7.045 3.64e-11 ***
## saneamiento      2.971e-02  1.067e-02   2.785  0.00592 ** 
## electrificacion -8.407e-03  1.470e-02  -0.572  0.56819    
## poblacion        9.183e-07  1.937e-06   0.474  0.63607    
## costaSI          1.979e-01  4.812e-01   0.411  0.68139    
## capitalSI        2.562e-01  6.391e-01   0.401  0.68898    
## tamano.L        -1.152e+00  8.347e-01  -1.380  0.16918    
## tamano.Q        -2.210e-01  4.948e-01  -0.447  0.65567    
## tamano.C        -4.943e-01  3.030e-01  -1.632  0.10450    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.905 on 183 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.4323, Adjusted R-squared:  0.4012 
## F-statistic: 13.93 on 10 and 183 DF,  p-value: < 2.2e-16

4 puntos Tres variable tienen efecto negativo .noooo Educacion tiene mas efecto que saneamiento.Rpta:Saneamiento es signficativa al o.o1 y educacion es significativa al 0.001.Sanemaiento tiene mas efecto que educacion Ninguna variable con efecto inverso tiene efecto significativo. VERDADERO