Solución parcial final estadística exploratoria

En primer lugar se cargan las librerías necesarias:

library(sqldf)
library(sampling)

1) Pegue de manera adecuada la base de gastos con InfoHog , realice lo siguiente.

A. Presente el cálculo del gasto promedio para cada uno de los seis estratos.

setwd("/Users/josezea/Documents/Laboral 2014/Docencia USTA/Estadística exploratoria/Parcial final/parcialfinal")
load("Gastos.Rdata")
load("InfoHog.Rdata")
punto1 = merge(Gastos, InfoHog)
p1a = sqldf("select estrato, avg(GASTOTOTAL) as 'prom_gasto' from  punto1 group by estrato ")
p1a
##   estrato prom_gasto
## 1       1    1208492
## 2       2    1549901
## 3       3    2465844
## 4       4    4603962
## 5       5    5872452
## 6       6    7685203
## 7       9    2240195

B. Presente el cálculo del gasto promedio para cada una de las 20 localidades.

p1b = sqldf("select Nom_Localidad, avg(GASTOTOTAL) as 'prom_gasto' from  punto1  group by  Nom_Localidad")
p1b
##     Nom_Localidad prom_gasto
## 1  Antonio Nariño    2377879
## 2  Barrios Unidos    3094081
## 3            Bosa    1505634
## 4      Candelaria    2267592
## 5       Chapinero    5187673
## 6  Ciudad Bolivar    1313948
## 7        Engativa    2535260
## 8        Fontibón    3396503
## 9         Kennedy    2189088
## 10       Martires    2327815
## 11  Puente Aranda    2433740
## 12   Rafael Uribe    1614346
## 13  San Cristobal    1499185
## 14       Santa Fe    2169820
## 15           Suba    3130731
## 16    Teusaquillo    4373360
## 17     Tunjuelito    1829450
## 18        Usaquen    4664871
## 19           Usme    1266397

2) Los restaurantes de la ciudad de Nueva York fueron evaluados por expertos según la calidad de la comida, la decoración, la calidad del servicio y el precio (datos.Rdata).

A. Estandarice entre cero y 100 (use la transformación mínimo-máximo) la calidad de la comida, la decoración y la calidad del servicio.

Se procede a estandarizar las variables entre cero y 100, utilizando el escalimiento con el respecto al mínimo y al máximo.

load("datos.Rdata")
# Punto 2a
datos$Food_St = (datos$Food - min(datos$Food))/(max(datos$Food) - min(datos$Food))
datos$Decor_St = (datos$Decor - min(datos$Decor))/(max(datos$Decor) - min(datos$Decor))
datos$Service_St = (datos$Service - min(datos$Service))/(max(datos$Service) - 
    min(datos$Service))
summary(datos$Food_St)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.308   0.462   0.480   0.615   1.000
summary(datos$Decor_St)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.250   0.438   0.448   0.625   1.000
summary(datos$Service_St)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.267   0.400   0.447   0.550   1.000

B. Calcule una nueva variable llamada CALIDAD_RESTAUREANTE que sea el promedio de esos tres valores escalados entre cero y 100. Calcule el promedio de esa variable, la mediana y la desviación estándar. ¿Qué tal son los restaurantes en Nueva York, me los recomendaría?

La calidad del restaurante se calcula promediando los tres índices estandarizados:

datos$Calidad_Serv = (datos$Food_St + datos$Decor_St + Service_St)/3
## Error: object 'Service_St' not found
summary(datos$Calidad_Serv)
## Length  Class   Mode 
##      0   NULL   NULL

3) Regresión y correlación

A. Calcule la correlación del precio con las puntuaciones de calidad, decoración y calidad de la comida. ¿Con quien está más correlacionado el precio del restaurante?. Use también datos Rdata.

La correlación entre el precio y las demás varaibles se presentan a continuación, la mayor correlacións se presenta con el índice de calidad en el servicio.

round(cor(datos[c("Price", "Calidad_Serv", "Decor", "Food", "Service")]), 2)
## Error: undefined columns selected

B. Elabore un modelo de regresión líneal simple en donde explique el precio del restaurante con respecto a la variable que usted encontró en el punto anterior que está más correlacionada con el precio. Presente la estimación de los parámetros.

lm(Price ~ Calidad_Serv, data = datos)
## Error: object 'Calidad_Serv' not found
summary(lm(Price ~ Calidad_Serv, data = datos))
## Error: error in evaluating the argument 'object' in selecting a method for function 'summary': Error in eval(expr, envir, enclos) : object 'Calidad_Serv' not found
## Calls: lm ... eval -> <Anonymous> -> model.frame.default -> eval -> eval

C. Calcule la suma de cuadrados del modelo, la suma de cuadrados de los residuales y la suma de cuadrado total.

anova(lm(Price ~ Calidad_Serv, data = datos))
## Error: object 'Calidad_Serv' not found

La suma de cuadrados es del modelo es de 44966, la suma de cuadrados de la regresión es de 34856 y la suma de cuadrados total es de 79822.

D. Presente el coeficiente de determinación.

R/ El coeficiente de determinación es de 0.5605

4) La base de datos belgianmunicipalities contiene la información del pago de impuestos y otras cuestiones para cada uno de los municipios de Bélgica.

A. Para cada provincia belga calcule el promedio y la mediana de la recolección total de impuestos por municipio.(1pt) Pago de impuestos: Totaltaxation, Municipio: Arrondiss, Province: Provincia.

data(belgianmunicipalities)
aggregate(belgianmunicipalities$Totaltaxation, list(belgianmunicipalities$Province), 
    FUN = mean)
##   Group.1        x
## 1       1 81845269
## 2       2 77637833
## 3       3 53163090
## 4       4 72678044
## 5       5 45901248
## 6       6 33367892
## 7       7 52906990
## 8       8 11070725
## 9       9 33313100
aggregate(belgianmunicipalities$Totaltaxation, list(belgianmunicipalities$Province), 
    FUN = median)
##   Group.1        x
## 1       1 51343945
## 2       2 53810704
## 3       3 32566692
## 4       4 50110086
## 5       5 30871202
## 6       6 18527540
## 7       7 39278565
## 8       8  8534082
## 9       9 21762105

B. Calcule el número de municipios que tiene cada uno de las provincias.

cons1 = aggregate(belgianmunicipalities$Totaltaxation, list(belgianmunicipalities$Province, 
    belgianmunicipalities$Arrondiss), FUN = length)
cons2 = aggregate(cons1$Group.2, list(cons1$Group.1), FUN = length)
cons2
##   Group.1 x
## 1       1 3
## 2       2 4
## 3       3 8
## 4       4 6
## 5       5 7
## 6       6 4
## 7       7 3
## 8       8 5
## 9       9 3

5) La base de datos gastos totales, contiene lo que gastan de los hogares bogotanos por diferentes rubros (1pt).

A. Calcule la mediana, la trimedia y el promedio para el gasto total.

prom = mean(Gastos$GASTOTOTAL)
mediana = median(Gastos$GASTOTOTAL)
Promcuantiles = (quantile(Gastos$GASTOTOTAL, 0.25) + quantile(Gastos$GASTOTOTAL, 
    0.75))/2
trimedia = (Promcuantiles + mediana)/2
prom
## [1] 2496117
mediana
## [1] 1806842
trimedia
##     25% 
## 1947549

B. Interprete los resultados obtenidos en el numeral anterior.

C. Calcule la mediana de las desviaciones absolutasy el rango intercuartílico.

mad(Gastos$GASTOTOTAL)
## [1] 1221952
IQR(Gastos$GASTOTOTAL) * 0.7412898
## [1] 1428401