En primer lugar se cargan las librerías necesarias:
library(sqldf)
library(sampling)
1) Pegue de manera adecuada la base de gastos con InfoHog , realice lo siguiente.
A. Presente el cálculo del gasto promedio para cada uno de los seis estratos.
setwd("/Users/josezea/Documents/Laboral 2014/Docencia USTA/Estadística exploratoria/Parcial final/parcialfinal")
load("Gastos.Rdata")
load("InfoHog.Rdata")
punto1 = merge(Gastos, InfoHog)
p1a = sqldf("select estrato, avg(GASTOTOTAL) as 'prom_gasto' from punto1 group by estrato ")
p1a
## estrato prom_gasto
## 1 1 1208492
## 2 2 1549901
## 3 3 2465844
## 4 4 4603962
## 5 5 5872452
## 6 6 7685203
## 7 9 2240195
B. Presente el cálculo del gasto promedio para cada una de las 20 localidades.
p1b = sqldf("select Nom_Localidad, avg(GASTOTOTAL) as 'prom_gasto' from punto1 group by Nom_Localidad")
p1b
## Nom_Localidad prom_gasto
## 1 Antonio Nariño 2377879
## 2 Barrios Unidos 3094081
## 3 Bosa 1505634
## 4 Candelaria 2267592
## 5 Chapinero 5187673
## 6 Ciudad Bolivar 1313948
## 7 Engativa 2535260
## 8 Fontibón 3396503
## 9 Kennedy 2189088
## 10 Martires 2327815
## 11 Puente Aranda 2433740
## 12 Rafael Uribe 1614346
## 13 San Cristobal 1499185
## 14 Santa Fe 2169820
## 15 Suba 3130731
## 16 Teusaquillo 4373360
## 17 Tunjuelito 1829450
## 18 Usaquen 4664871
## 19 Usme 1266397
2) Los restaurantes de la ciudad de Nueva York fueron evaluados por expertos según la calidad de la comida, la decoración, la calidad del servicio y el precio (datos.Rdata).
A. Estandarice entre cero y 100 (use la transformación mínimo-máximo) la calidad de la comida, la decoración y la calidad del servicio.
Se procede a estandarizar las variables entre cero y 100, utilizando el escalimiento con el respecto al mínimo y al máximo.
load("datos.Rdata")
# Punto 2a
datos$Food_St = (datos$Food - min(datos$Food))/(max(datos$Food) - min(datos$Food))
datos$Decor_St = (datos$Decor - min(datos$Decor))/(max(datos$Decor) - min(datos$Decor))
datos$Service_St = (datos$Service - min(datos$Service))/(max(datos$Service) -
min(datos$Service))
summary(datos$Food_St)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.308 0.462 0.480 0.615 1.000
summary(datos$Decor_St)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.250 0.438 0.448 0.625 1.000
summary(datos$Service_St)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.267 0.400 0.447 0.550 1.000
B. Calcule una nueva variable llamada CALIDAD_RESTAUREANTE que sea el promedio de esos tres valores escalados entre cero y 100. Calcule el promedio de esa variable, la mediana y la desviación estándar. ¿Qué tal son los restaurantes en Nueva York, me los recomendaría?
La calidad del restaurante se calcula promediando los tres índices estandarizados:
datos$Calidad_Serv = (datos$Food_St + datos$Decor_St + Service_St)/3
## Error: object 'Service_St' not found
summary(datos$Calidad_Serv)
## Length Class Mode
## 0 NULL NULL
3) Regresión y correlación
A. Calcule la correlación del precio con las puntuaciones de calidad, decoración y calidad de la comida. ¿Con quien está más correlacionado el precio del restaurante?. Use también datos Rdata.
La correlación entre el precio y las demás varaibles se presentan a continuación, la mayor correlacións se presenta con el índice de calidad en el servicio.
round(cor(datos[c("Price", "Calidad_Serv", "Decor", "Food", "Service")]), 2)
## Error: undefined columns selected
B. Elabore un modelo de regresión líneal simple en donde explique el precio del restaurante con respecto a la variable que usted encontró en el punto anterior que está más correlacionada con el precio. Presente la estimación de los parámetros.
lm(Price ~ Calidad_Serv, data = datos)
## Error: object 'Calidad_Serv' not found
summary(lm(Price ~ Calidad_Serv, data = datos))
## Error: error in evaluating the argument 'object' in selecting a method for function 'summary': Error in eval(expr, envir, enclos) : object 'Calidad_Serv' not found
## Calls: lm ... eval -> <Anonymous> -> model.frame.default -> eval -> eval
C. Calcule la suma de cuadrados del modelo, la suma de cuadrados de los residuales y la suma de cuadrado total.
anova(lm(Price ~ Calidad_Serv, data = datos))
## Error: object 'Calidad_Serv' not found
La suma de cuadrados es del modelo es de 44966, la suma de cuadrados de la regresión es de 34856 y la suma de cuadrados total es de 79822.
D. Presente el coeficiente de determinación.
R/ El coeficiente de determinación es de 0.5605
4) La base de datos belgianmunicipalities contiene la información del pago de impuestos y otras cuestiones para cada uno de los municipios de Bélgica.
A. Para cada provincia belga calcule el promedio y la mediana de la recolección total de impuestos por municipio.(1pt) Pago de impuestos: Totaltaxation, Municipio: Arrondiss, Province: Provincia.
data(belgianmunicipalities)
aggregate(belgianmunicipalities$Totaltaxation, list(belgianmunicipalities$Province),
FUN = mean)
## Group.1 x
## 1 1 81845269
## 2 2 77637833
## 3 3 53163090
## 4 4 72678044
## 5 5 45901248
## 6 6 33367892
## 7 7 52906990
## 8 8 11070725
## 9 9 33313100
aggregate(belgianmunicipalities$Totaltaxation, list(belgianmunicipalities$Province),
FUN = median)
## Group.1 x
## 1 1 51343945
## 2 2 53810704
## 3 3 32566692
## 4 4 50110086
## 5 5 30871202
## 6 6 18527540
## 7 7 39278565
## 8 8 8534082
## 9 9 21762105
B. Calcule el número de municipios que tiene cada uno de las provincias.
cons1 = aggregate(belgianmunicipalities$Totaltaxation, list(belgianmunicipalities$Province,
belgianmunicipalities$Arrondiss), FUN = length)
cons2 = aggregate(cons1$Group.2, list(cons1$Group.1), FUN = length)
cons2
## Group.1 x
## 1 1 3
## 2 2 4
## 3 3 8
## 4 4 6
## 5 5 7
## 6 6 4
## 7 7 3
## 8 8 5
## 9 9 3
5) La base de datos gastos totales, contiene lo que gastan de los hogares bogotanos por diferentes rubros (1pt).
A. Calcule la mediana, la trimedia y el promedio para el gasto total.
prom = mean(Gastos$GASTOTOTAL)
mediana = median(Gastos$GASTOTOTAL)
Promcuantiles = (quantile(Gastos$GASTOTOTAL, 0.25) + quantile(Gastos$GASTOTOTAL,
0.75))/2
trimedia = (Promcuantiles + mediana)/2
prom
## [1] 2496117
mediana
## [1] 1806842
trimedia
## 25%
## 1947549
B. Interprete los resultados obtenidos en el numeral anterior.
C. Calcule la mediana de las desviaciones absolutasy el rango intercuartílico.
mad(Gastos$GASTOTOTAL)
## [1] 1221952
IQR(Gastos$GASTOTOTAL) * 0.7412898
## [1] 1428401