Estafistica 2.
Carlos Galvis - Paula Guzmán.
1. Importe la base de datos a R usando la función read.csv() y haga
una descripción general de la misma.
Identifique, caracterice y presente una breve descripción de cada
una de las
variables “GANANCIA..PERDIDA..2018”, “GANANCIA..PERDIDA..2017”,
“TOTAL.PATRIMONIO.2017”,
“TOTAL.PATRIMONIO.2018”, “MACROSECTOR” y
“DEPARTAMENTO.DOMICILIO”.
library(readr)
X1000_Empresas_mas_grandes_del_pa_s <- read_csv("1000_Empresas_mas_grandes_del_pa_s.csv")
## Rows: 1000 Columns: 20
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (8): RAZON SOCIAL, SUPERVISOR, REGIÓN, DEPARTAMENTO DOMICILIO, CIUDAD D...
## dbl (12): No., NIT, INGRESOS OPERACIONALES
## 2018*, GANANCIA (PERDIDA) 2018, T...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(X1000_Empresas_mas_grandes_del_pa_s)
Ganancias(Perdidas) 2017: Es una variable cuantitativa discreta con
intervalo de razon,en la cual podemos
ver tanto ganancias como peridad de las empresas, durante el año
2017.
Ganancias(Perdidas) 2018: Es una variable cuantitativa discreta con
intervalo de razon,en la cual podemos
ver tanto ganancias como peridad de las empresas, durante el año
2018.
Total patrimonio 2017: Es una variable cuantitativa discreta con
intervalo de razo, en la cual podemos ver
el patrimonio de las empresas, durante el año 2017.
Total patrimonio 2018: Es una variable cuantitativa discreta con
intervalo de razo, en la cual podemos ver
el patrimonio delas empresas, durante el año 2018.
Macrosector: Es una variable cualitativa nominal, en la cual vemos a
que sector pertenece lo que producen
las empresas.
Departamento domicilio: Es una variable cualitativa nominal, en la
cual podemos ver en que departamento
queda ubicada cada empresa.
2. Presente un resumen de los datos utilizando las tablas y gráficas
que considere necesarias, explique la
información más relevante suministrada mínimo por las variables
anteriores y aquellas otras que considere
necesarias.
Patrimonio.
data = data.frame(`GANANCIA (PERDIDA) 2017`, `GANANCIA (PERDIDA) 2018`)
n=nrow(data)
pairs(data, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n",
col = "blue", labels = c("Ganancia(Perdida) 2017", "Ganancia(Perdida) 2018"))

Dispersograma
data2 = data.frame(`GANANCIA (PERDIDA) 2017`, `TOTAL ACTIVOS 2017`, `TOTAL PASIVOS 2017`, `TOTAL PATRIMONIO 2017`)
n=nrow(data2)
pairs(data2, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n",
col = "blue", labels = c("Ganancia(Perdida)", "Total activos","Total pasivos", "Total patrimonio"))

Dispersograma
data3 = data.frame(`GANANCIA (PERDIDA) 2018`, `TOTAL ACTIVOS 2018`, `TOTAL PASIVOS 2018`, `TOTAL PATRIMONIO 2018` )
n=nrow(data3)
pairs(data3, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n",
col = "blue", labels = c("Ganancia(Perdida)", "Total activos","Total pasivos", "Total patrimonio"))

Macrosector
x = table(MACROSECTOR)
r = prop.table(x)*100
tcf = barplot(height = (r), beside = TRUE,
names = c("."),
xlab = "Tipo", ylab = "Porcentaje",
main = "Macrosector", ylim = c(0,50),
args.legend = list(x = "top"),
col=c("lightblue","lightpink","lightyellow", "lightgreen", "red", "blue"))
text(tcf,0,round(r, 2), cex = 1, pos = 3, col = "black", font = 3)

r
## MACROSECTOR
## AGROPECUARIO COMERCIO CONSTRUCCIÓN
## 2.4 30.3 6.6
## MANUFACTURA MINERO-HIDROCARBUROS SERVICIOS
## 32.8 5.4 22.5
3. Tome la base de datos como una muestra y utilice el estimador
“proporción muestral” para estimar las
proporciones poblacionales en Colombia de las empresas que
pertenecen a los macrosectores
“MANUFACTURA”, “SERVICIOS” y “COMERCIO”. Presente una descripción
detallada del estimador
en la que incluya su distribución, valor esperado, desviación
estándar, gráficas que apoyen su descripción
y propiedades del estimador.
Proporcion muestral.
x = table(MACROSECTOR)
r = prop.table(x)*100
Proporciones poblacionales.
Manufactura = 32.8
Servicios = 22.5
Comercio = 30.3
Distribucion normal.
Valor esperado
median(r)
## [1] 14.55
Desviacion estandar.
de1 = sqrt(134.5)/856
El estimador es insesgado.
Grafica
hist(r)

4. Proponga otro estimador para la proporción poblacional, realice
todo el proceso del punto anterior y
compare cual estimador es mejor.
table(x)
## x
## 24 54 66 225 303 328
## 1 1 1 1 1 1
Nuevo estimador.
###1/856*(x1+399x2+456x3)
Valor esperado:
median(x)
## [1] 145.5
Distribucion normal.
El estamidador es insesgado.
El estimador del punto 3 es mas eficiente, pues los dos son
insesgados, pero en el punto 3 el estimador es mas consistente, pues es
mas preciso.
5. Tome la base de datos como una muestra y utilice el estimador
“promedio muestral” para estimar los
promedios poblacionales en Colombia de las variables numéricas
descritas en el punto 1. Presente una
descripción detallada del estimador en la que incluya su
distribución, valor esperado, desviación estándar,
gráficas que apoyen su descripción y propiedades del estimador.
Promedios poblacionales.
G.P2017 = median(`GANANCIA (PERDIDA) 2017`)
G.P2018 = median(`GANANCIA (PERDIDA) 2018`)
T.P2017 = median(`TOTAL PATRIMONIO 2017`)
T.P2018 = median(`TOTAL PATRIMONIO 2018`)
Promedio poblacional(Ganancias(peridas)2017): 5046002
Promedio poblacional(Ganancias(peridas)2018): 6456776
Promedio poblacional(Total patrimonio 2017): 77075734
Promedio poblacional(Total patrimonio 2018): 83525355
Distribucion normal.
Valor esperado.
(G.P2017+G.P2018+T.P2017+T.P2018)/4
## [1] 43025967
valor esperado todas las variables : 43025967
COEFICIENTE DE VARIACION
Ganancia (perdida) 2017
a = sd(`GANANCIA (PERDIDA) 2017`)/G.P2017
Ganancia (perdida) 2018
b = sd(`GANANCIA (PERDIDA) 2018`)/G.P2018
Total patrimonio
c = sd(`TOTAL PATRIMONIO 2017`)/T.P2017
Total patrimonio 2
d = sd(`TOTAL PATRIMONIO 2018`)/T.P2018
CV5 = a+b+d+c
6. Proponga otro estimador para el promedio poblacional, realice
todo el proceso del punto anterior y compare
cual estimador es mejor.
Nuevo estimador: 1/1000*(x1+999x2)
Valor esperado:
median(x)
## [1] 145.5
Distribucion normal.
Desviacion estandar.
k = (CV5)/1000
sqrt(k)
## [1] 0.4338388
El estamidador es insesgado.
El estimador del punto 3 es mas eficiente, pues los dos son
insesgados, pero en el punto 3 el estimador es mas consistente, pues es
mas preciso.
los datos asociados a la variable de las 1000 empresas mas grandes
de Colombia en el año 2018 muestra un incrementos en los promedios
muestrales comparado con el año 2017. Además, los resultados de los
disperso gramas demostraron una mayor variabilidad de los datos entre en
el año 2018 comparado con el año anterior. Los resultados de las
desviaciones estándar de las variables del 2018 muestran que los datos
se extienden en un rango mas amplio. También, las distribuciones
asociadas a la variable aleatoria que une la muestra con las
proporciones es mayor en el 2018 , respaldando la premisa de que hubo un
aumento en el valor de los datos en 2018.
Una variable dictomica que ayudaria describir los datos de la
poblacion seria “Dispera” y no “dispera” , ya que si compramos con el
año anteior se puede tomar una opcion sobre las opciones de la variable
dicotomica. y la variable numerica que elgiria seria el valor de los
activos, debido a que hubo un aumento siginificativo en esta variable
especifico.