Parcial practico 1.

Estafistica 2.

Carlos Galvis - Paula Guzmán.

1. Importe la base de datos a R usando la función read.csv() y haga una descripción general de la misma.
Identifique, caracterice y presente una breve descripción de cada una de las
variables “GANANCIA..PERDIDA..2018”, “GANANCIA..PERDIDA..2017”, “TOTAL.PATRIMONIO.2017”,

“TOTAL.PATRIMONIO.2018”, “MACROSECTOR” y “DEPARTAMENTO.DOMICILIO”.

library(readr)
X1000_Empresas_mas_grandes_del_pa_s <- read_csv("1000_Empresas_mas_grandes_del_pa_s.csv")
## Rows: 1000 Columns: 20
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (8): RAZON SOCIAL, SUPERVISOR, REGIÓN, DEPARTAMENTO DOMICILIO, CIUDAD D...
## dbl (12): No., NIT, INGRESOS OPERACIONALES
## 2018*, GANANCIA (PERDIDA) 2018, T...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(X1000_Empresas_mas_grandes_del_pa_s)
Ganancias(Perdidas) 2017: Es una variable cuantitativa discreta con intervalo de razon,en la cual podemos
ver tanto ganancias como peridad de las empresas, durante el año 2017.
Ganancias(Perdidas) 2018: Es una variable cuantitativa discreta con intervalo de razon,en la cual podemos
ver tanto ganancias como peridad de las empresas, durante el año 2018.
Total patrimonio 2017: Es una variable cuantitativa discreta con intervalo de razo, en la cual podemos ver
el patrimonio de las empresas, durante el año 2017.
Total patrimonio 2018: Es una variable cuantitativa discreta con intervalo de razo, en la cual podemos ver

el patrimonio delas empresas, durante el año 2018.

Macrosector: Es una variable cualitativa nominal, en la cual vemos a que sector pertenece lo que producen
las empresas.
Departamento domicilio: Es una variable cualitativa nominal, en la cual podemos ver en que departamento
queda ubicada cada empresa.
2. Presente un resumen de los datos utilizando las tablas y gráficas que considere necesarias, explique la
información más relevante suministrada mínimo por las variables anteriores y aquellas otras que considere
necesarias.
Patrimonio.
data = data.frame(`GANANCIA (PERDIDA) 2017`, `GANANCIA (PERDIDA) 2018`)
n=nrow(data)
pairs(data, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n", 
      col = "blue", labels = c("Ganancia(Perdida) 2017", "Ganancia(Perdida) 2018"))

Dispersograma

data2 = data.frame(`GANANCIA (PERDIDA) 2017`, `TOTAL ACTIVOS 2017`, `TOTAL PASIVOS 2017`, `TOTAL PATRIMONIO 2017`)
n=nrow(data2)
pairs(data2, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n", 
      col = "blue", labels = c("Ganancia(Perdida)", "Total activos","Total pasivos", "Total patrimonio"))

Dispersograma

data3 = data.frame(`GANANCIA (PERDIDA) 2018`, `TOTAL ACTIVOS 2018`, `TOTAL PASIVOS 2018`, `TOTAL PATRIMONIO 2018` )
n=nrow(data3)
pairs(data3, pch = 16, cex = 0.8, gap = 0, xaxt = "n", yaxt = "n", 
      col = "blue", labels = c("Ganancia(Perdida)", "Total activos","Total pasivos", "Total patrimonio"))

Macrosector

x = table(MACROSECTOR)

r = prop.table(x)*100

tcf = barplot(height = (r), beside = TRUE,
              names = c("."),
              xlab = "Tipo", ylab = "Porcentaje",
              main = "Macrosector", ylim = c(0,50),
              args.legend = list(x = "top"),
              col=c("lightblue","lightpink","lightyellow", "lightgreen", "red", "blue"))
text(tcf,0,round(r, 2), cex = 1, pos = 3, col = "black", font = 3)

r
## MACROSECTOR
##         AGROPECUARIO             COMERCIO         CONSTRUCCIÓN 
##                  2.4                 30.3                  6.6 
##          MANUFACTURA MINERO-HIDROCARBUROS            SERVICIOS 
##                 32.8                  5.4                 22.5
3. Tome la base de datos como una muestra y utilice el estimador “proporción muestral” para estimar las
proporciones poblacionales en Colombia de las empresas que pertenecen a los macrosectores
“MANUFACTURA”, “SERVICIOS” y “COMERCIO”. Presente una descripción detallada del estimador
en la que incluya su distribución, valor esperado, desviación estándar, gráficas que apoyen su descripción
y propiedades del estimador.
Proporcion muestral.
x = table(MACROSECTOR)

r = prop.table(x)*100

Proporciones poblacionales.

Manufactura = 32.8
Servicios = 22.5
Comercio = 30.3

Distribucion normal.

Valor esperado

median(r)
## [1] 14.55

Desviacion estandar.

de1 = sqrt(134.5)/856

El estimador es insesgado.

Grafica

hist(r)

4. Proponga otro estimador para la proporción poblacional, realice todo el proceso del punto anterior y
compare cual estimador es mejor.
table(x)
## x
##  24  54  66 225 303 328 
##   1   1   1   1   1   1

Nuevo estimador.

###1/856*(x1+399x2+456x3)

Valor esperado:

median(x)
## [1] 145.5

Distribucion normal.

El estamidador es insesgado.

El estimador del punto 3 es mas eficiente, pues los dos son insesgados, pero en el punto 3 el estimador es mas consistente, pues es mas preciso.
5. Tome la base de datos como una muestra y utilice el estimador “promedio muestral” para estimar los
promedios poblacionales en Colombia de las variables numéricas descritas en el punto 1. Presente una
descripción detallada del estimador en la que incluya su distribución, valor esperado, desviación estándar,
gráficas que apoyen su descripción y propiedades del estimador.

Promedios poblacionales.

G.P2017 = median(`GANANCIA (PERDIDA) 2017`)
G.P2018 = median(`GANANCIA (PERDIDA) 2018`)
T.P2017 = median(`TOTAL PATRIMONIO 2017`)
T.P2018 = median(`TOTAL PATRIMONIO 2018`)
Promedio poblacional(Ganancias(peridas)2017): 5046002
Promedio poblacional(Ganancias(peridas)2018): 6456776
Promedio poblacional(Total patrimonio 2017): 77075734
Promedio poblacional(Total patrimonio 2018): 83525355

Distribucion normal.

Valor esperado.

(G.P2017+G.P2018+T.P2017+T.P2018)/4
## [1] 43025967

valor esperado todas las variables : 43025967

COEFICIENTE DE VARIACION

Ganancia (perdida) 2017

a = sd(`GANANCIA (PERDIDA) 2017`)/G.P2017

Ganancia (perdida) 2018

b = sd(`GANANCIA (PERDIDA) 2018`)/G.P2018

Total patrimonio

c = sd(`TOTAL PATRIMONIO 2017`)/T.P2017

Total patrimonio 2

d = sd(`TOTAL PATRIMONIO 2018`)/T.P2018

CV5 = a+b+d+c
6. Proponga otro estimador para el promedio poblacional, realice todo el proceso del punto anterior y compare

cual estimador es mejor.

Nuevo estimador: 1/1000*(x1+999x2)

Valor esperado:

median(x)
## [1] 145.5

Distribucion normal.

Desviacion estandar.

k = (CV5)/1000
sqrt(k)
## [1] 0.4338388

El estamidador es insesgado.

El estimador del punto 3 es mas eficiente, pues los dos son insesgados, pero en el punto 3 el estimador es mas consistente, pues es mas preciso.
los datos asociados a la variable de las 1000 empresas mas grandes de Colombia en el año 2018 muestra un incrementos en los promedios muestrales comparado con el año 2017. Además, los resultados de los disperso gramas demostraron una mayor variabilidad de los datos entre en el año 2018 comparado con el año anterior. Los resultados de las desviaciones estándar de las variables del 2018 muestran que los datos se extienden en un rango mas amplio. También, las distribuciones asociadas a la variable aleatoria que une la muestra con las proporciones es mayor en el 2018 , respaldando la premisa de que hubo un aumento en el valor de los datos en 2018.
Una variable dictomica que ayudaria describir los datos de la poblacion seria “Dispera” y no “dispera” , ya que si compramos con el año anteior se puede tomar una opcion sobre las opciones de la variable dicotomica. y la variable numerica que elgiria seria el valor de los activos, debido a que hubo un aumento siginificativo en esta variable especifico.