Rúbrica

Cada pregunta tiene 25 puntos. Para las preguntas 1 y 4, que se subdividen en partes, cada parte tiene 6,25 y 8,33 puntos respectivamente.

Para cada pregunta o parte, el criterio de asignación de puntaje es el siguiente:

Pregunta 1

Descargue el archivo de datos Datos EIF.csv. Consiste en un extracto de algunas variables de la 10° encuesta de innovación del Ministerio de Economía. Contiene las ventas de 5.876 empresas, y su fuente de financiamiento de inversión y desarrollo (I+D). Realice lo siguiente:

  1. Calcule la media de las ventas.

  2. Calcule la mediana de las ventas.

  3. ¿Qué le dice la gran diferencia entre la media y la mediana?

  4. Genere un gráfico de columnas del total de ventas de las empresas por las fuentes de financiamiento. Cada fuente de financiamiento tiene que tener una columna que indica el total de ventas de las empresas para esa fuente. Envíe su gráfico en Excel o R al correo del profesor: .

Solución

El archivo está en formato csv delimitado por punto y coma (;). Si al abrirlo en Excel, no se separa automáticamente en columnas, hay que separarlo manualmente usando la opción de menú Datos / Texto en columnas, y luego especificar el delimitador punto y coma (;).

  1. Para calcular la media, se usa la función de Excel PROMEDIO(). Resultado: 30.089.330

  2. Para calcular la mediana, se usa la función de Excel MEDIANA(). Resultado: 1.224.717

  3. La media es casi 30 veces la mediana. Esto podría explicarse porque la distribución de ventas de las empresas es muy asimétrica. Puede haber unas pocas empresas muy grandes con ventas muy superiores a la mediana, lo cual sube significativamente la media. Es probable que hay una cantidad muy grande de pymes con ventas cercanas a la mediana. Además, no existen las ventas negativas, lo cual contribuye a la distribución asimétrica.

  4. Se crea una tabla dinámica con la columna Ventas en el cuadrante Valores (inferior derecha) de la lista de campos, con la función de agregación Suma. Se coloca la columna “Fuente Financiamiento I+D” en el cuadrante Filas (inferior izquierda). Luego se mejora el gráfico con elementos de formato: color de la letra, encabezado, etiquetas de ejes, formatos de los números etc. El gráfico en Excel está en la carpeta Ejercicios y Ejemplos, archivo EIF Preguntas 1 y 4.xlsx¨del aula virtual.

Pregunta 2

El programa Biblioredes realiza capacitación gratuita en computación e internet, a fin de ayudar a las personas a insertarse en el mundo digital y así aumentar su empleabilidad. Suponga que la probabilidad de que una persona en una comuna se entere del programa Biblioredes y acuda a realizar una capacitación es 0,12. Por otro lado, la probabilidad de que una persona encuentre trabajo si es que ha recibido la capacitación es 0,7. ¿Cuál es la probabilidad de que una persona de la comuna reciba una capacitación y además encuentre trabajo?

Solución

Sean los eventos:
C = Una persona se entera del programa Biblioredes y recibe una capacitación
T = Una persona encuentra trabajo

Por el enunciado: \[P(C) = 0,12\] Además, la probabilidad de que una persona encuentre trabajo si es que ha recibido la capacitación es la probabilidad condicional de encontrar trabajo dado que ha recibido la capacitación, cuyo valor tambíen está dado en el enunciado: \[P(T|C) = 0,7\] Por definición: \[P(T|C) = \frac{P(T \cap C)}{P(C)}\] El enunciado pregunta por la probabilidad de recibir una capacitación Y encontrar trabajo, esto es: \(P(T \cap C)\).

Reordenando la ecuación: \[P(T \cap C) = P(T|C)P(C)\] \[\therefore P(T \cap C) = 0,7 \cdot 0,12\]

0.7*0.12
## [1] 0.084

\[\therefore P(T \cap C) = 0,084\]

Respuesta: La probabilidad de recibir una capacitación y además encontrar trabajo es 0,084 = 8,4%.

Pregunta 3

Una fábrica de teléfonos celulares tiene una tasa de defectos de fabricación de 0,1%, es decir, el 0,1% de todos los teléfonos sale con defectos de fabricación. ¿Cuál es la probabilidad de que, en un container de 1.000 teléfonos, al menos 1 teléfono tenga defectos de fabricación? 

Solución

Para un teléfono en particular, el evento de que salga defectuoso o bueno se puede modelar con una distribución Bernoulli, donde 1 = defectuoso (éxito) y 0 = sin defectos (fracaso). (Para efectos de modelar el problema, no importa que en la vida real, defectuoso es malo y sin defectos es bueno.) El valor p es 0,1% = 0,001.

Además, nos interesa la probabilidad de x teléfonos defectuosos en un total de n. Esto se puede modelar con una distribución binomial de x éxitos en n intentos. Para el problema del enunciado, n = 1.000, p = 0,001.

Queremos saber la probabilidad que esta variable aleatoria sea mayor o igual a 1 (“por lo menos 1”): \(P(X \ge 1)\). Por los axiomas de la probabilidad: \[P(X \ge 1) = 1 - P(X = 0)...(1)\] Calculamos \(P(X=0)\) con la función de masa de probabilidad de la distribución binomial con x = 0: \[p(x) = {n \choose x}p^x(1-p)^{n-x}\] \[\therefore p(0) = {1000 \choose 0}(0,001)^0(1-0,001)^{1000-0}\] \[\therefore p(0) = 0,999^{1000}\]

p = 0.001
(1-p)^1000
## [1] 0.3676954

\[\therefore p(0) = 0,3677\] Sustituir en la ecuación (1): \[P(X \ge 1) = 1 - 0,3677\] \[\therefore P(X \ge 1) = 0,6323\]

Respuesta: La probabilidad de que en el container de 1.000 teléfonos haya al menos 1 teléfono defectuoso es 0,6232 = 62%. Esto es bastante alto.

Pregunta 4

Suponga que el ingreso medio de todos los residentes de Chile es un valor desconocido: \(\mu\).

  1. Explique como haría para estimar el ingreso medio de los residentes de Chile.
  2. Suponga que a partir de una muestra de 100 personas, estima que el ingreso medio es $500.000 y la desviación estándar poblacional del ingreso es $200.000. Calcule la probabilidad de que el verdadero valor \(\mu\) está dentro del intervalo [$480.000, $520.000].
  3. Si sabe que el ingreso no tiene una distribución normal, ¿es válida su respuesta de la parte (ii)? Explique por qué.

Solución

  1. Tomaría una muestra representativa (aleatoria) de la encuesta Casen y calcularía la media de la muestra. Esto sería una estimación del ingreso medio de la poblacion total de Chile. Entre más grande la muestra, más precisa será la estimación.

  2. Antes de sacar la muestra aleatoria, la media muestral es una variable aleatoria: \[\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\] donde cada \(X_i\) es una variable aleatoria que consiste en sacar al azar un elemento de la población.

Por el Teorema Central del Límite, esta variable media muestral tiene una distribución normal. Además, como hemos demostrado en clase, su media es \(\mu\) y su desviación estándar es \(\frac{\sigma}{\sqrt{n}}\), donde \(\sigma\) es la desviación estándar poblacional y n es el tamaño de la muestra: \[\bar{X} \sim N \left(\mu, \frac{\sigma}{\sqrt{n}} \right)\] Queremos saber: \[P(480.000 \le \mu \le 520.000)\] Ya que la realización de \(\bar{X}\) obtenida es: \[\bar{x} = 500.000\] la probabilidad que queremos saber es: \[P(480.000 \le \mu \le 520.000) = P(\bar{x}-20.000 \le \mu \le \bar{x}+20.000)\] Reordenando cada una de la inecuaciones, esto es equivalente a: \[P(480.000 \le \mu \le 520.000) = P(\mu-20.000 \le \bar{x} \le \mu+20.000)\] Esto es para \(\bar{x}\), un valor particular realizado de su variable \(\bar{X}\). Entonces podemos reemplazar \(\bar{x}\) por \(\bar{X}\): \[P(480.000 \le \mu \le 520.000) = P(\mu-20.000 \le \bar{X} \le \mu+20.000)\] De cada inecuación, restar \(\mu\) y dividir por \(\sigma/\sqrt{n}\): \[P(480.000 \le \mu \le 520.000) = P \left( \frac{-20.000}{\sigma/\sqrt{n}} \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le \frac{20.000}{\sigma/\sqrt{n}} \right)\] Pero, como hemos demostrado en clases, \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\) tiene media = 0 y desviación estándar = 1. Además, como \(\bar{X}\) es normal, entonces \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\) es la distribución normal estándar, Z: \[P(480.000 \le \mu \le 520.000) = P \left( \frac{-20.000}{\sigma/\sqrt{n}} \le Z \le \frac{20.000}{\sigma/\sqrt{n}} \right)\] Reemplazamos n = 100 y \(\sigma\) por su estimación en el enunciado: \[\sigma \approx 200.000\] \[P(480.000 \le \mu \le 520.000) = P \left( \frac{-20.000}{200.000/\sqrt{100}} \le Z \le \frac{20.000}{200.000/\sqrt{100}} \right)\] \[\therefore P(480.000 \le \mu \le 520.000) = P \left( \frac{-20.000 \cdot 10}{200.000} \le Z \le \frac{20.000 \cdot 10}{200.000} \right)\] \[\therefore P(480.000 \le \mu \le 520.000) = P(-1 \le Z \le 1 )\] 1 es la desviación estándar de Z; entonces \(P(-1 \le Z \le 1 )\) es la probabilidad de que Z está a una desviación estándar de su media, 0. Sabemos que para toda distribución normal, esta probabilidad es aproximadamente 68%. \[\therefore P(480.000 \le \mu \le 520.000) \approx 68\%\] En todo caso, si uno no se acordara de este hecho, se puede usar la función de distribución de distribución acumulada de Excel DISTR.NORM.ESTANDAR() o DISTR.NORM() con media = 0 y desviación estándar = 1: \[\therefore P(480.000 \le \mu \le 520.000) = F(1) - F(-1)\] \[\therefore P(480.000 \le \mu \le 520.000) = 0,6827 = 68,27\%\] El cálculo en Excel está en la carpeta Ejercicios y Ejemplos. archivo EIF Preguntas 1 y 4.xlsx, pestaña Pregunta 4 (ii)¨del aula virtual.

(Para ser bien riguroso, este método es aproximado solamente, porque no sabemos el valor de \(\sigma\), solamente una estimación. La forma correcta de resolver este problema es con la distribución t student, pero eso está más allá del alcance de este curso. Estudiarán la distribución t student en Estadística II).

  1. Aunque el ingreso de los habitatantes de Chile NO tenga una distribución normal, la media muestral tiene una distribución cercana a la normal por el Teorema Central del Límite.