El pensamiento estadístico es una forma de razonamiento que involucra la recolección, análisis e interpretación de datos con el fin de comprender y tomar decisiones informadas sobre fenómenos o situaciones. Se basa en el uso de herramientas y métodos estadísticos para describir, resumir y analizar datos con el objetivo de obtener conclusiones válidas y confiables.
El pensamiento estadístico es fundamental en diversos campos y disciplinas, desde la ciencia y la investigación, hasta los negocios, la medicina, la economía y muchas otras áreas. Permite abordar preguntas y problemas complejos, y proporciona una forma de cuantificar y comprender la variabilidad y la incertidumbre presentes en los datos y en la realidad.
Una de las habilidades clave en el pensamiento estadístico es la capacidad de recopilar datos de manera adecuada y representativa. Esto implica diseñar y realizar estudios o experimentos, seleccionando muestras representativas de una población o recopilando datos relevantes de manera sistemática.
Una vez que se han recopilado los datos, el pensamiento estadístico implica el análisis de los mismos utilizando técnicas y métodos estadísticos apropiados. Esto puede incluir la descripción de los datos a través de medidas de tendencia central y de dispersión, la visualización de los datos utilizando gráficos y diagramas, y la aplicación de pruebas estadísticas para evaluar relaciones, diferencias o patrones en los datos.
Además del análisis, el pensamiento estadístico implica la interpretación de los resultados obtenidos. Esto implica comprender las limitaciones de los datos y los métodos utilizados, considerar la incertidumbre asociada a los resultados y realizar inferencias o generalizaciones adecuadas a partir de los datos analizados.
En resumen, el pensamiento estadístico es una forma de razonamiento que involucra la recolección, análisis e interpretación de datos. Es una herramienta fundamental para comprender la variabilidad y la incertidumbre en los datos y en la realidad, y para tomar decisiones informadas basadas en evidencia. El pensamiento estadístico es aplicable en una amplia variedad de campos y disciplinas, y permite abordar preguntas y problemas complejos de manera rigurosa y sistemática.
La estadistica se puede definir como una disciplina que busca representar fenómenos del mundo real mediante modelos matemáticos. En otras palabras, la estadistica es un conjunto de técnicas cuyo objetivo se basa en la recopilación, procesamiento, análisis e interpretación de datos procedentes de un grupo de individuos o unidades observacionales. La combinación de estos procesos brinda herramientas para el desarrollo de procesos investigativos para los que se el método científico se emplea como estrategia permitiendo la generación de nuevo conocimiento.
En todo proceso de investigación se requiere identificar de manera adecuada un conjunto de observaciones, de las cuales, a través de una serie de pesquisas, es posible analizar su comportamiento actual y predecir sucesos futuros. Para este tipo de indagaciones se requiere la definición de algunos conceptos, los cuales serán expuestos en este cuaderno.
Conjunto de unidades, individuos o elementos que son objeto de un análisis y que ostentan una o varias características comunes. Según el numero de elementos que lo componen se habla de población finita o infinita.
Valor que caracteriza a una población. Entre los mas representativos se encuentra \(\mu\), \(\sigma^2\), \(\sigma\), …
Está formada por procedimientos empleados para resumir y describir las características importantes de un conjunto de mediciones.
Está formada por procedimientos empleados para hacer inferencias acerca de características poblacionales a partir de información contenida en una muestra.
Toda investigación requiere tener una definición clara de los datos con los cuales se va a desarrollar el estudio. Una de las preguntas a abordar es si se debe trabajar con la población o con una muestra; para ello se requiere responder una serie de cuestionamientos relacionados con la disponibilidad de recursos (humanos, físicos y económicos), el tiempo disponible para la recolección de los datos y la capacidad del grupo de investigadores para gestionar un determinado volumen de datos.
El método recolección de datos que toma cuenta todas las observaciones contenidas en una población se denomina censo. El censo de una población se basa en la obtención de las características de cada uno de los individuos de la población mediante diversas técnicas de recuento.
Para responder la pregunta anterior analice la situación y responda:
El proceso de obtención de muestras se denomina muestreo. Este puede ser probabilístico y no probabilístico. Se dice que un muestreo es probabilístico cuando los elementos de la muestra se seleccionan de manera aleatoria y por lo tanto puede calcularse con antelación la probabilidad de obtener cada una de las muestras que pueden formarse de esa población o la probabilidad que tiene cada elemento de la población de ser incluido en la muestra. Mientras que el no probabilístico es una técnica donde el investigador selecciona muestras basadas en un juicio subjetivo.
La base de datos ‘Determinants of Wages Data (CPS 1988)’ describe información recopilada en la encuesta ‘March 1988 Current Population Survey’ realizada por la Oficina del Censo de EEUU.
X | wage | education | experience | ethnicity | smsa | region | parttime |
---|---|---|---|---|---|---|---|
1 | 354.94 | 7 | 45 | cauc | yes | northeast | no |
2 | 123.46 | 12 | 1 | cauc | yes | northeast | yes |
3 | 370.37 | 9 | 9 | cauc | yes | northeast | no |
4 | 754.94 | 11 | 46 | cauc | yes | northeast | no |
5 | 593.54 | 12 | 36 | cauc | yes | northeast | no |
El comando sample() permite seleccionar muestras de manera aleatoria, de manera que cada observación tienen la misma probabilidad de ser elegida.
sample (x, size, replace, prob)
dónde:
x: un vector con las observaciones de las cuales se puede seleccionar la muestra.
size: tamaño de la muestra.
replace: variable lógica que indica si la muestra puede tener observaciones repetidas.
prob: Vector de ponderaciones de probabilidad para obtener elementos del vector x. El valor predeterminado es NULL.
Se seleccionan tres muestra de la variable wage-“salario”.
set.seed (15)
salario <- df$wage
muestra1<-sample(salario, size=100)
muestra2<-sample(salario, size=1000)
muestra3<-sample(salario, size=10000)
Las medidas descriptivas de una muestra seleccionada de manera aleatoria de una población se denominan estadísticas. Las estadísticas son específicas de la muestra seleccionada, es decir, diferentes muestras tendrán diferentes estadísticos. A partir de estas muestras es posible describir el comportamiento de los datos por medio de distribuciones de probabilidad llamadas distribuciones muestrales.
Suponga que se extrae una muestra aleatoria de una población y se desea inferir alguna característica de la distribución de la población. Esta inferencia se basará en alguna muestra y su estadístico, es decir, en algunas funciones específicas de la información muestral.
Algunos estadísticos son
Media muestral.
La diferencia de medias muestrales.
Proporción muestral.
La diferencia de proporciones
La varianza muestral
La razón de varianzas muestrales
Una distribución muestral es una función de distribución de probabilidad, que resulta cuando muestras aleatorias de tamaño n se sacan repetidamente de la población. Las cuales pueden ser generadas a partir de:
Deducción de la distribución matemáticamente usando las leyes de probabilidad.
Técnicas de simulación para hacer aproximaciones de distribución.
Empleo de teoremas para aproximar distribuciones muestrales.
Sea una población de la cual se selecciona una muestra, los estadísticos generados por dicha selección se determinan de acuerdo al conocimiento de información proveniente de la población. A continuación se definen algunas características principales de dichas selecciones en el proceso de estimación de los parámetros poblacionales.
Ejemplo: Analice la siguiente situación:
Sea la población x: {4,5,8,10,11}, de donde se seleccionan muestras de tamaño 3 sin reemplazo, determinar las distribuciones muestrales para las medidas de tendencia central.
library(gtools)
muestras<-combinations(5, 3, c(4,5,8,10,11))
muestras <-data.frame(muestras)
media<-rowMeans(muestras)
muestras<-cbind(muestras, media)
muestras
## X1 X2 X3 media
## 1 4 5 8 5.666667
## 2 4 5 10 6.333333
## 3 4 5 11 6.666667
## 4 4 8 10 7.333333
## 5 4 8 11 7.666667
## 6 4 10 11 8.333333
## 7 5 8 10 7.666667
## 8 5 8 11 8.000000
## 9 5 10 11 8.666667
## 10 8 10 11 9.666667
hist(muestras$media)
library("fitdistrplus")
## Loading required package: MASS
## Loading required package: survival
library("MASS")
bondad_ajuste <- fitdist(muestras$media,'norm')
plot(bondad_ajuste)
library(plotly)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'httr':
## method from
## print.response rmutil
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:MASS':
##
## select
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
library(ggplot2)
x<-seq(-3,3,length=1000)
fx<-dnorm(x)
d<-data.frame(x,fx)
p<-plot_ly(d,x=~x,y=~fx,type="scatter",mode="lines")
p
La distribución normal, también conocida como la distribución de Gauss o campana de Gauss, es de gran importancia en el diseño de experimentos por varias razones:
Suposición de normalidad: En muchos métodos estadísticos utilizados en el diseño de experimentos, se asume que las variables aleatorias siguen una distribución normal. Estos métodos incluyen la prueba t, análisis de varianza (ANOVA), regresión lineal y muchos otros. Al asumir la normalidad, se simplifican los cálculos y se obtienen resultados más precisos.
Inferencia estadística: La distribución normal es ampliamente utilizada en la inferencia estadística. Permite realizar estimaciones puntuales y por intervalos, realizar pruebas de hipótesis y realizar análisis de regresión. Estas herramientas son fundamentales para el diseño de experimentos y permiten extraer conclusiones válidas y confiables sobre las relaciones y efectos en estudio.
Teorema del límite central: El teorema del límite central establece que, bajo ciertas condiciones, la distribución de la media de una muestra tiende a aproximarse a una distribución normal, independientemente de la distribución de la población original. Este resultado es fundamental en el diseño de experimentos, ya que permite realizar inferencias sobre la población utilizando técnicas basadas en la distribución normal de las medias muestrales.
Robustez: La distribución normal es conocida por su robustez en muchos análisis estadísticos. Incluso cuando la suposición de normalidad no se cumple estrictamente, los métodos basados en la distribución normal pueden ser bastante eficaces y confiables. Esto hace que la distribución normal sea una opción segura en el diseño de experimentos, especialmente cuando se desconoce la verdadera distribución de los datos.
En resumen, la distribución normal es de gran importancia en el diseño de experimentos debido a su suposición de normalidad en muchos métodos estadísticos, su utilidad en inferencia estadística, el teorema del límite central y su robustez. Estas propiedades permiten realizar análisis confiables y obtener conclusiones válidas a partir de los datos recopilados en un experimento.
-Histograma
Así, tratar con la distribución de la media muestral se pueden presentar los siguientes casos:
Estadístico | Distribución de muestreo | |
---|---|---|
Media | \(E(\bar{X})=\mu\) | \(\bar{X}\sim N\left ( \mu, \sigma^2/n \right )\) |
Varianza | \(V(\bar{X})=\sigma^2/n\) |
Estadístico | Distribución de muestreo | |
---|---|---|
Media | \(E(\bar{X})=\mu\) | \(\bar{X}\sim N\left ( \mu,s^2/n \right )\) |
Varianza | \(V(\bar{X})=s^2/n\) |
Estadístico | Distribución de muestreo | |
---|---|---|
Media | \(E(\bar{X})=\mu\) | \(\left ( \frac{\bar{X}-\mu}{s/\sqrt{n}}\right )\sim t_{(n-1)gl}\) |
Varianza | \(V(\bar{X})=s^2/n\) |
En resumen se tiene que
La duración de cierto tipo de batería sigue una distribución normal de media 3 años y desviación típica de 0,5 años. Si se toman muestras de tamaño 9, halla un intervalo en el que estén comprendidos el 99% de las duraciones medias de las baterías de cada muestra.
La edad de los alumnos de 2 o de Bachillerato de cierto instituto sigue una distribución N (17.6, 0.5). Los agrupamos al azar de 10 en 10 para una competición. Halla el intervalo característico del 95% correspondiente a las edades medias de los grupos.
La estatura de los habitantes mayores de edad de una determinada ciudad sigue una distribución normal de media desconocida y varianza \(36 cm^2\) . En una muestra aleatoria de 80 individuos de esta ciudad, hemos obtenido una estatura media de 172 cm. Determina un intervalo de confianza del 95,44% para la estatura media de los habitantes mayores de edad de dicha ciudad.
El peso, en kilogramos, de un determinado colectivo se distribuye según una normal de desviación típica igual a 5 kg. ¿Cuántos individuos debemos seleccionar en la muestra si queremos que la media de la muestra no difiera en más de 1kg de la media de la población, con probabilidad 0,95?
En una muestra de 1000 personas, mayores de 18 años, de una ciudad, hemos obtenido una estatura media de 1,72 m y una desviación típica de 0,4 m. Con estos datos, hemos concluido que, la estatura media de los habitantes mayores de 18 años de esa ciudad está entre 170 cm y 174 cm. ¿Con qué nivel de confianza hemos llegado a dicha conclusión?
# Instalar las bibliotecas necesarias
install.packages("plotly")
## Warning: package 'plotly' is in use and will not be installed
library(plotly)
# Generar datos de muestra de una distribución
set.seed(123) # Para reproducibilidad
muestras <- rnorm(1000, mean = 10, sd = 2) # Distribución normal con media 10 y desviación estándar 2
# Calcular la media de las muestras
medias <- cumsum(muestras) / (1:length(muestras))
# Crear el gráfico interactivo
plot <- plot_ly(x = 1:length(medias), y = medias, type = "scatter", mode = "lines",
name = "Media", line = list(color = "blue"))
# Agregar una línea horizontal en la media real
media_real <- mean(muestras)
plot <- add_trace(plot, x = c(1, length(medias)), y = c(media_real, media_real),
type = "scatter", mode = "lines", name = "Media real", line = list(color = "red"))
# Personalizar el diseño del gráfico
plot <- layout(plot, title = "Distribución de la Media", xaxis = list(title = "Número de muestras"),
yaxis = list(title = "Valor de la Media"))
# Mostrar el gráfico
plot