Clase 1 Diseño de experimentos
                           Cuestionario estadístico

Consulte la definición de los siguientes conceptos:

  1. Población (Population) La población o universo representa el grupo completo de unidades que es el foco del estudio. Así, la población podría estar compuesta por todas las personas del país, o las que se encuentran en una ubicación geográfica particular, o un grupo étnico o económico especial, según el propósito y la cobertura del estudio. Una población también podría consistir en unidades no humanas como granjas, casas o establecimientos comerciales.

En estadística, este término se usa para cualquier colección finita o infinita de “unidades”, que a menudo son personas pero pueden ser, por ejemplo, instituciones, eventos, etc. (Cambridge)

  1. Superpoblación (Superpopulation) Una población infinita hipotética de la que una población finita es una muestra. Un modelo de superpoblación proporciona un marco alternativo para la inferencia en el muestreo al centrarse no en los parámetros de población finita objetivo, sino en los parámetros de superpoblación asociados con un mecanismo estocástico hipotético para generar las observaciones en la población, parámetros que suelen ser más relevantes para cuestiones científicas. [Ciencia estadística, 2002, 17, 73–96.]

  2. Muestra (Sample) Una muestra es un subconjunto de un marco en el que los elementos se seleccionan en función de un proceso aleatorio con una probabilidad de selección conocida.

Un subconjunto seleccionado de una población elegida por algún proceso generalmente con el objetivo de investigar propiedades particulares de la población parental. (Cambridge)

  1. Censo (census) Un estudio que tiene como objetivo observar a todos los miembros de una población. El propósito fundamental del censo de población es proporcionar los datos esenciales para la formulación de políticas, la planificación y la administración del gobierno.

  2. Parámetro (Parameter) Una característica numérica de una población o un modelo. La probabilidad de un “éxito” en una distribución binomial, por ejemplo. (Cambridge)

  3. Estadística (Estadígrafo) Característica numérica de una muestra. Por ejemplo, la media muestral y la varianza muestral. (Cambridge)

  4. Estimación (Estimation) La estimación se ocupa de la inferencia sobre el valor numérico de valores poblacionales desconocidos a partir de datos incompletos, como una muestra.

El proceso de proporcionar un valor numérico para un parámetro de población sobre la base de la información recopilada de una muestra. Si se calcula una sola cifra para el parámetro desconocido, el proceso se denomina estimación puntual. Si se calcula un intervalo que probablemente contenga el parámetro, el procedimiento se denomina estimación de intervalo. (Cambridge)

  1. Sesgo (Bias) En términos generales, desviación de resultados o inferencias de la verdad, o procesos que conducen a dicha desviación. Más específicamente, la medida en que el método estadístico utilizado en un estudio no estima la cantidad que se cree que se estima, o no prueba la hipótesis que se va a probar. En la estimación generalmente se mide por la diferencia entre el valor esperado de un estimador y el valor real del parámetro.

  2. Simetría (Symmetry)

  3. Curtosis (Kurtosis) La medida en que el pico de una distribución de probabilidad unimodal o distribución de frecuencia se aparta de la forma de una distribución normal, ya sea más puntiagudo (leptocúrtico) o más plano (platicúrtico).

  4. Inferencia (Inference) El proceso de sacar conclusiones sobre una población sobre la base de mediciones u observaciones realizadas en una muestra de unidades de la población. Véase también inferencia frecuentista e inferencia bayesiana.

  5. Inducción

  6. Deducción

  7. Variable Una variable es una característica de una unidad que se observa que puede asumir más de uno de un conjunto de valores a los que se puede asignar una medida numérica o una categoría de una clasificación (por ejemplo, ingresos, edad, peso, etc., y `` ocupación ’’). , “Industria”, “enfermedad”, etc.

  8. Constante

  9. Variable cualitativa (Categorical variable) Variable que da la etiqueta apropiada de una observación después de la asignación a una de varias categorías posibles, por ejemplo, estado respiratorio: terrible, malo, regular, bueno, excelente o grupo sanguíneo: A, B, AB u O. El estado respiratorio es un ejemplo de una variable categórica ordenada o variable ordinal, mientras que el tipo de sangre es un ejemplo de una variable categórica no ordenada.

  10. Variable cuantitativa (Numeric variable) Una variable que describe un valor medido numéricamente (por ejemplo, edad, número de personas en un hogar).

• Discreta (Discrete variable) Una variable que toma solo un número finito de valores reales. (Por ejemplo, 1, 3, 5 y 1000).

Variables que solo tienen valores enteros, por ejemplo, número de nacimientos, número de embarazos, número de dientes extraídos, etc.

• Continua (Continuous variable) Una medición no restringida a valores particulares excepto en la medida en que esté restringida por la precisión del instrumento de medición. Los ejemplos comunes incluyen peso, altura, temperatura y presión arterial. Para una variable de este tipo, las diferencias de igual tamaño en diferentes partes de la escala son equivalentes.

  1. Escala de medición

• Nominal

• Ordinal

• Intervalo El mayor menos el menor de un conjunto de valores variables. El rango es en sí mismo una medida elemental de dispersión pero, en términos del rango medio en el muestreo repetido, puede proporcionar una estimación razonable de la desviación estándar de la población.

• Razón Una razón es un número que expresa el tamaño relativo de otros dos números. El resultado de dividir un número X por otro número Y es la razón de X a Y.

  1. Variable categórica (Categorical variable) Variable que da la etiqueta apropiada de una observación después de la asignación a una de varias categorías posibles, por ejemplo, estado respiratorio: terrible, malo, regular, bueno, excelente o grupo sanguíneo: A, B, AB u O. El estado respiratorio es un ejemplo de una variable categórica ordenada o variable ordinal, mientras que el tipo de sangre es un ejemplo de una variable categórica no ordenada.

  2. Medida de tendencia central La tendencia de los datos cuantitativos a agruparse en torno a algún valor variable. La posición del valor central suele estar determinada por una de las medidas de ubicación, como la media, la mediana o la moda. La cercanía con la que los valores se agrupan alrededor del valor central se mide mediante una de las medidas de dispersión, como la desviación media o la desviación estándar.

  3. Media aritmética Una medida de ubicación o valor central para una variable continua. la media generalmente se refiere a la expectativa de una variable, o a la media aritmética de una muestra utilizada como estimación de la expectativa.

  4. Media armónica Se utiliza en algunos métodos de análisis de diseños no ortogonales. La media armónica es menor o igual que la media aritmética y la media geométrica.

  5. Media geométrica Una medida de ubicación que pertenece a la clase general de media de potencia combinatoria. Una medida de ubicación, g, calculada a partir de un conjunto de observaciones. La media geométrica es siempre menor o igual que la media aritmética.

  6. Media ponderada Un promedio que se obtiene combinando diferentes números (por ejemplo, precios o números de índice) de acuerdo con la importancia relativa de cada uno.

  7. Media truncada

  8. Media windsordizada

  9. Mediana La mediana es el valor de la variable que divide la frecuencia total en dos mitades.

El valor de un conjunto de observaciones clasificadas que divide los datos en dos partes de igual tamaño. Cuando hay un número impar de observaciones, la mediana es el valor medio. Cuando hay un número par de observaciones, la medida se calcula como el promedio de los dos valores centrales. Proporciona una medida de ubicación de una muestra que es adecuada para distribuciones asimétricas y también es relativamente insensible a la presencia de valores atípicos.

  1. Moda Un movimiento a largo plazo en una serie ordenada, digamos una serie de tiempo, que puede considerarse, junto con la oscilación y el componente aleatorio, como la generación de los valores observados.

  2. Medida de dispersión

  3. Varianza La varianza es la desviación cuadrática media de la variable alrededor del valor promedio. Refleja la dispersión de los valores empíricos alrededor de su media.

  4. Desviación típica

  5. Desviación media

  6. Rango El mayor menos el menor de un conjunto de valores variables. El rango es en sí mismo una medida elemental de dispersión pero, en términos del rango medio en el muestreo repetido, puede proporcionar una estimación razonable de la desviación estándar de la población.

  7. Rango intercuartílico La distancia variable entre los cuartiles superior e inferior. Este rango contiene la mitad de la frecuencia total y proporciona una medida simple de dispersión que es útil en estadística descriptiva.

  8. Coeficiente de variación

  9. Cuartiles Hay tres valores variables que separan la frecuencia total de una distribución en cuatro partes iguales. El valor central se denomina mediana y los otros dos cuartiles superior e inferior, respectivamente. Son un conjunto particular de cuantiles.

Los valores que dividen una distribución de frecuencia o distribución de probabilidad en cuatro partes iguales. (Cambridge)

• Inferior

• Superior

  1. Quantiles Los valores de partición de clase (n-1) de una variable que dividen la frecuencia total de una población o muestra en un número dado n de proporciones iguales. Por ejemplo, si n = 4, los valores n-1 son los cuartiles, aunque el valor variable central generalmente se denomina mediana.

Divisiones de una distribución de probabilidad o distribución de frecuencia en subgrupos ordenados iguales, por ejemplo, cuartiles o percentiles. (Cambridge)

  1. Percentiles

  2. Índice

  3. Diagrama de barras Un diagrama de barras se utiliza para representar datos cualitativos o datos cuantitativos de tipo discreto. Se representan sobre unos ejes de coordenadas, en el eje de abscisas se colocan los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas o acumuladas.

  4. Diagrama de sectores Un diagrama de sectores es un tipo de diagrama en forma de círculo que sirve para representar datos estadísticos, que quedan representados en forma de sectores

  5. Diagrama de puntos (dispersión) El diagrama de puntos es una gráfica muy útil para visualizar un conjunto pequeño de datos; por ejemplo, de unas 20 observaciones. La gráfica permite ver rápidamente la tendencia y variabilidad de los datos.

  6. Diagrama de lineas Es un gráfico que muestra información que está conectada de alguna manera (como el cambio a lo largo del tiempo)

  7. Pictograma Símbolo gráfico que representa un objeto a través de la similitud gráfico-visual para transmitir su significado o el sonido de su nombre.

  8. Histograma Un diagrama de frecuencia univariado en el que rectángulos proporcionales en área a las frecuencias de clase se erigen en secciones del eje horizontal, el ancho de cada sección representa el intervalo de clase correspondiente de la variante.

  9. Diagrama de cajas

  10. Diagrama radial

  11. Ojiva Término que se aplica a menudo a los gráficos de distribuciones de frecuencia acumuladas. Esencialmente sinónimo de sigmoide, que es preferible Una descripción de una curva que tiene una forma de “S” alargada.

  12. Frecuencia La velocidad a la que algo sucede o se repite.

  13. Frecuencia relativa Si un experimento se puede repetir una gran cantidad de veces, n, y en r casos ocurre el evento A, entonces r / n se llama la frecuencia relativa de A.

  14. Proporción Una proporción es un tipo especial de razón en la que el denominador incluye el numerador. Un ejemplo es la proporción de muertes de hombres que serían muertes de hombres divididas por muertes de hombres más muertes de mujeres (es decir, la población total).

  15. Porcentaje

  16. Tasa (ratio) Una tasa es un número que expresa el tamaño relativo de otros dos números. El resultado de dividir un número X por otro número Y es la razón de X a Y.

  17. Coeficiente de disparidad (ODDS ratio) La razón de las probabilidades de una variable binaria en dos grupos de sujetos, por ejemplo, hombres y mujeres. Si los dos estados posibles de la variable se denominan “éxito” y “fracaso”, entonces la razón de probabilidades es una medida de las probabilidades de éxito en un grupo en relación con las del otro. Cuando las probabilidades de éxito en cada grupo son idénticas, la razón de probabilidades es igual a uno.

  18. Verosimilitud

  19. Probabilidad La probabilidad es el cálculo matemático que evalúa las posibilidades que existen de que una cosa suceda cuando interviene el azar.

  20. Distribución de probabilidad • Binomial • Uniforme discreta • Poisson • Hipergeometrica • Uniforme continua • Normal • Exponencial • Beta

  21. Tabla de contingencia Las tablas que surgen cuando las observaciones sobre una serie de variables categóricas se clasifican de forma cruzada. Las entradas en cada celda son el número de individuos con la combinación correspondiente de valores de variable. Las más comunes son tablas bidimensionales que involucran dos variables categóricas, un ejemplo de las cuales se muestra a continuación.

  22. Tabla cruzada

  23. Distribución marginal La distribución de probabilidad de una sola variable, o combinaciones de variables, en una distribución multivariante. Obtenido de la distribución multivariante mediante la integración sobre las otras variables.

  24. Distribución conjunta Esencialmente sinónimo de distribución multivariante, aunque se usa particularmente como una alternativa a la distribución bivariada cuando hay dos variables involucradas.

  25. Sumas de cuadrado La suma de cuadrados se emplea con el fin de efectuar una descomposición de la variabilidad total atribuible a la variable respuesta Y, en los diferentes componentes o factores controlados o manipulados por el investigador x, y la adición del error experimental, que constituye la fuente de variación que aglutina a todos los componentes no controlados dentro del modelo de clasificación experimental

  26. Estimación mínimo cuadrática

  27. Error cuadrático medio

  28. Covarianza El valor esperado del producto de las desviaciones de dos variables aleatorias, xey, de sus respectivas medias.

  29. Análisis de covarianza Originally used for an extension of the analysis of variance that allows for the possible effects of continuous concomitant variables (covariates) on the response variable, in addition to the effects of the factor or treatment variables. Usually assumed that covariates are unaffected by treatments and that their relationship to the response is linear. If such a relationship exists then inclusion of covariates in this way decreases the error mean square and hence increases the sensitivity of the F-tests used in assessing treatment differences. The term now appears to also be more generally used for almost any analysis seeking to assess the relationship between a response variable and a number of explanatory variables. See also parallelism in ANCOVA, generalized linear model and Johnson – Neyman technique.

  30. Regresión Técnica estadística de aplicación frecuente que sirve de base para estudiar y caracterizar un sistema de interés, mediante la formulación de un modelo matemático razonable de la relación entre una variable de respuesta, y, y un conjunto de q variables explicativas.

  31. Correlación Un término general para la interdependencia entre pares de variables.

• Pearson El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.

• Spearman El coeficiente de correlación de Spearman es una medida no paramétrica de la correlación de rango (dependencia estadística del ranking entre dos variables). Se utiliza principalmente para el análisis de datos.

  1. Modelo lineal

  2. Modelo no lineal

  3. Factor Término utilizado de diversas formas en estadística, pero más comúnmente para referirse a una variable categórica, con un pequeño número de niveles, que se está investigando en un experimento como posible fuente de variación. Esencialmente simplemente una variable explicativa categórica.

  4. Variable respuesta La variable de importancia primordial en las investigaciones ya que el principal objetivo suele ser estudiar los efectos del tratamiento y / u otras variables explicativas sobre esta variable y proporcionar modelos adecuados para la relación entre ésta y las variables explicativas.

  5. Mineria de datos La extracción no trivial de información implícita, previamente desconocida y potencialmente útil de los datos, particularmente los datos de alta dimensión, mediante el reconocimiento de patrones, la inteligencia artificial y el aprendizaje automático, y la presentación de la información extraída en una forma que sea fácilmente comprensible para los humanos. En la actualidad, se realizan a menudo descubrimientos biológicos importantes combinando métodos de extracción de datos con técnicas de laboratorio tradicionales; un ejemplo es el descubrimiento de nuevas regiones reguladoras para genes de choque térmico en C. elegans, obtenido mediante la extracción de grandes cantidades de expresión génica y datos de secuencia para patrones significativos.

  6. Ciencia de datos Término destinado a unificar estadísticas, análisis de datos y métodos relacionados. Consta de tres fases, diseño de datos, recopilación de datos y análisis de datos.

  7. Machine learning Término que literalmente significa la capacidad de una máquina para reconocer patrones que se han producido repetidamente y mejorar su rendimiento basándose en experiencias pasadas. En esencia, esto se reduce al estudio de algoritmos informáticos que mejoran automáticamente a través de la experiencia. Se dice que un programa de computadora aprende de la experiencia E con respecto a alguna clase de tareas T y medida de desempeño P, si su desempeño en tareas en T, medido por P, mejora con la experiencia E. El aprendizaje automático es inherentemente un campo multidisciplinario que usa resultados y técnicas de probabilidad y estadística, teoría de la complejidad computacional, teoría de la información, etc. está estrechamente relacionado con el reconocimiento de patrones y la inteligencia artificial y se utiliza ampliamente en la minería de datos moderna.

  8. Big data

  9. Efecto Generalmente se utiliza para el cambio en una variable de respuesta producido por un cambio en una o más variables explicativas o factoriales.

  10. Contraste Una función lineal de parámetros o estadísticas en la que los coeficientes suman cero. Se encuentra con mayor frecuencia en el contexto del análisis de varianza, en el que los coeficientes suman cero (a veces llamado codificación de efectos). Por ejemplo, en una aplicación que involucra, digamos, tres grupos de tratamiento (con medias xT1, xT2 y xT3) y un grupo de control (con media xC), el siguiente es el contraste para comparar la media del grupo de control con la media de los grupos de tratamiento.

  11. Interacción de factores

  12. Dato faltante (Missing data) Observaciones que fueron planificadas y que faltan.

  13. Dato atípico

  14. Hipótesis nula En general, este término se relaciona con una hipótesis particular bajo prueba, a diferencia de las hipótesis alternativas que están bajo consideración. Por tanto, es la hipótesis la que determina la probabilidad del error de tipo I. En algunos contextos, sin embargo, el término se restringe a una hipótesis bajo prueba de “no hay diferencia”.

  15. Hipótesis alterna En general, una hipótesis alternativa a la que se está probando; la hipótesis nula. En algunos contextos, sin embargo, se le da el significado de una hipótesis bajo prueba donde el efecto no es igual a cero.

  16. Significación estadística

  17. Estadístico de prueba Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si puede rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera bajo la hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.

  18. P valor El valor máximo de (generalmente) una curva de respuesta a la dosis. A menudo se utiliza como una medida de respuesta adicional (o alternativa) al área bajo la curva.

  19. Diagrama de densidad

  20. Dependencia espacial Dependencia espacial se refiere a la relación entre los datos georreferenciados debido a la naturaleza de la variable bajo estudio y el tamaño, forma y configuración de las unidades espaciales.

  21. Dependencia temporal La dependencia temporal es una característica de muchos datos de serie temporal que indica que el pasado afecta al futuro. Dicho en otras palabras, el valor de una variable recogida este año dependerá en gran medida del valor del dato de dicha variable el año pasado.

  22. Técnica de muestreo Las técnicas de muestreo son un conjunto de técnicas estadísticas que estudian la forma de seleccionar una muestra representativa de la población, es decir, que represente lo más fielmente posible a la población a la que se pretende extrapolar o inferir los resultados de la investigación, asumiendo un error mesurable y determinado.

• Aleatorio simple Se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser escogido para formar parte de la muestra. Una vez censado el marco de la población, se asigna un número a cada individuo o elemento y se elige aleatoriamente. La aleatorización puede realizarse mediante listas de números aleatorios generados por ordenador, aplicándolas para escoger de la población los individuos o sujetos que coincidan con los números obtenidos.

• Sistemático El muestreo sistemático es muy similar al muestreo aleatorio simple. La diferencia se obtiene en que en este tipo de muestreo se divide el total de la población de estudio entre el tamaño de la muestra, obteniendo una constante de muestreo (k).

• Estratificado En este tipo de muestreo la población de estudio se divide en subgrupos o estratos, escogiendo posteriormente una muestra al azar de cada estrato. Esta división suele realizarse según una característica que pueda influir sobre los resultados del estudio. Por ejemplo, en el caso de seleccionar una muestra para evaluar la altura, dada la heterogeneidad entre hombres y mujeres, la variable de género podría ser una variable de estratificación. Si la estratificación se realiza respecto un carácter se denomina muestreo estratificado simple, y si se realiza respecto dos o más características se denomina muestreo estratificado compuesto

  1. Muestreo espacial El muestreo espacial es una parte del proceso de la digitalización de una imagen. Consiste en escoger muestras representativas de un modelo (por ejemplo una fotografía para un posterior procesado)

  2. Efecto borde Este término se suele usar para referirse a los límites creados entre un ambiente natural y otro creado artificialmente por los seres humanos, como la tala de bosques. Los efectos de borde crean fragmentación de hábitats.

  3. Efecto de competición

  4. Efecto de solapamiento

  5. Diseño experimental La disposición y los procedimientos utilizados en un estudio experimental. Algunos principios generales de un buen diseño son la simplicidad, evitar sesgos, el uso de la asignación aleatoria para formar grupos de tratamiento, la replicación y el tamaño de muestra adecuado.

  6. Diseño quasiexperimental

  7. Estudio observacional Los estudios observacionales permiten adecuarse a las necesidades concretas de cada investigación. Sin embargo, a grandes rasgos, un estudio observacional siempre va a poder ubicarse dentro de una de las dos categorías principales.

  8. Control • Absoluto • Positivo • Negativo

  9. Unidad experimental Es el pedazo de material a la cual se le aplica el tratamiento. La unidad experimental puede ser un animal, 10 pollos de corral, media hora, etc.

  10. Unidad de observación Es aquella fracción de la unidad experimental sobre la cual se mide el efecto del tratamiento. Hay que aclarar que el muestreo de observaciones no implica replicación. Por ejemplo, si a 50 gallinas se les enjaula juntas y se les alimenta con la misma ración, las UE son las 50 gallinas. Se necesitan otras jaulas de 50 gallinas antes de poder medir la variación entre unidades tratadas en forma semejante. Esto es cierto aún si una medida como el peso del cuerpo se mide en cada gallina en forma individual.

Cuando se aplica un tipo de alimento (tratamiento) a unos cerdos de una porqueriza, esta sería la UE; sin embargo, las observaciones de aumento de peso se hacen a cada animal, por lo cual los animales son las UO.

En algunos casos las UE y las UO son iguales pero en otros no.

  1. Índice de dispersión Estadística que se utiliza con más frecuencia para evaluar si una variable aleatoria tiene o no una distribución de Poisson.