Interpretar -en tanto búsqueda/construcción de problemas- los datos, comprenderlo y buscar la explicación del mismo para la solución de lo que planteamos como problema (da la evidencia, el peso para la investigación “x”; da “vida” a la investigación)
El concepto es un modelo mental (abstracto) que hace referencia a algo existente.
La variable es simplemente una manera en la que el concepto se manifiesta en el mundo, puede tomar diversos valores o estados. (¿?)
El indicador concretiza más a la variable para poder ser medida o determinar su estado
El valor se obtiene mediante la medición o el conteo El estado se obtiene mediante la observación y clasificación.
Texto (ordena la tabla y es pasivo, responde a una categoría)
Categóricas o cualitativas (desviación tií) (estados) (cualidad) (organizar, sistematizar, juntas los tipo texto en tanto y tanto)
B1) Escala Nominal: No orden en la relación (x, y, z); de acuerdo al número de estados la escala nominal puede ser: dicotómica (dos categorías u opciones) o politómica (más de dos). Los gráficos básicos que se pueden realizar para las variables nominales son los diagramas de barras y los gráficos de sectores.
B2) Escala Ordinal: Potencialidad de ser ordenados no numéricamente. Para este tipo de datos también se pueden utilizar los diagramas de barras y los gráficos de sectores, pero existe otro gráfico que resume mejor una variable ordinal, el cual es diagrama de cajas o boxplot
Númericas o cuantitativas (dispersión típica) (magnitudes) (numéricos) (operaciones aritmeticas)
C1) Escala discreta: Conteo (número de hijos, etc) (numéros enteros)
C2) Escala continua: Medición (temperatura, peso, etc.) (números enteros o fracciones)
Hay dos niveles de medición (¿cuál es su relación con las escalas discreta y continua?): de intervalo y de razón. La diferencia entre ambas está en el significado del cero; para las escalas de (A) intervalo, el cero es un valor arbitrario, mientras que para las de (B) razón significa la ausencia de la cantidad. Generalmente, los textos (como Hernández, 2012) ejemplifican una de intervalo con la temperatura en centígrados donde el cero no es la ausencia de temperatura. Las de razón son más comunes y se observan en número de partidos políticos por legislatura, porcentajes de votos hacia un candidato o niveles de participación electoral (tiene sentido hablar de cero partidos, cero votos o de 0% de participación cuando nadie asiste a las urnas).
Escala de medición
El desarrollo de los problemas (exploración) depende de la escala
Una variable puede tener distintas escalas = depende del investigador y el cómo le sirva a su investigación
Según el diseño o la forma en que se recopilan:
(A) Los datos de series de tiempo o cronológicos son aquellos que poseen una misma unidad de análisis que se recogen en distintos puntos en el tiempo. Así, por ejemplo, las cifras de participación electoral (medida como porcentaje de votos totales entre personas empadronadas) en Costa Rica constituirían una serie de tiempo
(B) Los datos transversales, obtenidos para distintas unidades de análisis en un único punto en el tiempo. Una encuesta en la que distintas personas son entrevistadas una única vez durante un periodo determinado corresponde a un diseño transversal, al igual que una comparación de los porcentajes de participación electoral en los países centroamericanos en determinadas elecciones (una por país).
(C) Los datos de panel o longitudinales combinan datos transversales con series de tiempo. Pueden ser encuestas en las que existen distintas rondas de entrevistas y se repiten a las personas encuestadas. Asimismo, puede tenerse un diseño de este tipo para un análisis sobre participación electoral en distintos países centroamericanos a lo largo de varias elecciones para cada país
Según su naturaleza:
(A) EXPERIMENTAL, caracterizado por manipulación o asignación –aleatoria– de variables o tratamientos, de modo que los datos se generan en la investigación.
(B) OBSERVACIONAL, la información existe ya en el mundo social, la historia o la naturaleza, no es creada por los investigadores.
Para resolver una pregunta de investigación debe de incluirse en el análisis todo el universo o población y no una selección intencional de casos (si interesa analizar el desempeño económico de las democracias en desarrollo, deben considerarse todos los países disponibles, no únicamente aquellos de mayor relevancia internacional o aquellos más conocidos)
Si esta población es muy amplia para ser medida en su totalidad, resulta preferible extraer una muestra aleatoria de la población. LA IMPORTANCIA DE LA ELECCIÓN AL AZAR ES que permitirá realizar inferencias para cada población particular
- Parámetro: Es un valor desconocido que se quiere estimar mediante la inferencia estadística. Puede corresponder a una característica de la población o a un proceso o relación hipotética. Usualmente se denotan con una letra griega.
- Estimador: Corresponde a un cálculo o fórmula que se utiliza para aproximar o estimar el valor desconocido del parámetro con base en un conjunto de valores extraídos de la población y que conforman una muestra aleatoria (por ejemplo: la media, la desviación estándar, la mediana, el máximo, el mínimo, etc.). Para el cálculo del parámetro hay muchas fórmulas posibles, muchos estimadores. Esto se conoce por la teoría estadística matemática, la cual determina cuáles son los mejores estimadores según el ínteres de la investigación.
Para ejemplificar, supóngase que la población de interés está constituida por los habitantes del cantón de Montes de Oca en el año 2015. Con base en un procedimiento aleatorio se extrae una muestra de esta población. ES DE INTERÉS CONOCER EL PROMEDIO DE EDAD (μ) en esta población de Montes de Oca; este valor corresponde al parámetro y es desconocido. Basado en la muestra, SE PUEDE ESTIMAR EL μ VÍA MEDIAS e inferirlo para la población.
Insesgado: AAA, no comprendo :C página 18-19
Eficientes: Cuanto mayor sea su eficiencia, menor el error y más precisa es la estimación .
El error se refiere a la imprecisión en la estimación de los parámetros. Esta imprecisión de la estimación está directamente relacionada con cuán variable es el fenómeno.
Ejemplos:
Un laboratorista extrae sangre de una paciente para realizar ciertas pruebas clínicas, con unos cuantos miligramos tiene certidumbre de obtener una muestra precisa del total de los 5 litros de sangre presentes en el cuerpo humano. Se sabe que la sangre tiene escasa variabilidad en el cuerpo, es uniforme, y con un poco se puede inferir con confianza hacia la población total de sangre en dicha paciente.
Este es en torno a la precisión de los estimadores. El cálculo de la precisión se diferencia en tanto se trabaja con un PROMEDIO y en tanto se trabaja con un PORCENTAJE. (Esto no lo entendí bien,pág. 20-24)
Lo que se debe de establecer primero es una HIPÓTESIS NULA que es puesta a prueba, conjuntamente se establece una HIPÓTESIS ALTERNATIVA que es la negación explícita de la hipótesis nula.
Tras ello toca evaluar la evidencia, la cuál si es significativa estadísticamente implicaría el RECHAZADO LA HIPÓTESIS NULA.
Significancia: Implica la probabilidad aceptable de equivocarse al rechazar la hipótesis nula. Este nivel de significancia es definido a priori (y con cierta arbitrariedad, según sus críticos) y depende del campo de investigación en el que se trabaja.
Por otro lado, es posible obtener manualmente o por medios de paquetes estadísticos los valores de significancia alcanzados o valores p (p-value). Los valores p, que oscilan entre 0 y 1, indican la evidencia a favor de la hipótesis nula para determinada prueba, donde un mayor número se interpreta como más apoyo para la hipótesis nula. Si es un valor bajo (menor al nivel de significancia ), entonces se tenderá a rechazar la hipótesis nula, pues no existe evidencia estadística suficiente para aceptarla y se declara el resultado como “estadísticamente significativo”.
Para desarrollar pruebas se formaliza una hipótesis nula; esta hipótesis nula no necesariamente corresponde a la hipótesis teórica. El procedimiento consiste en probar la hipótesis nula para llegar a conclusiones teóricas por contradicción (es decir, se rechaza que el promedio es igual 55, entonces el sociólogo tiene razón al afirmar que la edad promedio no es 55).
Se escoge un nivel de significancia (puede ser del 0.05, 0.1 o el deseado). Con el valor p que se obtiene del paquete estadístico, se decide: (a) rechazar la hipótesis nula si el valor p es menor al nivel de significancia determinado; (b) no rechazar la hipótesis nula si el valor p obtenido es igual o mayor al nivel de significancia.
Se concluye sustantivamente según la decisión tomada respecto a la hipótesis nula.
En estos casos se está cuestionando sobre una variable métrica (de intervalo o razón): el ingreso, una nota otorgada al gobierno, una escala de satisfacción. Los promedios de estas variables se comparan entre dos grupos independientes, se codifican como variables categóricas binarias o dicotómicas. : hombres y mujeres, jóvenes y adultos, pobres y no pobres. (Análisis bivariado, categórica-numérica)
Para la comparación se emplea la prueba T (cuando la variable es paramétrica)
head: Da las 6 primeras variables
name: Dame los nombre de las variables con las que se trabaja
str : dime qué cosa se halla en cada columna
int: número entero
summary: Resumen estadístico