#tablas de frecuencia de histograma Organización de datos numéricos (una sola variable) Una distribución es el nombre que se da a cualquier conjunto organizado de datos. Esta organización se puede hacer por medio de una tabla o de una gráfica. Cuando en estadÃstica se habla de cómo los datos están distribuidos en una muestra o en una población nos referimos al conjunto de datos organizados en una tabla o en una gráfica. La idea que se persigue en la estadÃstica descriptiva es dar una estructura a los datos que permita al lector identificar sus aspectos más importantes. A continuación se observará un proceso de organización creciente que permite distinguir mejor las caracterÃsticas más sobresalientes de los datos numéricos. Generalmente cuando se recogen los datos de un estudio no tienen una estructura de presentación definida. En esta representación no hay mucho que se pueda decir de los datos.
##Ejercicio 1
setwd("~/Trabajos Estadistica")
##Puntuaciones en un examen de estadÃstica de una clase de 50 estudiantes
Tabla 1:calificaciones de estudiantes
Datos ordenados Después se puede crear una tabla de datos ordenados donde se colocan los datos en orden (de menor a mayor o viceversa). Este primer orden permite identificar losvalores extremos, pero no ofrece mucha más información.
#Tabla de frecuencia ##Numero de intervalos
El número de intervalos depende del número total de observaciones. No debe haber más de 15 ni menos de 5. Si hay muy pocos se pierde mucha información. Si hay muchos no se ven las caracterÃsticas más importantes. Pueden usarse algunas de las siguientes reglas además de la ya establecida:
Tabla 1:calificaciones de estudiantes
Tabla 1:calificaciones de estudiantes
##Ancho de los intervalos Todos los intervalos en una tabla de distribución de frecuencia deben tener el mismo ancho. Pero hay excepciones, especialmente en el último intervalo. En los informes estadÃsticos del College Board todos los intervalos van hasta 299, 399, etc, excepto por el último que va hasta 800. El programa de Excel se ajusta a esta posibilidad cuando construye las tablas de distribución de frecuencia y los histogramas. En estos casos indica que no se incluya el número final del último intervalo, pues Excel incluye todo lo que resta de la distribución en ese intervalo. El ancho del intervalo se define de formas diferentes dependiendo del autor generalmente se define como la diferencia entre el lÃmite superior y el lÃmite inferior del mismo intervalo. Si el investigador construye una tabla de distribución de frecuencia debe seguir los siguientes pasos: 1. Escoger el número de intervalos que desea tener en la tabla. 2. Determinar el ancho de los intervalos. Para determinar el ancho de cada intervalo, se que desean. Finalmente se redondea (al entero próximo mayor) el numero obtenido
Ejemplo: Se utilizará el ejemplo anterior de 50 datos El alcance va de 99 a 16 y vamos a considerar que el número de intervalos esta dado por la fórmula 1+3.3log(n). Sustituyendo en esta fórmula se obtiene: 1+3.3log(50) =6.6 y se redondea al siguiente entero que es 7. Por lo tanto usaremos 7 clases, por lo cual el ancho será igual a (99-16)/7 = 83/7 = 11.85 , el cual se redondea a 12 . ##LÃmites de los intervalos El conjunto de intervalos debe tener las siguientes propiedades: 1. Los intervalos deben incluir todas las observaciones 2. No debe haber solapamiento de intervalos 3. Elaborar los intervalos y encontrar las frecuencias absolutas(número de observaciones que se localizan en un determinado intervalo de clase) En el ejemplo anterior el primer intervalo de 16 a 28 y asà sucesivamente se obtienen los otros limites del intervalo de clase agregando la anchura al lÃmite superior del intervalo anterior
Tabla 1:calificaciones de estudiantes
##LÃmites de los intervalos Deben incluirse todas las observaciones. No debe haber solapamiento. Cada dato debe pertenecer exclusivamente a un intervalo o clase. Esto se logra describiendo el intervalo por medio de su valor mÃnimo y máximo. Estos valores se llaman el lÃmite superior y el lÃmite inferior del intervalo o clase.
Tabla 1:calificaciones de estudiantes
##El punto medio del intervalo A veces se le llama la marca del intervalo o clase. El punto medio es el punto que está a mitad de camino entre los lÃmites de un intervalo. Se halla sumando los lÃmites y dividiendo entre 2. Por ejemplo el punto medio de 20 ≤ x < 25 es 22.5. F. Distribución de frecuencia relativa (proporción y porcentaje) La frecuencia relativa (fr) se obtiene dividiendo las frecuencias de cada clase por el número total de observaciones. Este resultado se puede expresar como una proporcion o como un porcentaje.
Tabla 1:calificaciones de estudiantes
Por lo general se utiliza más la distribución de frecuencia relativa expresada enporcentajes que expresada en proporciones.
A menudo la frecuencia absoluta y la relativa aparecen en la misma tabla
Tabla 1:calificaciones de estudiantes
La distribución de frecuencia relativa es esencial si se quieren comparar datos dedos distribuciones diferentes.
Ejemplo: Comparar las frecuencias del estudio de los perros con las frecuencias de otro estudio sobre 45 perros que tienen dueño. Debido al número de perros la comparación no es clara, pues en un ejemplo hay 60 perros y en el otro hay 45 perros.
Tabla 1:calificaciones de estudiantes
Sin embargo, si se comparan los porcentajes se puede concluir que:
Puntaciones