#tablas de frecuencia de histograma Organización de datos numéricos (una sola variable) Una distribución es el nombre que se da a cualquier conjunto organizado de datos. Esta organización se puede hacer por medio de una tabla o de una gráfica. Cuando en estadística se habla de cómo los datos están distribuidos en una muestra o en una población nos referimos al conjunto de datos organizados en una tabla o en una gráfica. La idea que se persigue en la estadística descriptiva es dar una estructura a los datos que permita al lector identificar sus aspectos más importantes. A continuación se observará un proceso de organización creciente que permite distinguir mejor las características más sobresalientes de los datos numéricos. Generalmente cuando se recogen los datos de un estudio no tienen una estructura de presentación definida. En esta representación no hay mucho que se pueda decir de los datos.

##Ejercicio 1

setwd("~/Trabajos Estadistica")

##Puntuaciones en un examen de estadística de una clase de 50 estudiantes

Tabla 1:calificaciones de estudiantes

Datos ordenados Después se puede crear una tabla de datos ordenados donde se colocan los datos en orden (de menor a mayor o viceversa). Este primer orden permite identificar losvalores extremos, pero no ofrece mucha más información.

#Tabla de frecuencia ##Numero de intervalos

El número de intervalos depende del número total de observaciones. No debe haber más de 15 ni menos de 5. Si hay muy pocos se pierde mucha información. Si hay muchos no se ven las características más importantes. Pueden usarse algunas de las siguientes reglas además de la ya establecida:

Tabla 1:calificaciones de estudiantes

Tabla 1:calificaciones de estudiantes

##Ancho de los intervalos Todos los intervalos en una tabla de distribución de frecuencia deben tener el mismo ancho. Pero hay excepciones, especialmente en el último intervalo. En los informes estadísticos del College Board todos los intervalos van hasta 299, 399, etc, excepto por el último que va hasta 800. El programa de Excel se ajusta a esta posibilidad cuando construye las tablas de distribución de frecuencia y los histogramas. En estos casos indica que no se incluya el número final del último intervalo, pues Excel incluye todo lo que resta de la distribución en ese intervalo. El ancho del intervalo se define de formas diferentes dependiendo del autor generalmente se define como la diferencia entre el límite superior y el límite inferior del mismo intervalo. Si el investigador construye una tabla de distribución de frecuencia debe seguir los siguientes pasos: 1. Escoger el número de intervalos que desea tener en la tabla. 2. Determinar el ancho de los intervalos. Para determinar el ancho de cada intervalo, se que desean. Finalmente se redondea (al entero próximo mayor) el numero obtenido

Ejemplo: Se utilizará el ejemplo anterior de 50 datos El alcance va de 99 a 16 y vamos a considerar que el número de intervalos esta dado por la fórmula 1+3.3log(n). Sustituyendo en esta fórmula se obtiene: 1+3.3log(50) =6.6 y se redondea al siguiente entero que es 7. Por lo tanto usaremos 7 clases, por lo cual el ancho será igual a (99-16)/7 = 83/7 = 11.85 , el cual se redondea a 12 . ##Límites de los intervalos El conjunto de intervalos debe tener las siguientes propiedades: 1. Los intervalos deben incluir todas las observaciones 2. No debe haber solapamiento de intervalos 3. Elaborar los intervalos y encontrar las frecuencias absolutas(número de observaciones que se localizan en un determinado intervalo de clase) En el ejemplo anterior el primer intervalo de 16 a 28 y así sucesivamente se obtienen los otros limites del intervalo de clase agregando la anchura al límite superior del intervalo anterior

Tabla 1:calificaciones de estudiantes

##Límites de los intervalos Deben incluirse todas las observaciones. No debe haber solapamiento. Cada dato debe pertenecer exclusivamente a un intervalo o clase. Esto se logra describiendo el intervalo por medio de su valor mínimo y máximo. Estos valores se llaman el límite superior y el límite inferior del intervalo o clase.

Tabla 1:calificaciones de estudiantes

##El punto medio del intervalo A veces se le llama la marca del intervalo o clase. El punto medio es el punto que está a mitad de camino entre los límites de un intervalo. Se halla sumando los límites y dividiendo entre 2. Por ejemplo el punto medio de 20 ≤ x < 25 es 22.5. F. Distribución de frecuencia relativa (proporción y porcentaje) La frecuencia relativa (fr) se obtiene dividiendo las frecuencias de cada clase por el número total de observaciones. Este resultado se puede expresar como una proporcion o como un porcentaje.

Tabla 1:calificaciones de estudiantes

Por lo general se utiliza más la distribución de frecuencia relativa expresada enporcentajes que expresada en proporciones.

A menudo la frecuencia absoluta y la relativa aparecen en la misma tabla

Tabla 1:calificaciones de estudiantes

La distribución de frecuencia relativa es esencial si se quieren comparar datos dedos distribuciones diferentes.

Ejemplo: Comparar las frecuencias del estudio de los perros con las frecuencias de otro estudio sobre 45 perros que tienen dueño. Debido al número de perros la comparación no es clara, pues en un ejemplo hay 60 perros y en el otro hay 45 perros.

Tabla 1:calificaciones de estudiantes

Sin embargo, si se comparan los porcentajes se puede concluir que:

Tabla 1:calificaciones de estudiantes Puntaciones