Los principales elementos de la serie de variaciones. Serie variacional. valores promedio. Desviación Estándar. error medio de la media aritmética

Serie de distribución estadística representan una disposición ordenada de unidades de la población estudiada en grupos de acuerdo con las características de agrupación.

Distinguir entre series de distribución atributiva y de variación.

Atributivo es una serie de distribución basada en características cualitativas. Caracteriza la composición de la población por diversas características esenciales.

Basado en un criterio cuantitativo, rango de variación de distribución. Consiste en la frecuencia (número) de variantes individuales o de cada grupo serie de variación... Estos números muestran cuán común diferentes opciones (valores característicos) en una serie de distribución. La suma de todas las frecuencias determina el tamaño de toda la población.

Los números de grupos se expresan en términos absolutos y relativos. En términos absolutos, se expresa por el número de unidades de la población en cada grupo seleccionado, y en términos relativos, en forma de participaciones, ponderaciones específicas presentadas como porcentaje del total.

Dependiendo de la naturaleza de la variación del rasgo, se distinguen las series de distribución de variación discreta y de intervalo. En una serie variacional discreta, las distribuciones de los grupos se componen de acuerdo con una característica que varía discretamente y solo toma valores enteros.

En la serie de variación de intervalo de la distribución, el atributo de agrupación que constituye la base de la agrupación puede tomar cualquier valor en un determinado intervalo.

La serie de variaciones consta de dos elementos: frecuencias y variaciones.

Opción el valor individual de la característica de la variable, que toma en la serie de distribución, se llama.

Frecuencia - este es el número de variantes individuales o cada grupo de la serie de variaciones. Si las frecuencias se expresan en fracciones de uno o como porcentaje del total, entonces se denominan frecuencias.

Las reglas y principios para construir series de distribución de intervalos se basan en reglas y principios similares para construir agrupaciones estadísticas. Si la serie de variación de intervalo de la distribución se traza con intervalos iguales, las frecuencias nos permiten juzgar el grado de llenado del intervalo con unidades de población. Para realizar un análisis comparativo del llenado de los intervalos, se determina un indicador que caracterizará la densidad de distribución.

Densidad de distribución es la relación entre el número de unidades de población y el ancho del intervalo.

Variacional se denominan series de distribución, construidas sobre una base cuantitativa. Cualquier serie de variación consta de dos elementos: opciones y frecuencias. Variantes se consideran los valores individuales del atributo, que toma en la serie de variación, es decir, el valor específico del atributo variable. Frecuencias - estos son los números de variantes individuales o cada grupo de la serie de variaciones, es decir, estos son números que muestran la frecuencia con la que ocurren ciertas variantes en la serie de distribución. La suma de todas las frecuencias determina el tamaño de toda la población, su volumen.

Frecuencias llamadas frecuencias, expresadas en fracciones de una unidad o como porcentaje del total. En consecuencia, la suma de las frecuencias es 1 o 100%.

Dependiendo de la naturaleza de la variación del rasgo, se distinguen las series de variación discreta y de intervalo.

Como sabe, la variación de características cuantitativas puede ser discreta (discontinua) o continua.

En el caso de variación discreta, la cantidad de una característica cuantitativa toma solo valores enteros. Por lo tanto, la serie de variación discreta caracteriza distribución de unidades de la población de forma discreta. Un ejemplo de una serie de variación discreta es la distribución de familias por el número de habitaciones en apartamentos individuales, que se muestra en la Tabla. 3.12.

La primera columna de la tabla muestra las variantes de la serie de variación discreta, la segunda, las frecuencias de la serie de variación, y la tercera, muestra las frecuencias.

En el caso de variación continua, el valor de una característica en unidades de la población puede tomar, dentro de ciertos límites, cualquier valor que difiera entre sí en una cantidad arbitrariamente pequeña. edificio serie de variación de intervalo es aconsejable, ante todo, con variación continua de la característica, y también si la variación discreta se manifiesta en límites amplios, es decir, el número de variantes de la característica discreta es suficientemente grande. Mesa 3.3 muestra una serie de variación de intervalo.

Representación gráfica de series de distribución

El análisis de las series de distribución se puede realizar a partir de su representación gráfica. Gobernado y gráficos circulares están construidos para mostrar la estructura de la población.

Las líneas como polígono, acumulativo, ojiva, histograma también se utilizan con diagramas. Se utiliza un polígono cuando se muestran series de variaciones discretas.

Polígono - una curva discontinua, se construye sobre la base de un sistema de coordenadas rectangulares, cuando los valores de la característica se trazan a lo largo del eje X y las frecuencias se trazan a lo largo del eje Y.

Puntos de conexión de curvas suaves es la densidad de distribución empírica.

Cumulata - una curva discontinua, construida sobre la base de un sistema de coordenadas rectangulares, cuando los valores de la característica se trazan a lo largo del eje X y las frecuencias acumuladas a lo largo del eje Y.

Para las filas discretas, los valores del atributo en sí se grafican en el eje, y para las filas de intervalo, la mitad de los intervalos.

Sobre la base de histogramas, es posible construir diagramas de frecuencias acumuladas con la posterior construcción de una función de distribución empírica integral.

Serie de distribución estadística - Se trata de una distribución ordenada de unidades de la población en grupos según una determinada característica variable.
Dependiendo de la característica subyacente a la formación de una serie de distribución, existen series de distribución atributiva y de variación.

La presencia de un rasgo común es la base para la formación de una población estadística, que es el resultado de la descripción o medición de rasgos comunes de los objetos de investigación.

El tema de estudio en estadística es signos cambiantes (variables) o signos estadísticos.

Tipos de características estadísticas.

Las series de distribución se denominan atributivasconstruido según criterios de calidad. Atributivo - Este es un cartel que tiene un nombre (por ejemplo, profesión: costurera, maestra, etc.).
Algunas distribuciones suelen elaborarse en forma de tablas. Mesa 2.8 muestra la serie de distribución atributiva.
Cuadro 2.8 - Distribución de los tipos de asistencia jurídica proporcionada por abogados a ciudadanos de una de las regiones de la Federación de Rusia.

Serie de variación Son los valores de la característica (o intervalos de valores) y sus frecuencias.
Las series variacionales son series de distribuciónconstruido sobre una base cuantitativa. Cualquier serie de variación consta de dos elementos: opciones y frecuencias.
Se consideran variantes los valores individuales de la característica que toma en la serie de variaciones.
Las frecuencias son el número de variantes individuales o de cada grupo de la serie de variaciones, es decir estos son números que muestran la frecuencia con la que ocurre una u otra variante en una serie de distribución. La suma de todas las frecuencias determina el número de toda la población, su volumen.
Las frecuencias son frecuencias expresadas en fracciones de uno o como porcentaje del total. En consecuencia, la suma de las frecuencias es 1 o 100%. La serie variacional permite estimar la forma de la ley de distribución utilizando datos reales.

Dependiendo de la naturaleza de la variación del rasgo, existen series de variación discreta y de intervalo.
En la tabla se da un ejemplo de una serie de variaciones discretas. 2.9.
Cuadro 2.9 - Distribución de familias por número de habitaciones ocupadas en apartamentos individuales en 1989 en la Federación de Rusia.

La primera columna de la tabla presenta las variantes de la serie de variación discreta, la segunda, las frecuencias de la serie de variación, la tercera, los indicadores de frecuencia.

Serie de variación

En la población general, se está investigando una determinada característica cuantitativa. Se extrae aleatoriamente un volumen de muestra norte, es decir, el número de elementos de muestra es norte... En la primera etapa del procesamiento estadístico, rango muestreo, es decir números de pedido x 1, x 2, ..., x n Ascendente. Cada valor observado x yollamado variante... Frecuencia m yo Es el número de observaciones del valor x yo en la muestra. Frecuencia relativa (frecuencia) w yoEs la relación de frecuencia m yoal tamaño de la muestra norte: .
Al estudiar la serie de variación, también se utilizan los conceptos de frecuencia acumulada y frecuencia acumulada. Permitir x algún número. Entonces la cantidad de opciones , cuyos valores son menores x, se llama frecuencia acumulada: para x i norte se llama frecuencia acumulada w i max.
Una característica se llama discretamente variada si sus valores individuales (variantes) difieren entre sí en algún valor finito (generalmente un número entero). La serie de variaciones de tal característica se llama discreta serie de variación.

Tabla 1. Vista general de la serie de frecuencias de variación discreta

Valores característicosx yo x 1 x 2 x n
Frecuenciasm yo m 1 m 2 m n

Una característica se denomina variación continua si sus valores difieren entre sí en una cantidad arbitrariamente pequeña, es decir, el atributo puede tomar cualquier valor en un intervalo determinado. Una serie de variación continua para tal característica se llama intervalo.

Cuadro 2. Vista general de la serie de frecuencias de variación de intervalo

Tabla 3. Imágenes gráficas de la serie de variaciones

FilaPolígono o histogramaFunción de distribución empírica
Discreto
Intervalo
Al observar los resultados de las observaciones, se determina cuántos valores de las opciones caen en cada intervalo específico. Se asume que cada intervalo pertenece a uno de sus extremos: o en todos los casos es a la izquierda (más a menudo), o en todos los casos es a la derecha, y las frecuencias o frecuencias muestran el número de variantes encerradas en los límites indicados. Diferencias a i - a i +1se llaman intervalos parciales. Para simplificar los cálculos posteriores, la serie de variación de intervalo se puede reemplazar por una convencionalmente discreta. En este caso, el valor mediano yo-ésimo intervalo se toma como variante x yo, y la frecuencia de intervalo correspondiente m yo - para la frecuencia de este intervalo.
Para la representación gráfica de series de variación, se utilizan con mayor frecuencia el polígono, el histograma, la curva acumulativa y la función de distribución empírica.

Mesa 2.3 (Agrupación de la población de Rusia según el tamaño del ingreso per cápita promedio en abril de 1994) se presenta serie de variación de intervalo.
Es conveniente analizar las series de distribución con la ayuda de una imagen gráfica, lo que permite juzgar la forma de la distribución. Una idea clara de la naturaleza del cambio en las frecuencias de la serie de variación viene dada por polígono e histograma.
El polígono se usa cuando se muestran series de variaciones discretas.
Representemos, por ejemplo, gráficamente la distribución del parque de viviendas por tipo de apartamentos (Tabla 2.10).
Tabla 2.10 - Distribución del parque de viviendas del área urbana por tipo de apartamentos (números arbitrarios).


Figura: Polígono de asignación de stock de vivienda


En el eje de ordenadas, no solo se pueden representar los valores de las frecuencias, sino también las frecuencias de la serie de variación.
El histograma se toma para la imagen de la serie de variación de intervalo.... Al construir un histograma, los valores de los intervalos se trazan en el eje de abscisas y las frecuencias se representan mediante rectángulos construidos en los intervalos correspondientes. La altura de las barras en el caso de un espaciado igual debe ser proporcional a las frecuencias. Un histograma es un gráfico en el que se muestra una serie en forma de barras adyacentes entre sí.
Representemos gráficamente la serie de distribución de intervalos dada en la tabla. 2.11.
Tabla 2.11 - Distribución de familias por tamaño de espacio habitable por persona (cifras arbitrarias).
N p / p Grupos de familias según el tamaño del espacio habitable por persona Número de familias con un tamaño determinado de espacio habitable Número acumulado de familias
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Figura: 2.2. Histograma de la distribución de familias por tamaño de espacio habitable por persona


Usando los datos de la serie acumulada (Tabla 2.11), construimos distribución acumulativa.


Figura: 2.3. La distribución acumulada de familias según el tamaño del espacio habitable por persona


La representación de la serie de variación en forma de acumulados es especialmente eficaz para series de variación, cuyas frecuencias se expresan en fracciones o porcentajes a la suma de las frecuencias de la serie.
Si cambiamos los ejes al representar gráficamente la serie de variación en forma de acumulados, obtenemos ojiva... En la Fig. 2.4 muestra la ojiva construida sobre la base de los datos de la Tabla. 2.11.
Un histograma se puede convertir en un polígono de distribución encontrando los puntos medios de los lados de los rectángulos y luego conectando estos puntos con líneas rectas. El polígono de distribución resultante se muestra en la Fig. 2.2 con una línea de puntos.
Al construir un histograma de la distribución de la serie de variación con intervalos desiguales a lo largo del eje de ordenadas, no se trazan las frecuencias, sino la densidad de la distribución de características en los intervalos correspondientes.
La densidad de distribución es la frecuencia calculada por ancho de intervalo unitario, es decir cuántas unidades en cada grupo hay por unidad del intervalo. En la tabla se presenta un ejemplo de cálculo de la densidad de distribución. 2.12.
Cuadro 2.12 - Distribución de empresas por número de empleados (números condicionales)
N p / p Grupos de empresas por número de empleados, personas Numero de empresas Tamaño del intervalo, personas Densidad de distribución
Y 1 2 3=1/2
1 Hasta 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Para la representación gráfica de la serie de variación también se puede utilizar curva acumulativa... Con la ayuda de acumulados (curva de suma), se muestra una serie de frecuencias acumuladas. Las frecuencias acumuladas se determinan sumando secuencialmente las frecuencias por grupos y muestran cuántas unidades de la población tienen un valor de característica no mayor que el valor considerado.


Figura: 2.4. Rango de distribución de las familias según el tamaño del espacio habitable por persona

Al construir los acumulados de la serie de variación de intervalo, las variantes de fila se trazan a lo largo del eje de abscisas y las frecuencias acumuladas a lo largo del eje de ordenadas.

Como resultado de dominar este capítulo, el estudiante debe: saber

  • indicadores de variación y su relación;
  • leyes básicas de distribución de características;
  • la esencia de los criterios de consentimiento; ser capaz de
  • calcular indicadores de variación y criterios de bondad de ajuste;
  • definir características de distribuciones;
  • evaluar las principales características numéricas de las series de distribución estadística;

propio

  • métodos de análisis estadístico de series de distribución;
  • fundamentos del análisis de varianza;
  • métodos para verificar el cumplimiento de las series de distribución estadística con las leyes básicas de distribución.

Indicadores de variación

En el estudio estadístico de las características de diversos agregados estadísticos, es de gran interés estudiar la variación del atributo de las unidades estadísticas individuales de la población, así como la naturaleza de la distribución de unidades para este atributo. Variación - estas son diferencias en los valores individuales de un rasgo en unidades de la población estudiada. El estudio de la variación es de gran importancia práctica. Por el grado de variación, se pueden juzgar los límites de la variación de un rasgo, la homogeneidad de la población para un atributo dado, la tipicidad del promedio, la relación de los factores que determinan la variación. Los indicadores de variación se utilizan para caracterizar y ordenar poblaciones estadísticas.

Los resultados del resumen y agrupamiento de los materiales de observación estadística, elaborados en forma de series de distribución estadística, representan una distribución ordenada de unidades de la población estudiada en grupos según el atributo de agrupamiento (variable). Si se toma una característica cualitativa como base para la agrupación, dicha serie de distribución se llama atributivo (distribución por profesión, género, color, etc.). Si una serie de distribución se construye sobre una base cuantitativa, entonces dicha serie se llama variacional (distribución por altura, peso, talla salario etc.). Construir una serie de variación significa ordenar la distribución cuantitativa de las unidades de población según los valores del atributo, calcular el número de unidades de población con estos valores (frecuencia) y elaborar los resultados en una tabla.

En lugar de la frecuencia de la variante, es posible aplicar su relación al volumen total de observaciones, que se denomina frecuencia (frecuencia relativa).

Hay dos tipos de series de variación: discretas e intervaladas. Serie discreta- es una serie de variación basada en características con cambio discontinuo (características discretas). Estos últimos incluyen el número de empleados en la empresa, el nivel salarial, el número de hijos en la familia, etc. Una serie de variación discreta es una tabla que consta de dos gráficos. La primera columna indica el valor específico de la característica y la segunda, el número de unidades de la población con un valor específico de la característica. Si el atributo tiene un cambio continuo (la cantidad de ingresos, experiencia laboral, el costo de los activos fijos de la empresa, etc., que, dentro de ciertos límites, puede tomar cualquier valor), entonces para este atributo es posible construir serie de variación de intervalo. Al construir una serie de variación de intervalo, la tabla también tiene dos columnas. El primero indica el valor del atributo en el intervalo "desde - hasta" (opciones), el segundo - el número de unidades incluidas en el intervalo (frecuencia). Frecuencia (tasa de repetición): el número de repeticiones de una variante separada de los valores de los atributos. Los intervalos se pueden cerrar y abrir. Los intervalos cerrados están limitados en ambos lados, es decir tener un borde tanto inferior ("desde") como superior ("hasta"). Los intervalos abiertos tienen cualquier borde: el superior o el inferior. Si las opciones están dispuestas en orden ascendente o descendente, las filas se denominan clasificado.

Para las series de variación, hay dos tipos de opciones de respuesta de frecuencia: frecuencia acumulada y frecuencia acumulada. La frecuencia acumulada muestra cuántas observaciones tomó el valor de la característica en valores menores que el especificado. La frecuencia acumulada se determina sumando los valores de la frecuencia del atributo para este grupo con todas las frecuencias de los grupos anteriores. La frecuencia acumulada caracteriza la proporción de unidades de observación para las cuales los valores del rasgo no exceden el límite superior del grupo de días. Así, la frecuencia acumulada muestra el peso específico de la variante en el agregado, teniendo un valor no mayor al dado. Frecuencia, frecuencia, densidad absoluta y relativa, frecuencia acumulada y frecuencia son características de la magnitud de la variante.

Las variaciones en el atributo de las unidades estadísticas de la población, así como la naturaleza de la distribución, se estudian utilizando indicadores y características de la serie de variación, que incluyen el nivel promedio de la serie, la desviación lineal promedio, la desviación estándar, la varianza. , los coeficientes de oscilación, variación, asimetría, curtosis, etc.

Los valores promedio se utilizan para caracterizar el centro de distribución. El promedio es una característica estadística generalizante en la que se cuantifica el nivel típico del rasgo que poseen los miembros de la población estudiada. Sin embargo, los casos de coincidencia de las medias aritméticas son posibles con una naturaleza diferente de la distribución, por lo que, a medida que las características estadísticas de la serie de variación, se calculan los llamados promedios estructurales - moda, mediana, así como cuantiles que dividen la distribución de series en partes iguales (cuartiles, deciles, percentiles, etc.)).

Moda - este es el valor de la característica, que ocurre en la serie de distribución con más frecuencia que sus otros valores. Para series discretas, esta es la opción con la frecuencia más alta. En series de variación de intervalo, para determinar la moda, es necesario determinar en primer lugar el intervalo en el que se encuentra, el llamado intervalo modal. En una serie de variación con intervalos iguales, el intervalo modal está determinado por la frecuencia más alta, en series con intervalos desiguales, pero la densidad de distribución más alta. Luego, para determinar el modo en filas con intervalos iguales, use la fórmula

donde Mo es el valor del modo; x Mo es el límite inferior del intervalo modal; h - el ancho del intervalo modal; / Mo es la frecuencia del intervalo modal; / Mo j es la frecuencia del intervalo premodal; / Mo + 1 es la frecuencia del intervalo post-modal, y para una serie con intervalos desiguales en esta fórmula de cálculo en lugar de las frecuencias / Mo, / Mo, / Mo, se deben usar densidades de distribución Mente 0 _| , Mente 0> UMo + "

Si hay un solo modo, entonces la distribución de probabilidad de la variable aleatoria se llama unimodal; si hay más de un modo, se llama multimodal (polimodal, multimodal), en el caso de dos modos - bimodal. Por regla general, la multimodalidad indica que la distribución estudiada no obedece a la ley distribución normal... Para poblaciones homogéneas, por regla general, las distribuciones unimodales son características. Multi-vértice también indica la heterogeneidad de la población estudiada. La aparición de dos o más vértices hace necesario reagrupar los datos para seleccionar grupos más homogéneos.

En una serie de variación de intervalo, el modo se puede determinar gráficamente usando un histograma. Para ello, se dibujan dos líneas que se cruzan desde los puntos superiores de la columna más alta del histograma hasta los puntos superiores de dos columnas adyacentes. Luego, desde el punto de su intersección, se baja una perpendicular sobre el eje de abscisas. El valor de la característica en el eje de abscisas correspondiente a la perpendicular es la moda. En muchos casos, al caracterizar una población, se prefiere la moda a la media aritmética como indicador generalizado.

Mediana - este es el significado central de la característica; lo posee el miembro central de la serie de distribución clasificada. En series discretas, para encontrar el valor de la mediana, primero se determina su número ordinal. Para ello, con un número impar de unidades, se suma uno a la suma de todas las frecuencias, el número se divide por dos. Si el número de unidades es par, habrá dos unidades medianas en la serie, por lo que en este caso la mediana se determina como el promedio de las dos unidades medianas. Por tanto, la mediana en una serie de variación discreta es el valor que divide la serie en dos partes que contienen el mismo número de opciones.

En la serie de intervalos, después de determinar el número ordinal de la mediana, el intervalo medial se encuentra por las frecuencias acumuladas (partes), y luego, usando la fórmula para calcular la mediana, se determina el valor de la mediana en sí:

donde Me es el valor mediano; x Yo - borde inferior del intervalo mediano; h - el ancho del intervalo mediano; - la suma de las frecuencias de la serie de distribución; / D - frecuencia acumulada del intervalo pre-mediano; / Me es la frecuencia del intervalo mediano.

La mediana se puede encontrar gráficamente usando el acumulado. Para ello, en la escala de frecuencias acumuladas (frecuencias) acumula desde el punto correspondiente al número ordinal de la mediana, se traza una recta paralela al eje de abscisas hasta que se interseca con el acumulado. Además, desde el punto de intersección de la línea recta especificada con el acumulado, se baja una perpendicular sobre el eje de abscisas. El valor de una característica en el eje de abscisas correspondiente a la ordenada dibujada (perpendicular) es la mediana.

La mediana se caracteriza por las siguientes propiedades.

  • 1. No depende de aquellos valores de la característica que se ubican a ambos lados de la misma.
  • 2. Tiene la propiedad de minimidad, que consiste en que la suma de las desviaciones absolutas de los valores de los atributos de la mediana es valor mínimo en comparación con la desviación de los valores de la característica de cualquier otro valor.
  • 3. Cuando se combinan dos distribuciones con medianas conocidas, es imposible predecir de antemano el valor de la mediana de la nueva distribución.

Estas propiedades de la mediana se utilizan ampliamente al diseñar la ubicación de los puntos de espera: escuelas, clínicas, estaciones de servicio, fuentes de agua, etc. Por ejemplo, si se planea construir un policlínico en un determinado barrio de la ciudad, entonces es más conveniente ubicarlo en un punto del barrio que divida por la mitad no la longitud del barrio, sino el número de habitantes.

La relación de la moda, la mediana y la media aritmética indica la naturaleza de la distribución de la característica en el agregado, le permite evaluar la simetría de la distribución. Si x Yo, entonces hay una asimetría del lado derecho de la fila. Con una distribución normal x - Yo - Mo.

K. Alineación basada en Pearson diferentes tipos curvas determinaron que para distribuciones moderadamente asimétricas, las siguientes relaciones aproximadas entre la media aritmética, la mediana y la moda son válidas:

donde Me es el valor mediano; Mo es el significado de moda; x aritmo: el valor de la media aritmética.

Si es necesario estudiar la estructura de la serie de variación con más detalle, se calculan los valores de la característica, de forma similar a la mediana. Estos valores de rasgos dividen todas las unidades de distribución en números iguales, se denominan cuantiles o gradientes. Los cuantiles se subdividen en cuartiles, deciles, percentiles, etc.

Los cuartiles dividen a la población en cuatro partes iguales. El primer cuartil se calcula de manera similar a la mediana utilizando la fórmula para calcular el primer cuartil, habiendo determinado previamente el primer intervalo trimestral:

donde Qi es el valor del primer cuartil; x Q ^ - borde inferior del primer intervalo cuartil; h - ancho del primer intervalo trimestral; /, - frecuencias de la serie de intervalos;

Frecuencia acumulada en el intervalo que precede al primer intervalo cuartil; Jq (es la frecuencia del primer intervalo cuartil.

El primer cuartil muestra que el 25% de las unidades de población son menores que su valor y el 75%, más. El segundo cuartil es igual a la mediana, es decir Q 2 \u003d Yo.

Por analogía, se calcula el tercer cuartil, habiendo encontrado previamente el tercer intervalo trimestral:

donde es el borde inferior del intervalo del tercer cuartil; h - el ancho del intervalo del tercer cuartil; /, - frecuencias de la serie de intervalos; / X "- frecuencia acumulada en el intervalo anterior

r

intervalo del tercer cuartil; Jq es la frecuencia del intervalo del tercer cuartil.

El tercer cuartil muestra que el 75% de las unidades de población son menores que su valor y el 25% - más.

La diferencia entre el tercer y el primer cuartil es el rango intercuartílico:

donde Aq es el valor del rango intercuartílico; Q 3 - valor del tercer cuartil; Q, es el valor del primer cuartil.

Los deciles dividen la totalidad en 10 partes iguales. Un decil es el valor de un rasgo en una serie de distribución, que corresponde a décimas del tamaño de la población. Por analogía con los cuartiles, el primer decil muestra que el 10% de las unidades de población son menores que su valor, y el 90% - más, y el noveno decil revela que el 90% de las unidades de población son menores que su valor, y el 10% - Más. La razón del noveno y primer deciles, es decir El coeficiente decil se utiliza ampliamente en el estudio de la diferenciación de ingresos para medir la relación entre los niveles de ingresos del 10% más rico y el 10% de la población más pobre. Los percentiles dividen una población clasificada en 100 partes iguales. El cálculo, el significado y la aplicación de los percentiles son similares a los deciles.

Los cuartiles, deciles y otras características estructurales se pueden definir gráficamente por analogía con la mediana utilizando acumulados.

Los siguientes indicadores se utilizan para medir el tamaño de la variación: rango de variación, desviación lineal media, desviación estándar, varianza. La magnitud del rango de variación depende completamente de la aleatoriedad de la distribución de los términos extremos de la serie. Este indicador es de interés en los casos en los que es importante conocer cuál es la amplitud de las fluctuaciones en los valores de una característica:

dónde R - el valor del rango de variación; x max es el valor máximo de la función; x tt - el valor mínimo de la característica.

Al calcular el rango de variación, no se tiene en cuenta el valor de la inmensa mayoría de los miembros de la serie, mientras que la variación se asocia a cada valor del miembro de la serie. Este inconveniente carece de indicadores, que son promedios obtenidos de las desviaciones de los valores individuales de un rasgo de su valor promedio: la desviación lineal promedio y la desviación estándar. Existe una relación directa entre las desviaciones individuales del promedio y la variabilidad de un rasgo en particular. Cuanto más fuerte sea la fluctuación, mayor será el tamaño absoluto de las desviaciones del promedio.

La desviación lineal promedio es la media aritmética de los valores absolutos de las desviaciones de las opciones individuales de su media.

Desviación lineal promedio para datos no agrupados

donde / pr es el valor de la desviación lineal promedio; x, - es el valor de la característica; x - pAGS - el número de unidades en la población.

Desviación lineal media de la serie agrupada

donde / vz - el valor de la desviación lineal promedio; x, es el valor de la característica; x - el valor promedio del rasgo para la población estudiada; / es el número de unidades de población en un grupo separado.

En este caso, los signos de las desviaciones se ignoran; de lo contrario, la suma de todas las desviaciones será igual a cero. La desviación lineal media, en función de la agrupación de los datos analizados, se calcula mediante varias fórmulas: para datos agrupados y no agregados. La desviación lineal promedio, debido a su convencionalidad, separada de otros indicadores de variación, se utiliza en la práctica con relativa poca frecuencia (en particular, para caracterizar el cumplimiento de las obligaciones contractuales de uniformidad de entrega; en el análisis de la comercio Exterior, composición de los trabajadores, ritmo de producción, calidad del producto, teniendo en cuenta características tecnológicas producción, etc.).

La desviación estándar caracteriza cuánto, en promedio, los valores individuales del rasgo en estudio se desvían del valor promedio para la población, y se expresa en las unidades del rasgo estudiado. La desviación estándar, al ser una de las principales medidas de variación, se usa ampliamente para evaluar los límites de variación de un rasgo en una población homogénea, para determinar los valores de las ordenadas de la curva de distribución normal, así como en los cálculos. relacionados con la organización de la observación de la muestra y el establecimiento de la precisión de las características de la muestra. La desviación de la raíz cuadrada media de los datos no gruesos se calcula de acuerdo con el siguiente algoritmo: cada desviación de la media se eleva al cuadrado, todos los cuadrados se suman, después de lo cual la suma de los cuadrados se divide por el número de miembros del serie y la raíz cuadrada se extrae del cociente:

donde Iip es el valor de la desviación estándar; Xj - valor de atributo; x - el valor medio de la característica para la población estudiada; pAGS - el número de unidades en la población.

Para los datos analizados agrupados, la desviación estándar de los datos se calcula utilizando la fórmula ponderada

dónde - el valor de la desviación estándar; Xj - valor de atributo; x - el valor promedio del rasgo para la población estudiada; f x - el número de unidades de población en un grupo particular.

La expresión debajo de la raíz en ambos casos se llama varianza. Por lo tanto, la varianza se calcula como el cuadrado medio de las desviaciones de los valores de las características de su media. Para valores no ponderados (simples) de la característica, la varianza se determina de la siguiente manera:

Para valores característicos ponderados

También hay una forma simplificada especial de calcular la varianza: en general

para valores característicos no ponderados (simples) para valores característicos ponderados
usando el método de conteo condicional cero

donde a 2 es el valor de la varianza; x, - es el valor de la característica; x -valor medio de la característica, h - valor de intervalo de grupo, t 1 - peso (A \u003d

La varianza tiene una expresión independiente en las estadísticas y es uno de los indicadores de variación más importantes. Se mide en unidades correspondientes al cuadrado de las unidades de medida del rasgo en estudio.

La dispersión tiene las siguientes propiedades.

  • 1. La varianza de la constante es cero.
  • 2. Una disminución en todos los valores de una característica por el mismo valor A no cambia la magnitud de la varianza. Esto significa que el cuadrado medio de las desviaciones se puede calcular no según los valores dados del atributo, sino según sus desviaciones de algún número constante.
  • 3. Disminución de todos los valores del atributo en k veces reduce la varianza en k 2 veces, y la desviación estándar - en k veces, es decir todos los valores del atributo se pueden dividir por algún número constante (digamos, por el valor del intervalo de la serie), calcular la desviación estándar y luego multiplicarla por un número constante.
  • 4. Si calcula el cuadrado medio de las desviaciones de cualquier valor Y en hasta cierto punto diferente de la media aritmética, entonces siempre será mayor que el cuadrado medio de las desviaciones, calculado a partir de la media aritmética. En este caso, el cuadrado medio de las desviaciones será mayor en una cantidad bastante definida, por el cuadrado de la diferencia entre la media y este valor tomado convencionalmente.

Una variación de una característica alternativa es la presencia o ausencia de la propiedad estudiada en las unidades de la población. Cuantitativamente, la variación de una característica alternativa se expresa mediante dos valores: la presencia de la propiedad estudiada en una unidad se denota con una unidad (1) y su ausencia con un cero (0). La proporción de unidades que tienen la propiedad en estudio se denota por P, y la proporción de unidades que no tienen esta propiedad, por GRAMO. Por lo tanto, la varianza de una característica alternativa es igual al producto de la fracción de unidades con esta propiedad (P) por la fracción de unidades que no tienen esta propiedad. (GRAMO). La mayor variación en la población se logra en los casos en que una parte de la población, que es el 50% del volumen total de la población, tiene una característica, y la otra parte de la población, también igual al 50%, no tiene esta característica, mientras que la varianza alcanza valor máximoigual a 0,25, es decir P \u003d 0,5, G \u003d 1 - P \u003d 1 - 0.5 \u003d 0.5 yo 2 \u003d 0.5 0.5 \u003d 0.25. El límite inferior de este indicador es cero, lo que corresponde a una situación en la que no existe variación agregada. Uso práctico la varianza de una característica alternativa consiste en construir intervalos de confianza al realizar una observación de muestra.

Cuanto menor sea la varianza y la desviación estándar, más homogénea será la población y más típica será la media. En la práctica de la estadística, a menudo es necesario comparar las variaciones de varias características. Por ejemplo, es interesante comparar variaciones en la edad de los trabajadores y sus calificaciones, tiempo de servicio y salarios, costo y beneficio, tiempo de servicio y productividad laboral, etc. Para tales comparaciones, los indicadores de la variabilidad absoluta de las características no son adecuados: es imposible comparar la variabilidad de la duración del servicio, expresada en años, con la variación de los salarios, expresada en rublos. Para realizar tales comparaciones, así como las comparaciones de las fluctuaciones de la misma característica en varias poblaciones con diferentes medias aritméticas, se utilizan los indicadores de variación: el coeficiente de oscilación, el coeficiente de variación lineal y el coeficiente de variación, que muestran el medida de fluctuaciones de valores extremos alrededor de la media.

Coeficiente de oscilación:

dónde V R - valor del coeficiente de oscilación; R - el valor del rango de variación; x -

Coeficiente de variación lineal ".

dónde Vj - el valor del coeficiente de variación lineal; YO -el valor de la desviación lineal media; x - el valor promedio del rasgo para la población estudiada.

El coeficiente de variación:

dónde V a - el valor del coeficiente de variación; a - el valor de la desviación estándar; x - el valor promedio del rasgo para la población estudiada.

El coeficiente de oscilación es el porcentaje del rango de variación respecto al valor medio del rasgo en estudio, y el coeficiente de variación lineal es la relación entre la desviación lineal media y el valor medio del rasgo en estudio, expresado como porcentaje. El coeficiente de variación es el porcentaje de la desviación estándar de la media del rasgo que se estudia. Como valor relativo, expresado como porcentaje, el coeficiente de variación se utiliza para comparar el grado de variación de varias características. El coeficiente de variación se utiliza para estimar la homogeneidad de la población estadística. Si el coeficiente de variación es menor al 33%, entonces la población estudiada es homogénea y la variación es débil. Si el coeficiente de variación es superior al 33%, entonces la población estudiada es heterogénea, la variación es fuerte y el valor promedio es atípico y no puede utilizarse como indicador generalizador de esta población. Además, los coeficientes de variación se utilizan para comparar la variabilidad de un rasgo en diferentes poblaciones. Por ejemplo, para evaluar la variación en la duración del servicio de los empleados en dos empresas. Que mas valor coeficiente, más significativa es la variación de la característica.

Con base en los cuartiles calculados, también es posible calcular el indicador relativo de variación trimestral usando la fórmula

donde Q 2 y

El rango intercuartílico está determinado por la fórmula

El sesgo de cuartiles se usa en lugar del rango para evitar las desventajas de usar valores extremos:

Para series de variación de intervalos desiguales, también se calcula la densidad de distribución. Se define como el cociente de dividir la frecuencia o frecuencia correspondiente por el valor del intervalo. En series desigualmente espaciadas, se utilizan densidades de distribución absolutas y relativas. La densidad absoluta de la distribución es la frecuencia por unidad de longitud del intervalo. La densidad relativa de distribución es la frecuencia por unidad de longitud del intervalo.

Todo lo anterior es cierto para las series de distribución, cuya ley de distribución está bien descrita por la ley de distribución normal o se acerca a ella.

El conjunto de valores del parámetro estudiado en un experimento u observación determinados, ordenados por magnitud (aumento o disminución), se denomina serie de variación.

Supongamos que medimos la presión arterial en diez pacientes para obtener un umbral de presión arterial superior: presión sistólica, es decir, solo un número.

Imaginemos que una serie de observaciones (población estadística) de presión sistólica arterial en 10 observaciones tiene la siguiente forma (Tabla 1):

tabla 1

Los componentes de la serie de variaciones se denominan variantes. Las variantes representan el valor numérico del rasgo en estudio.

La construcción de una serie de variación a partir de una población estadística de observaciones es solo el primer paso para comprender las características de toda la población. A continuación, es necesario determinar el nivel promedio del rasgo cuantitativo estudiado (nivel promedio de proteína en sangre, peso promedio de los pacientes, tiempo promedio de inicio de la anestesia, etc.)

El nivel promedio se mide utilizando criterios llamados promedios. El valor promedio es una característica numérica generalizante de cantidades cualitativamente homogéneas, que caracteriza con un número a toda la población estadística por un atributo. El valor promedio expresa lo general que es característico de un rasgo en un conjunto dado de observaciones.

Hay tres tipos de valores promedio de uso común: moda (), mediana () y media aritmética ().

Para determinar cualquier valor promedio, es necesario utilizar los resultados de las observaciones individuales, registrándolos en forma de una serie de variaciones (Tabla 2).

Moda - el valor que ocurre con mayor frecuencia en una serie de observaciones. En nuestro ejemplo, modo \u003d 120. Si no hay valores repetidos en la serie de variación, entonces se dice que el modo está ausente. Si se repiten varios valores la misma cantidad de veces, se toma como moda el más pequeño de ellos.

Mediana - un valor que divide la distribución en dos partes iguales, el valor central o mediano de una serie de observaciones, ordenadas en orden ascendente o descendente. Entonces, si hay 5 valores en la serie de variación, entonces su mediana es igual al tercer término de la serie de variación, si en la serie número par términos, la mediana es la media aritmética de sus dos observaciones centrales, es decir, si hay 10 observaciones seguidas, entonces la mediana es igual a la media aritmética de 5 y 6 observaciones. En nuestro ejemplo.

Tenga en cuenta una característica importante de la moda y la mediana: sus valores no se ven afectados por los valores numéricos de las opciones extremas.

Significado aritmetico calculado por la fórmula:

donde es el valor observado en la -ésima observación y es el número de observaciones. Para nuestro caso.

La media aritmética tiene tres propiedades:

El del medio ocupa la posición intermedia en la serie de variaciones. En una fila estrictamente simétrica.

El promedio es un valor generalizador y para las fluctuaciones aleatorias promedio, las diferencias en los datos individuales no son visibles. Refleja lo que es típico de todo el conjunto.

La suma de las desviaciones de todas las variantes del promedio es igual a cero :. Se indica la desviación de la variante de la media.

La serie de variación consta de una variante y las frecuencias correspondientes. De los diez valores obtenidos, el número 120 ocurrió 6 veces, 115 - 3 veces, 125 - 1 vez. Frecuencia (): el número absoluto de variantes individuales en el agregado, que indica cuántas veces opción dada en la serie de variaciones.

La serie de variación puede ser simple (frecuencia \u003d 1) o agrupada abreviada, 3-5 opciones. Se utiliza una serie simple para un pequeño número de observaciones (), una serie agrupada se utiliza para gran número observaciones ().

Nombre del parámetro Valor
Tema del artículo: Serie de variación
Categoría (categoría temática) Producción

Valores observados de una variable aleatoria x 1 , x 2 , …, x k son llamados opciones.

Frecuencia opciones x Normalmente se me llama el número n yo (yo=1,…,k), que muestra cuántas veces aparece esta variante en la muestra.

Frecuente (frecuencia relativa, acciones) opciones x yo (yo=1,…,k) se acostumbra llamar a la relación de su frecuencia n yo al tamaño de la muestra norte.

Las frecuencias y las frecuencias se llaman escamas.

Frecuencia acumulada es costumbre llamar al número de opciones, cuyos valores son menores que un determinado x:

Frecuencia acumulada se acostumbra llamar a la relación entre la frecuencia acumulada y el tamaño de la muestra:

La serie de variaciones(serie estadística): es habitual llamar a una secuencia de variantes escritas en orden ascendente y los pesos correspondientes.

La serie de variaciones debe ser discreto (muestra de valores de una variable aleatoria discreta) y continuo (intervalo)(muestra de valores de una variable aleatoria continua).

La serie de variaciones discretas es la siguiente:

Cuando el número de opciones es grande o la función es continua ( valor aleatorio puede tomar cualquier valor en un cierto intervalo) son intervalorango de variación.

Para construir una serie de variación de intervalo, realice agrupamientoopción - se dividen en intervalos separados:

El número de intervalos a veces está determinado por fórmulas de Sturges:

Luego se calcula el número de variantes que caen en cada intervalo - frecuencias n yo (o frecuente n yo/norte). Si la variante está en el borde del intervalo, entonces se adjunta al intervalo correcto.

La serie de variación de intervalo tiene la forma:

Opciones
Frecuencias

Función de distribución empírica (estadística)es costumbre llamar a una función cuyo valor en el punto x es igual a la frecuencia relativa de la variante que adquiere un valor menor que x (frecuencia acumulada para x):

Polígono de frecuenciasse llama línea discontinua, cuyos segmentos conectan puntos con coordenadas ( x 1 ; norte 1), (x 2 ; norte 2), …, (x k; n k). De manera similar construida polígono de frecuencia, que es un análogo estadístico del polígono de distribución.

Debe decirse que para una serie variacional continua se puede construir un polígono si los valores x 1 , x 2 , …, x k tomar los puntos medios de los intervalos.

Una serie de variación de intervalo generalmente se representa gráficamente usando histogramas.

gráfico de barras- una figura escalonada, que consta de rectángulos, cuyas bases son intervalos de longitud parcial h= x yo +1 – x yo, yo= 0,…,k-1, y las alturas son iguales a las frecuencias (o partes) de los intervalos n yo (w yo).

Cumulata(curva acumulada) - curva de frecuencias acumuladas (frecuencias). Xa serie discretael acumulado representa una línea discontinua que conecta los puntos o ,. Xa serie de intervalosel acumulado comienza desde el punto, cuya abscisa es igual al comienzo del primer intervalo, y la ordenada: la frecuencia acumulada (frecuencia) igual a cero. Otros puntos de esta línea poligonal corresponden a los extremos de los intervalos.

Serie variacional - concepto y tipos. Clasificación y características de la categoría "Serie variacional" 2017, 2018.

  • - Rango de distribución variacional

    Distribución de la facturación minorista Federación Rusa en 1995 por tipo de propiedad, millones de rublos Tipos de series de distribución Lección VIII. Serie de distribución Como resultado del procesamiento y sistematización de datos estadísticos primarios, ...


  • - Serie de variación

    La transformación más simple de las estadísticas es ordenarlas por magnitud. Tamaño de la muestra de la población general, ordenada en orden no decreciente de elementos, es decir , se llama serie de variación :. En el caso de que el volumen de observaciones ...


  • - Tarea 2. Serie de variación de intervalo

    1. Para una muestra dada, correspondiente a la variante de la tarea, construya una serie de variación de intervalo; construye un histograma y acumulativo (usa dos métodos: insertando un gráfico de Excel y el modo "Histograma" del paquete "Análisis de datos"). 2. Analice el histograma resultante. ....


  • - Realizar una serie de variaciones de variabilidad del rasgo de semillas de frijol u hojas de una planta de la misma edad. Revele los patrones de variabilidad del rasgo.

    Una población es una unidad estructural de una especie. Tamaño de la poblacion. Razones de las fluctuaciones en el tamaño de la población. La relación de individuos en poblaciones y entre diferentes poblaciones de la misma y diferentes especies. 1. Una característica importante de la especie es su dispersión en grupos, poblaciones en ...