Los principales elementos de la serie de variaciones. Filas de variación. valores promedio. Desviación Estándar. error promedio de la media aritmética

Serie de distribución estadística representan una disposición ordenada de unidades de la población estudiada en grupos de acuerdo con un atributo de agrupación.

Existen series de distribución atributiva y de variación.

Atributivo es una serie de distribución construida según características cualitativas. Caracteriza la composición de la población según varios rasgos esenciales.

Construido sobre una base cuantitativa Serie de variación de distribución. Consiste en la frecuencia (número) de variantes individuales o de cada grupo. serie de variación. Estos números muestran cuán común varias opciones(valores de características) en la serie de distribución. La suma de todas las frecuencias determina el tamaño de toda la población.

Los números de grupos se expresan en valores absolutos y relativos. En términos absolutos, se expresa por el número de unidades de población en cada grupo seleccionado, y en términos relativos, en forma de participaciones, pesos específicos, presentados como porcentaje del total.

Dependiendo de la naturaleza de la variación del rasgo, se distinguen series de distribución de variación discreta y de intervalo. En una serie de distribución variacional discreta, los grupos se componen de acuerdo con una característica que varía discretamente y toma solo valores enteros.

En la serie de distribución de variación de intervalo, el atributo de agrupación, que forma la base de la agrupación, puede tomar cualquier valor en un intervalo determinado.

Las series de variación constan de dos elementos: frecuencias y variantes.

Variante nombrar un valor separado de un atributo variable, que toma en una serie de distribución.

Frecuencia- este es el número de variantes individuales o de cada grupo de la serie de variantes. Si las frecuencias se expresan en fracciones de una unidad o como porcentaje del total, entonces se llaman frecuencias.

Las reglas y principios para construir series de distribución de intervalos se construyen de acuerdo con reglas y principios similares para construir agrupaciones estadísticas. Si la serie de variación de intervalo de la distribución se construye con intervalos iguales, las frecuencias permiten juzgar el grado de llenado del intervalo con unidades de la población. Para análisis comparativo la ocupación de los intervalos determina el indicador que caracterizará la densidad de distribución.

Densidad de distribución es la relación entre el número de unidades de población y el ancho del intervalo.

variacional llamadas series de distribución construidas sobre una base cuantitativa. Cualquier serie variacional consta de dos elementos: variantes y frecuencias. Opciones se consideran los valores individuales del atributo que toma en la serie de variación, es decir, el valor específico del atributo variable. Frecuencias- estos son los números de opciones individuales o de cada grupo de la serie de variación, es decir, estos son números que muestran con qué frecuencia ocurren ciertas opciones en la serie de distribución. La suma de todas las frecuencias determina el tamaño de toda la población, su volumen.

Frecuencias Se llaman frecuencias, expresadas en fracciones de una unidad o como porcentaje del total. En consecuencia, la suma de las frecuencias es igual a 1 o 100%.

Dependiendo de la naturaleza de la variación del rasgo, se distinguen series de variación discretas y de intervalo.

Como se sabe, la variación de los rasgos cuantitativos puede ser discreta (discontinua) o continua.

En el caso de variación discreta, el valor de un atributo cuantitativo toma sólo valores enteros. Por eso, la serie de variación discreta caracteriza Distribución de unidades de población según una característica discreta. Un ejemplo de una serie variacional discreta es la distribución de familias por el número de habitaciones en apartamentos individuales, como se muestra en la tabla. 3.12.

La primera columna de la tabla presenta variantes de una serie variacional discreta, la segunda contiene las frecuencias de la serie variacional y la tercera muestra las frecuencias.

En el caso de variación continua, el valor del atributo en las unidades de la población puede tomar, dentro de ciertos límites, cualquier valor que difiera entre sí en una cantidad arbitrariamente pequeña. Edificio serie de variación de intervalo es conveniente, en primer lugar, en caso de una variación continua de un rasgo, y también si una variación discreta se manifiesta en un amplio rango, es decir, si el número de variantes de un rasgo discreto es suficientemente grande. En mesa. 3.3 muestra la serie de variación de intervalo.

Representación gráfica de series de distribución.

El análisis de las series de distribución se puede realizar a partir de su representación gráfica. Se crean gráficos de barras y circulares para mostrar la estructura de la población.

Se utiliza junto con diagramas y líneas como polígono, acumulado, ojiva e histograma. Cuando se muestran series variacionales discretas, se utiliza un polígono.

Polígono- una curva quebrada, se construye sobre la base de un sistema de coordenadas rectangular, cuando los valores del atributo se trazan a lo largo del eje X y las frecuencias a lo largo del eje Y.

Puntos de conexión de curva suave es la densidad de distribución empírica.

Recoger en montón- una curva discontinua, construida sobre la base de un sistema de coordenadas rectangular, cuando el eje X traza los valores de la característica y el eje Y muestra las frecuencias acumuladas.

Para series discretas, los valores del atributo en sí se trazan en el eje, y para series de intervalos, la mitad de los intervalos.

Sobre la base de histogramas, es posible construir diagramas de frecuencia acumulativa con la posterior construcción de una función de distribución empírica integral.

Serie de distribución estadística- se trata de una distribución ordenada de unidades de población en grupos según un determinado atributo variable.
Dependiendo del rasgo subyacente a la formación de una serie de distribución, existen series de distribución de atributos y variaciones.

La presencia de una característica común es la base para la formación de una población estadística, que son los resultados de una descripción o medición de características comunes de los objetos de estudio.

El tema de estudio en estadística son las características cambiantes (variables) o características estadísticas.

Tipos de características estadísticas.

Las series de distribución se denominan series de atributos. construido sobre terrenos de calidad. Atributivo- este es un letrero que tiene un nombre (por ejemplo, una profesión: costurera, maestra, etc.).
Es habitual disponer las series de distribución en forma de tablas. En mesa. 2.8 muestra una serie de distribución de atributos.
Cuadro 2.8 - Distribución de los tipos de asistencia jurídica brindada por abogados a ciudadanos de una de las regiones de la Federación de Rusia.

Serie de variación son valores de características (o rangos de valores) y sus frecuencias.
Las series de variación son series de distribución. construido sobre una base cuantitativa. Cualquier serie variacional consta de dos elementos: variantes y frecuencias.
Las variantes son valores individuales de una característica que adopta en una serie de variaciones.
Las frecuencias son el número de variantes individuales o de cada grupo de la serie de variaciones, es decir Estos son números que muestran con qué frecuencia ocurren ciertas opciones en una serie de distribución. La suma de todas las frecuencias determina el tamaño de toda la población, su volumen.
Se llaman frecuencias a las frecuencias, expresadas en fracciones de una unidad o como porcentaje del total. En consecuencia, la suma de las frecuencias es igual a 1 o 100%. La serie variacional nos permite evaluar la forma de la ley de distribución a partir de datos reales.

Dependiendo de la naturaleza de la variación del rasgo, existen series de variación discreta y de intervalo.
En la tabla se da un ejemplo de una serie variacional discreta. 2.9.
Cuadro 2.9 - Distribución de familias por número de habitaciones ocupadas en apartamentos individuales en 1989 en la Federación de Rusia.

La primera columna de la tabla presenta variantes de una serie variacional discreta, la segunda columna contiene las frecuencias de la serie variacional y la tercera columna contiene indicadores de frecuencia.

Serie de variación

En la población general se está investigando un determinado rasgo cuantitativo. De él se extrae aleatoriamente una muestra de volumen. norte, es decir, el número de elementos de la muestra es norte. En la primera etapa del procesamiento estadístico, rango muestras, es decir orden de números x 1 , x 2 , …, x n Ascendente. Cada valor observado xyo llamado opción. Frecuencia yo yo es el número de observaciones del valor xyo en la muestra. Frecuencia relativa (frecuencia) yo es la relación de frecuencia yo yo al tamaño de la muestra norte: .
Al estudiar una serie variacional, también se utilizan los conceptos de frecuencia acumulativa y frecuencia acumulativa. Dejar X algún número. Entonces el número de opciones , cuyos valores son menores X, se llama frecuencia acumulada: para x i norte se llama frecuencia acumulada w i max .
Un atributo se denomina discretamente variable si sus valores individuales (variantes) difieren entre sí en una cantidad finita (generalmente un número entero). La serie de variación de tal característica se llama discreta. serie variacional.

Tabla 1. Vista general de la serie variacional discreta de frecuencias.

Valores de característicasxyo x1 x2 xn
Frecuenciasyo yo metro 1 m2 mn

Se dice que un atributo varía continuamente si sus valores difieren entre sí en una cantidad arbitrariamente pequeña, es decir, el signo puede tomar cualquier valor en un intervalo determinado. Una serie de variación continua para tal rasgo se llama serie de intervalo.

Tabla 2. Vista general de la serie de frecuencias de variación de intervalo.

Tabla 3. Imágenes gráficas de la serie de variación.

FilaPolígono o histogramaFunción de distribución empírica
Discreto
intervalo
Al observar los resultados de las observaciones, se determina cuántos valores de las variantes cayeron en cada intervalo específico. Se supone que cada intervalo pertenece a uno de sus extremos: en todos los casos el izquierdo (más a menudo) o en todos los casos el derecho, y las frecuencias o frecuencias muestran el número de opciones contenidas en los límites indicados. Diferencias un yo – un yo +1 se llaman intervalos parciales. Para simplificar los cálculos posteriores, la serie de variación del intervalo se puede reemplazar por una condicionalmente discreta. En este caso, el valor medio i-ésimo intervalo se toma como opción xyo, y la frecuencia de intervalo correspondiente yo yo- para la frecuencia de este intervalo.
Para la representación gráfica de series variacionales, se utilizan con mayor frecuencia polígonos, histogramas, curvas acumulativas y funciones de distribución empírica.

En mesa. 2.3 (Agrupación de la población de Rusia según el tamaño del ingreso per cápita promedio en abril de 1994) serie de variación de intervalo.
Es conveniente analizar la serie de distribución mediante una representación gráfica, que también permite juzgar la forma de la distribución. Una representación visual de la naturaleza del cambio en las frecuencias de la serie variacional viene dada por polígono e histograma.
El polígono se utiliza cuando se muestran series variacionales discretas..
Representemos, por ejemplo, gráficamente la distribución del parque de viviendas por tipo de apartamentos (Cuadro 2.10).
Cuadro 2.10 - Distribución del parque de viviendas del área urbana por tipo de departamentos (cifras condicionales).


Arroz. Polígono de distribución de viviendas


En el eje y se pueden representar no sólo los valores de las frecuencias, sino también las frecuencias de la serie de variaciones.
El histograma se toma para mostrar la serie de variación de intervalo.. Al construir un histograma, los valores de los intervalos se trazan en el eje de abscisas y las frecuencias se representan mediante rectángulos construidos en los intervalos correspondientes. La altura de las columnas en el caso de intervalos iguales debe ser proporcional a las frecuencias. Un histograma es un gráfico en el que una serie se muestra como barras adyacentes entre sí.
Representemos gráficamente la serie de distribución de intervalos que se muestra en la tabla. 2.11.
Cuadro 2.11 - Distribución de familias por tamaño de espacio habitable por persona (cifras condicionales).
norte p/p Grupos de familias por tamaño de espacio habitable por persona Número de familias con un tamaño determinado de espacio habitable Número acumulado de familias
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Arroz. 2.2. Histograma de la distribución de familias por tamaño de espacio habitable por persona


Utilizando los datos de la serie acumulada (Tabla 2.11), construimos distribución acumulativa.


Arroz. 2.3. La distribución acumulada de familias según el tamaño del espacio habitable por persona.


La representación de una serie variacional en forma de acumulado es especialmente eficaz para series variacionales cuyas frecuencias se expresan como fracciones o porcentajes de la suma de las frecuencias de la serie.
Si cambiamos los ejes en la representación gráfica de la serie variacional en forma de acumulado, obtenemos ogivu. En la fig. 2.4 muestra una ojiva construida sobre la base de los datos de la tabla. 2.11.
Un histograma se puede convertir en un polígono de distribución encontrando los puntos medios de los lados de los rectángulos y luego conectando estos puntos con líneas rectas. El polígono de distribución resultante se muestra en la fig. 2.2 línea de puntos.
Al construir un histograma de distribución de una serie variacional con intervalos desiguales, a lo largo del eje de ordenadas, no se aplican frecuencias, sino la densidad de distribución de la característica en los intervalos correspondientes.
La densidad de distribución es la frecuencia calculada por unidad de ancho de intervalo, es decir cuántas unidades en cada grupo hay por valor de intervalo unitario. En la tabla se presenta un ejemplo de cálculo de la densidad de distribución. 2.12.
Cuadro 2.12 - Distribución de empresas por número de empleados (las cifras son condicionales)
norte p/p Grupos de empresas por número de empleados, pers. Número de empresas Tamaño del intervalo, pers. Densidad de distribución
A 1 2 3=1/2
1 hasta 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Para una representación gráfica de la variación también se pueden utilizar series. curva acumulada. Con la ayuda del cumulate (la curva de las sumas), se muestra una serie de frecuencias acumuladas. Las frecuencias acumuladas se determinan sumando secuencialmente las frecuencias por grupos y muestran cuántas unidades de la población tienen valores característicos no mayores que el valor considerado.


Arroz. 2.4. Distribución ogiva de familias según el tamaño del espacio habitable por persona.

Al construir el acumulado de una serie de variación de intervalo, las variantes de la serie se trazan a lo largo del eje de abscisas y las frecuencias acumuladas a lo largo del eje de ordenadas.

Como resultado del dominio de este capítulo, el estudiante deberá: saber

  • indicadores de variación y su relación;
  • leyes básicas de distribución de características;
  • la esencia de los criterios de consentimiento; ser capaz de
  • calcular tasas de variación y bondad de ajuste;
  • determinar las características de las distribuciones;
  • evaluar las principales características numéricas de las series de distribución estadística;

propio

  • métodos de análisis estadístico de series de distribución;
  • conceptos básicos del análisis de dispersión;
  • métodos para verificar que las series de distribución estadística cumplan con las leyes básicas de distribución.

Indicadores de variación

En el estudio estadístico de las características de diversas poblaciones estadísticas, es de gran interés estudiar la variación de la característica de las unidades estadísticas individuales de la población, así como la naturaleza de la distribución de las unidades según esta característica. Variación - estas son las diferencias en los valores individuales del rasgo entre las unidades de la población estudiada. El estudio de la variación es de gran importancia práctica. Por el grado de variación, se pueden juzgar los límites de la variación de un rasgo, la homogeneidad de la población según este rasgo, la tipicidad del promedio, la relación de factores que determinan la variación. Los indicadores de variación se utilizan para caracterizar y organizar poblaciones estadísticas.

Los resultados del resumen y agrupación de materiales de observación estadística, elaborados en forma de series de distribución estadística, representan una distribución ordenada de unidades de la población estudiada en grupos según un atributo de agrupación (variable). Si se toma un rasgo cualitativo como base para la agrupación, entonces dicha serie de distribución se llama atributivo(distribución por profesión, género, color, etc.). Si la serie de distribución se construye sobre una base cuantitativa, entonces dicha serie se llama variacional(distribución por altura, peso, talla salarios etc.). Construir una serie variacional significa ordenar la distribución cuantitativa de unidades de población según los valores del atributo, contar el número de unidades de población con estos valores (frecuencia), ordenar los resultados en una tabla.

En lugar de la frecuencia de una variante, es posible utilizar su relación con el volumen total de observaciones, lo que se denomina frecuencia (frecuencia relativa).

Hay dos tipos de series de variación: discretas y de intervalo. Serie discreta- Se trata de una serie variacional, cuya construcción se basa en signos con un cambio discontinuo (signos discretos). Estos últimos incluyen el número de empleados de la empresa, la categoría salarial, el número de hijos de la familia, etc. Una serie variacional discreta es una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda, el número de unidades de población con un valor específico del atributo. Si un signo tiene un cambio continuo (la cantidad de ingresos, la duración del servicio, el costo de los activos fijos de una empresa, etc., que puede tomar cualquier valor dentro de ciertos límites), entonces para este signo es posible construir serie de variación de intervalo. La tabla al construir una serie de variación de intervalo también tiene dos columnas. El primero indica el valor de la característica en el intervalo "de - a" (opciones), el segundo, el número de unidades incluidas en el intervalo (frecuencia). Frecuencia (frecuencia de repetición): el número de repeticiones de una variante particular de los valores de los atributos. Los intervalos pueden ser cerrados y abiertos. Los intervalos cerrados están limitados en ambos lados, es decir tener un borde tanto inferior (“desde”) como superior (“hasta”). Los intervalos abiertos tienen un límite cualquiera: superior o inferior. Si las opciones están dispuestas en orden ascendente o descendente, entonces las filas se llaman clasificado.

Para las series variacionales, existen dos tipos de opciones de respuesta de frecuencia: frecuencia acumulada y frecuencia acumulativa. La frecuencia acumulada muestra cuántas observaciones tomó el valor de la característica en valores menores que el valor especificado. La frecuencia acumulada se determina sumando los valores de la frecuencia característica de un grupo determinado con todas las frecuencias de los grupos anteriores. La frecuencia acumulada caracteriza la proporción de unidades de observación en las que los valores de la característica no superan el límite superior del grupo de días. Así, la frecuencia acumulada muestra el peso específico de la variante en el agregado, que tiene un valor no mayor que el indicado. Frecuencia, frecuencia, densidades absolutas y relativas, frecuencia acumulada y frecuencia son características de la magnitud de la variante.

Las variaciones en el signo de las unidades estadísticas de la población, así como la naturaleza de la distribución, se estudian utilizando indicadores y características de la serie de variación, que incluyen el nivel promedio de la serie, la desviación lineal promedio, la desviación estándar, la dispersión. , coeficientes de oscilación, variación, asimetría, curtosis, etc.

Se utilizan valores medios para caracterizar el centro de distribución. El promedio es una característica estadística generalizadora, en la que se cuantifica el nivel típico de un rasgo que poseen los miembros de la población estudiada. Sin embargo, puede haber casos en los que las medias aritméticas coincidan con una naturaleza diferente de la distribución, por lo que, como características estadísticas de la serie de variación, se calculan los llamados promedios estructurales: moda, mediana y cuantiles que dividen la distribución. series en partes iguales (cuartiles, deciles, percentiles, etc.).

Moda - este es el valor de la característica que ocurre con más frecuencia en la serie de distribución que sus otros valores. Para series discretas, esta es la variante con mayor frecuencia. En las series variacionales de intervalo, para determinar la moda, es necesario en primer lugar determinar el intervalo en el que se ubica, el llamado intervalo modal. En una serie variacional con intervalos iguales, el intervalo modal está determinado por la frecuencia más alta, en series con intervalos desiguales, pero por la densidad de distribución más alta. Luego, para determinar la moda en filas con intervalos iguales, aplique la fórmula

donde Mo es el valor de la moda; x Mo - el límite inferior del intervalo modal; h- ancho del intervalo modal; / Mo - frecuencia del intervalo modal; / Mo j - frecuencia del intervalo premodal; / Mo+1 es la frecuencia del intervalo posmodal, y para una serie con intervalos desiguales en esta fórmula de cálculo, en lugar de las frecuencias / Mo, / Mo, / Mo, se deben utilizar densidades de distribución. Mente 0 _| , Mente 0> OMU+"

Si hay una moda única, entonces la distribución de probabilidad de la variable aleatoria se llama unimodal; si hay más de un modo, se llama multimodal (polimodal, multimodal), en el caso de dos modos, bimodal. Como regla general, la multimodalidad indica que la distribución en estudio no obedece a la ley. distribución normal. Las poblaciones homogéneas, por regla general, se caracterizan por distribuciones unimodales. Multivertex también indica la heterogeneidad de la población estudiada. La aparición de dos o más vértices hace necesario reagrupar los datos para aislar grupos más homogéneos.

En una serie de variación de intervalo, la moda se puede determinar gráficamente mediante un histograma. Para hacer esto, se dibujan dos líneas que se cruzan desde los puntos superiores de la columna más alta del histograma hasta los puntos superiores de dos columnas adyacentes. Luego, desde el punto de su intersección, se baja una perpendicular al eje de abscisas. El valor característico en la abscisa correspondiente a la perpendicular es la moda. En muchos casos, al caracterizar a la población como un indicador generalizado, se da preferencia a la moda, en lugar de a la media aritmética.

Mediana - este es el valor central de la característica; lo posee el miembro central de la serie de distribución clasificada. En series discretas, para encontrar el valor de la mediana, primero se determina su número de serie. Para hacer esto, con un número impar de unidades, se suma uno a la suma de todas las frecuencias y el número se divide por dos. Si hay un número par de unos, habrá 2 unos medianos en la serie, por lo que en este caso la mediana se define como el promedio de los valores de los 2 unos medianos. Así, la mediana en una serie de variación discreta es el valor que divide la serie en dos partes que contienen el mismo número de opciones.

En una serie de intervalos, después de determinar el número ordinal de la mediana, el intervalo de la mediana se encuentra mediante las frecuencias acumuladas (frecuencias) y luego, usando la fórmula para calcular la mediana, se determina el valor de la mediana misma:

donde Me es el valor de la mediana; xyo- el límite inferior del intervalo mediano; h- ancho del intervalo mediano; - la suma de las frecuencias de la serie de distribución; /D - la frecuencia acumulada del intervalo pre-mediano; / Yo - la frecuencia del intervalo mediano.

La mediana se puede encontrar gráficamente usando el acumulado. Para ello, en la escala de frecuencias acumuladas (frecuencias) del acumulado, desde el punto correspondiente al número ordinal de la mediana, se traza una línea recta, paralela al eje de abscisas, hasta que se cruza con el acumulado. Además, desde el punto de intersección de la línea recta indicada con el acumulado, se baja una perpendicular al eje de abscisas. El valor de la característica en el eje x correspondiente a la ordenada dibujada (perpendicular) es la mediana.

La mediana se caracteriza por las siguientes propiedades.

  • 1. No depende de los valores de los atributos que se encuentran a ambos lados del mismo.
  • 2. Tiene la propiedad de minimalidad, lo que significa que la suma de las desviaciones absolutas de los valores de los rasgos de la mediana es valor mínimo en comparación con la desviación de los valores característicos de cualquier otro valor.
  • 3. Cuando se combinan dos distribuciones con medianas conocidas, es imposible predecir de antemano el valor mediano de la nueva distribución.

Estas propiedades de la mediana se utilizan ampliamente en el diseño de la ubicación de puntos de servicio masivo: escuelas, clínicas, gasolineras, bombas de agua, etc. Por ejemplo, si se planea construir un policlínico en un determinado barrio de la ciudad, entonces es más conveniente ubicarlo en un punto del barrio que no divida en dos la longitud del barrio, sino el número de habitantes.

La relación entre la moda, la mediana y la media aritmética indica la naturaleza de la distribución del rasgo en el agregado y permite evaluar la simetría de la distribución. Si x Yo entonces hay una asimetría hacia la derecha de la serie. Con una distribución normal X - Yo - Mo.

Alineación basada en K. Pearson varios tipos Las curvas determinaron que para distribuciones moderadamente asimétricas son válidas las siguientes relaciones aproximadas entre la media aritmética, la mediana y la moda:

donde Me es el valor de la mediana; Mo - valor de la moda; x aritmo: el valor de la media aritmética.

Si es necesario estudiar la estructura de la serie de variación con más detalle, se calculan los valores característicos, similares a la mediana. Estos valores característicos dividen todas las unidades de distribución en números iguales y se denominan cuantiles o gradientes. Los cuantiles se subdividen en cuartiles, deciles, percentiles, etc.

Los cuartiles dividen a la población en cuatro partes iguales. El primer cuartil se calcula de forma similar a la mediana utilizando la fórmula para calcular el primer cuartil, habiendo determinado previamente el primer intervalo trimestral:

donde Qi es el valor del primer cuartil; xq^- el límite inferior del primer intervalo cuartil; h- amplitud del primer intervalo trimestral; /, - frecuencias de la serie de intervalos;

Frecuencia acumulada en el intervalo anterior al primer intervalo cuartil; Jq ( - frecuencia del primer intervalo cuartil.

El primer cuartil muestra que el 25% de las unidades de población son menores que su valor y el 75% son mayores. El segundo cuartil es igual a la mediana, es decir Q2 = A mí.

Por analogía, se calcula el tercer cuartil, habiendo encontrado previamente el tercer intervalo trimestral:

¿Dónde está el límite inferior del intervalo del tercer cuartil? h- anchura del intervalo del tercer cuartil; /, - frecuencias de la serie de intervalos; /X"- frecuencia acumulada en el intervalo anterior

GRAMO

intervalo del tercer cuartil; Jq - frecuencia del intervalo del tercer cuartil.

El tercer cuartil muestra que el 75% de las unidades de población son menores que su valor y el 25% son más.

La diferencia entre el tercer y el primer cuartil es el rango intercuartil:

donde Aq es el valor del intervalo intercuartil; Pregunta 3 - el valor del tercer cuartil; Q, - el valor del primer cuartil.

Los deciles dividen a la población en 10 partes iguales. Un decil es el valor de una característica en una serie de distribución que corresponde a décimas del tamaño de la población. Por analogía con los cuartiles, el primer decil muestra que el 10% de las unidades de población son menores que su valor, y el 90% son más, y el noveno decil revela que el 90% de las unidades de población son menores que su valor, y el 10% son más. La proporción entre el noveno y el primer decil, es decir Coeficiente decil, ampliamente utilizado en el estudio de la diferenciación de ingresos para medir la relación entre los niveles de ingresos del 10% de la población más rica y el 10% de la menos rica. Los percentiles dividen la población clasificada en 100 partes iguales. El cálculo, significado y uso de los percentiles son similares a los deciles.

Los cuartiles, deciles y otras características estructurales se pueden determinar gráficamente por analogía con la mediana utilizando el acumulado.

Para medir el tamaño de la variación, se utilizan los siguientes indicadores: el rango de variación, la desviación lineal promedio, la desviación estándar y la varianza. La magnitud del rango de variación depende enteramente de la aleatoriedad de la distribución de los miembros extremos de la serie. Este indicador es de interés en los casos en los que es importante saber cuál es la amplitud de las fluctuaciones en los valores del atributo:

Dónde R- el valor del rango de variación; x max: el valor máximo de la característica; xtt- el valor mínimo del atributo.

Al calcular el rango de variación no se tiene en cuenta el valor de la gran mayoría de los miembros de la serie, mientras que la variación está asociada a cada valor del miembro de la serie. Esta deficiencia carece de indicadores que sean promedios obtenidos de las desviaciones de los valores de los rasgos individuales de su valor promedio: la desviación lineal promedio y la desviación estándar. Existe una relación directa entre las desviaciones individuales del promedio y la fluctuación de un rasgo particular. Cuanto mayor es la volatilidad, mayor es el tamaño absoluto de las desviaciones respecto del promedio.

La desviación lineal promedio es el promedio aritmético de los valores absolutos de las desviaciones de las opciones individuales de su valor promedio.

Desviación lineal media para datos no agrupados

donde / pr - el valor de la desviación lineal promedio; x, - - el valor de la característica; X - PAG - número de unidades de población.

Desviación lineal promedio de series agrupadas

donde / vz - el valor de la desviación lineal promedio; x, - el valor de la característica; X - el valor medio del rasgo para la población estudiada; / - el número de unidades de población en un grupo separado.

En este caso se ignoran los signos de desviación; de lo contrario, la suma de todas las desviaciones será igual a cero. La desviación lineal media en función de la agrupación de los datos analizados se calcula mediante diferentes fórmulas: para datos agrupados y no agrupados. La desviación lineal promedio, debido a su convencionalidad, separada de otros indicadores de variación, se utiliza relativamente raramente en la práctica (en particular, para caracterizar el cumplimiento de las obligaciones contractuales en términos de uniformidad del suministro; en el análisis del volumen de negocios comercio Exterior, la composición de los empleados, el ritmo de producción, la calidad del producto, teniendo en cuenta características tecnológicas producción, etcétera).

La desviación estándar caracteriza cuánto se desvían en promedio los valores individuales del rasgo estudiado del valor promedio de la población y se expresa en unidades del rasgo estudiado. La desviación estándar, al ser una de las principales medidas de variación, se usa ampliamente para evaluar los límites de la variación de un rasgo en una población homogénea, para determinar los valores de las ordenadas de la curva de distribución normal, así como para cálculos relacionados con la organización de la observación de la muestra y el establecimiento de la precisión de las características de la muestra. La desviación estándar para datos no agrupados se calcula de acuerdo con el siguiente algoritmo: cada desviación del promedio se eleva al cuadrado, se suman todos los cuadrados, después de lo cual la suma de los cuadrados se divide por el número de términos de la serie y se toma la raíz cuadrada de el cociente:

donde a Iip - el valor de la desviación estándar; xj- valor de característica; X- el valor medio del atributo para la población estudiada; PAG - número de unidades de población.

Para datos analizados agrupados, la desviación estándar de los datos se calcula utilizando la fórmula ponderada

Dónde - el valor de la desviación estándar; xj- valor de característica; X - el valor medio del rasgo para la población estudiada; fx- el número de unidades de población en un grupo particular.

La expresión bajo la raíz en ambos casos se llama varianza. Por tanto, la varianza se calcula como el cuadrado medio de las desviaciones de los valores de los rasgos de su valor medio. Para valores de características no ponderados (simples), la varianza se define de la siguiente manera:

Para valores característicos ponderados

También existe una forma especial simplificada de calcular la varianza: en términos generales

para valores de características no ponderados (simples) para valores característicos ponderados
usando el método de contar desde cero condicional

donde a 2 - el valor de la dispersión; x, - - el valor de la característica; X - el valor medio de la característica, h- valor del intervalo de grupo, t 1 - peso (A =

La dispersión tiene una expresión independiente en las estadísticas y es uno de los indicadores de variación más importantes. Se mide en unidades correspondientes al cuadrado de las unidades de medida del rasgo en estudio.

La dispersión tiene las siguientes propiedades.

  • 1. La dispersión de un valor constante es cero.
  • 2. Reducir todos los valores de la característica por el mismo valor de A no cambia el valor de la varianza. Esto significa que el cuadrado medio de las desviaciones se puede calcular no a partir de los valores dados del atributo, sino a partir de sus desviaciones de un número constante.
  • 3. Disminuyendo todos los valores de la característica en k veces reduce la dispersión en k 2 veces, y la desviación estándar - en k veces, es decir Todos los valores de los atributos se pueden dividir por algún número constante (digamos, por el valor del intervalo de la serie), se puede calcular la desviación estándar y luego multiplicar por un número constante.
  • 4. Si calculamos el cuadrado promedio de las desviaciones de cualquier valor y en difiere en cierta medida de la media aritmética, entonces siempre será mayor que el cuadrado medio de las desviaciones calculadas a partir de la media aritmética. En este caso, el cuadrado medio de las desviaciones será mayor en un valor bien definido: en el cuadrado de la diferencia entre el promedio y este valor tomado condicionalmente.

La variación de una característica alternativa es la presencia o ausencia del inmueble estudiado en las unidades de la población. Cuantitativamente, la variación de un atributo alternativo se expresa mediante dos valores: la presencia de la propiedad estudiada en una unidad se denota por uno (1), y su ausencia se denota por cero (0). La proporción de unidades que tienen la propiedad en estudio se denota por P, y la proporción de unidades que no tienen esta propiedad se denota por GRAMO. Así, la varianza de un atributo alternativo es igual al producto de la proporción de unidades que tienen una propiedad determinada (P) por la proporción de unidades que no tienen esta propiedad. (GRAMO). La mayor variación de la población se logra en los casos en que una parte de la población, que es el 50% del volumen total de la población, tiene una característica, y la otra parte de la población, también igual al 50%, no la tiene. esta característica, mientras que la varianza alcanza valor máximo igual a 0,25, es decir P = 0,5, GRAMO= 1 - P \u003d 1 - 0,5 \u003d 0,5 y o 2 \u003d 0,5 0,5 \u003d 0,25. El límite inferior de este indicador es igual a cero, lo que corresponde a una situación en la que no hay variación en el agregado. Uso práctico La varianza de un signo alternativo consiste en construir intervalos de confianza durante el muestreo.

Cuanto menores sean la varianza y la desviación estándar, más homogénea será la población y más típico será el promedio. En la práctica de la estadística, a menudo resulta necesario comparar variaciones de diversas características. Por ejemplo, es interesante comparar las variaciones en la edad de los trabajadores y sus calificaciones, duración del servicio y salarios, costes y beneficios, duración del servicio y productividad laboral, etc. Para tales comparaciones, los indicadores de la variabilidad absoluta de las características no son adecuados: es imposible comparar la variabilidad de la experiencia laboral, expresada en años, con la variación de los salarios, expresada en rublos. Para realizar tales comparaciones, así como comparaciones de la fluctuación del mismo atributo en varias poblaciones con diferentes medias aritméticas, se utilizan indicadores de variación: el coeficiente de oscilación, el coeficiente de variación lineal y el coeficiente de variación, que muestran la medida de fluctuaciones de los valores extremos alrededor de la media.

factor de oscilación:

Dónde V R - el valor del coeficiente de oscilación; R- el valor del rango de variación; X -

Coeficiente de variación lineal".

Dónde vj- el valor del coeficiente de variación lineal; I- el valor de la desviación lineal promedio; X - el valor promedio del rasgo para la población en estudio.

El coeficiente de variación.:

Dónde Virginia- el valor del coeficiente de variación; a - el valor de la desviación estándar; X - el valor promedio del rasgo para la población en estudio.

El coeficiente de oscilación es el porcentaje del rango de variación con respecto al valor medio del rasgo en estudio, y el coeficiente de variación lineal es la relación entre la desviación lineal media y el valor medio del rasgo en estudio, expresado como porcentaje. El coeficiente de variación es el porcentaje de la desviación estándar con respecto al valor promedio del rasgo en estudio. Como valor relativo, expresado como porcentaje, el coeficiente de variación se utiliza para comparar el grado de variación de varios rasgos. Utilizando el coeficiente de variación se estima la homogeneidad de la población estadística. Si el coeficiente de variación es inferior al 33%, entonces la población en estudio es homogénea y la variación es débil. Si el coeficiente de variación es superior al 33%, entonces la población en estudio es heterogénea, la variación es fuerte y el valor promedio es atípico y no puede usarse como indicador generalizador de esta población. Además, los coeficientes de variación se utilizan para comparar la fluctuación de un rasgo en diferentes poblaciones. Por ejemplo, para evaluar la variación en la duración del servicio de los trabajadores en dos empresas. Cómo mas valor coeficiente, más significativa será la variación de la característica.

A partir de los cuartiles calculados, también es posible calcular el indicador relativo de variación trimestral mediante la fórmula

donde Q 2 Y

El rango intercuartil está determinado por la fórmula

Se utiliza la desviación cuartil en lugar del rango de variación para evitar las desventajas asociadas con el uso de valores extremos:

Para series variacionales de intervalos desiguales, también se calcula la densidad de distribución. Se define como el cociente de la frecuencia o frecuencia correspondiente dividido por el valor del intervalo. En series de intervalos desiguales, se utilizan densidades de distribución absolutas y relativas. La densidad de distribución absoluta es la frecuencia por unidad de longitud del intervalo. Densidad de distribución relativa: la frecuencia por unidad de longitud del intervalo.

Todo lo anterior es cierto para series de distribución cuya ley de distribución está bien descrita por la ley de distribución normal o se aproxima a ella.

El conjunto de valores del parámetro estudiado en un determinado experimento u observación, ordenados por magnitud (aumento o disminución) se denomina serie de variación.

Supongamos que medimos la presión arterial de diez pacientes para obtener un umbral superior de PA: presión sistólica, es decir. solo un numero.

Imaginemos que una serie de observaciones (población estadística) de presión arterial sistólica en 10 observaciones tiene la siguiente forma (Tabla 1):

tabla 1

Los componentes de una serie variacional se llaman variantes. Las variantes representan el valor numérico del rasgo que se está estudiando.

La construcción de una serie variacional a partir de un conjunto estadístico de observaciones es sólo el primer paso hacia la comprensión de las características de todo el conjunto. A continuación, es necesario determinar el nivel medio del rasgo cuantitativo estudiado (el nivel medio de proteína en sangre, el peso medio de los pacientes, el tiempo medio de inicio de la anestesia, etc.)

El nivel promedio se mide utilizando criterios que se denominan promedios. El valor medio es una característica numérica generalizadora de valores cualitativamente homogéneos, que caracteriza mediante un número a toda la población estadística según un atributo. El valor promedio expresa lo general que es característico de un rasgo en un conjunto dado de observaciones.

Hay tres tipos de promedios de uso común: moda (), mediana () y media aritmética ().

Para determinar cualquier valor promedio, es necesario utilizar los resultados de observaciones individuales, escribiéndolos en forma de una serie de variaciones (Tabla 2).

Moda- el valor que ocurre con mayor frecuencia en una serie de observaciones. En nuestro ejemplo, moda = 120. Si no hay valores repetidos en la serie de variación, entonces dicen que no hay moda. Si varios valores se repiten el mismo número de veces, entonces se toma como moda el más pequeño de ellos.

Mediana- el valor que divide la distribución en dos partes iguales, el valor central o mediano de una serie de observaciones ordenadas en orden ascendente o descendente. Entonces, si hay 5 valores en la serie variacional, entonces su mediana es igual al tercer miembro de la serie variacional, si en la serie número par miembros, entonces la mediana es la media aritmética de sus dos observaciones centrales, es decir si hay 10 observaciones en la serie, entonces la mediana es igual a la media aritmética de 5 y 6 observaciones. En nuestro ejemplo.

Tenga en cuenta una característica importante de la moda y la mediana: sus valores no se ven afectados por los valores numéricos de las variantes extremas.

Significado aritmetico calculado por la fórmula:

donde es el valor observado en la -ésima observación y es el número de observaciones. Para nuestro caso.

La media aritmética tiene tres propiedades:

El del medio ocupa la posición media en la serie de variaciones. En una fila estrictamente simétrica.

El promedio es un valor generalizador y las fluctuaciones aleatorias, las diferencias en los datos individuales no son visibles detrás del promedio. Refleja la típica característica de toda la población.

La suma de las desviaciones de todas las variantes de la media es igual a cero: . Se indica la desviación de la variante de la media.

La serie de variaciones consta de variantes y sus correspondientes frecuencias. De los diez valores obtenidos, el número 120 se encontró 6 veces, 115 - 3 veces, 125 - 1 vez. Frecuencia (): el número absoluto de opciones individuales en la población, que indica cuántas veces ocurre. esta opción en la serie de variación.

La serie de variaciones puede ser simple (frecuencias = 1) o agrupada y abreviada, de 3 a 5 opciones cada una. Se utiliza una serie simple con un pequeño número de observaciones (), agrupadas - con números grandes observaciones().

Nombre del parámetro Significado
Asunto del artículo: Serie de variación
Rúbrica (categoría temática) Producción

Valores observados de una variable aleatoria. X 1 , X 2 , …, x k llamado opciones.

Frecuencia opciones X me llaman numero n yo (i=1,…,k) que muestra cuántas veces ocurre esta variante en la muestra.

Frecuencia(frecuencia relativa, acciones) opciones xyo (i=1,…,k) generalmente se llama relación de su frecuencia n yo al tamaño de la muestra norte.

Las frecuencias y las frecuencias se llaman escamas.

Frecuencia acumulada se acostumbra llamar al número de opciones cuyos valores son menores que un determinado X:

Frecuencia acumulada Se acostumbra llamar a la relación entre la frecuencia acumulada y el tamaño de la muestra:

serie de variación(serie estadística): se acostumbra llamar a una secuencia de opciones escritas en orden ascendente y sus pesos correspondientes.

La serie de variación debe ser discreto(muestra de valores de una variable aleatoria discreta) y continuo (intervalo)(selección de valores de una variable aleatoria continua).

La serie variacional discreta tiene la forma:

Cuando el número de opciones es grande o la función es continua ( valor aleatorio puede tomar cualquier valor dentro de un cierto intervalo), son intervalo serie de variaciones.

Para construir una serie de variación de intervalo, lleve a cabo agrupamiento opción: se dividen en intervalos separados:

El número de intervalos a veces se determina usando Fórmulas de Sturges:

Luego se calcula el número de variantes que caen en cada intervalo - frecuencias n yo(o frecuencia n yo/norte). Si la variante está en el límite del intervalo, entonces se adjunta al intervalo derecho.

La serie variacional de intervalo tiene la forma:

Opciones
Frecuencias

Función de distribución empírica (estadística) se acostumbra llamar a una función cuyo valor en el punto X es igual a la frecuencia relativa con la que la variante tomará un valor menor que X(frecuencia acumulada para X):

Polígono de frecuencia se llama polilínea cuyos segmentos conectan puntos con coordenadas ( X 1 ; norte 1), (X 2 ; norte 2), …, (x k; nk). El Polígono de frecuencia, que es el análogo estadístico del polígono de distribución.

Vale la pena decir que para una serie variacional continua, se puede construir un polígono si los valores X 1 , X 2 , …, x k tomar los puntos medios de los intervalos.

Una serie de variación de intervalo generalmente se representa gráficamente usando histogramas.

gráfico de barras- una figura escalonada que consta de rectángulos cuyas bases son intervalos de longitud parciales h= xyo +1 – xyo, i= 0,…,k-1, y las alturas son iguales a las frecuencias (o frecuencias) de los intervalos n yo (yo).

Recoger en montón(curva acumulativa) - curva de frecuencias acumuladas (frecuencias). Para serie discreta el acumulado es una línea discontinua que conecta los puntos o , . Para serie de intervalos acumulado comienza desde el punto cuya abscisa es igual al comienzo del primer intervalo, y la ordenada es la frecuencia acumulada (frecuencia) igual a cero. Otros puntos de esta línea discontinua corresponden a los extremos de los intervalos.

Serie de variaciones: concepto y tipos. Clasificación y características de la categoría "Serie de variaciones" 2017, 2018.

  • - Serie de variación de distribución.

    Distribución del volumen de negocios minorista Federación Rusa en 1995 por tipo de propiedad, millones de rublos Tipos de series de distribución Tema VIII. Series de distribución Como resultado del procesamiento y sistematización de datos estadísticos primarios, se obtienen....


  • - Serie de variación

    La transformación más simple de datos estadísticos es ordenarlos por magnitud. Tamaño de muestra de la población general, ordenados en orden no decreciente de elementos, es decir , se llama serie de variación: . En el caso de que el volumen de observaciones... .


  • - Tarea 2. Serie de variación de intervalos

    1. Con base en una muestra dada correspondiente a la variante de la tarea, construya una serie de variación de intervalo; construir un histograma y acumular (use dos métodos: insertar gráficos de excel y el modo "Histograma" del paquete "Análisis de datos"). 2. Analice el histograma resultante. ... .


  • - Compilar una serie de variaciones de la variabilidad del rasgo de semillas u hojas de frijol de cualquier planta de la misma edad. Revelar patrones de variabilidad de rasgos.

    Una población es una unidad estructural de una especie. El número de poblaciones. Causas de las fluctuaciones poblacionales. La relación de individuos en poblaciones y entre diferentes poblaciones de la misma y diferentes especies. 1. Una característica importante de una especie es su distribución en grupos, poblaciones en ...