Serie variacional, sus elementos. Análisis de series variacionales

Serie de variación: definición, tipos, características principales. Método de cálculo
moda, mediana, media aritmética en estudios médicos y estadísticos
(Mostrar en un ejemplo condicional).

Una serie variacional es una serie de valores numéricos del rasgo en estudio, que difieren entre sí en su magnitud y están dispuestos en una determinada secuencia (en orden ascendente o descendente). Cada valor numérico de la serie se denomina variante (V), y los números que muestran con qué frecuencia ocurre esta o aquella variante en la composición de esta serie se denomina frecuencia (p).

El número total de casos de observaciones, de los que consta la serie de variación, se denota con la letra n. La diferencia en el significado de las características estudiadas se denomina variación. Si la variable signo no tiene una medida cuantitativa, la variación se denomina cualitativa y la serie de distribución se denomina atributo (por ejemplo, distribución por resultado de enfermedad, estado de salud, etc.).

Si el signo de una variable tiene una expresión cuantitativa, dicha variación se denomina cuantitativa y la serie de distribución se denomina variacional.

Las series variacionales se dividen en discontinuas y continuas, según la naturaleza del rasgo cuantitativo, simples y ponderadas, según la frecuencia de aparición de la variante.

En una serie variacional simple, cada variante ocurre una sola vez (p=1), en una ponderada, la misma variante ocurre varias veces (p>1). Los ejemplos de tales series se discutirán más adelante en el texto. Si el atributo cuantitativo es continuo, es decir, entre valores enteros existen valores fraccionarios intermedios, la serie variacional se llama continua.

Por ejemplo: 10.0 - 11.9

14,0 - 15,9, etc

Si el signo cuantitativo es discontinuo, es decir, sus valores individuales (opciones) difieren entre sí por un número entero y no tienen valores fraccionarios intermedios, la serie de variación se denomina discontinua o discreta.

Usando los datos del ejemplo anterior sobre la frecuencia cardíaca

para 21 estudiantes, construiremos una serie de variaciones (Tabla 1).

tabla 1

Distribución de estudiantes de medicina por frecuencia de pulso (lpm)

Así, construir una serie variacional significa sistematizar, racionalizar los valores numéricos existentes (opciones), es decir, ordenar en una determinada secuencia (en orden ascendente o descendente) con sus correspondientes frecuencias. En el ejemplo bajo consideración, las opciones están dispuestas en orden ascendente y se expresan como enteros discontinuos (discretos), cada opción aparece varias veces, es decir, estamos ante una serie variacional ponderada, discontinua o discreta.

Como regla general, si el número de observaciones en la población estadística que estamos estudiando no excede 30, entonces es suficiente ordenar todos los valores del rasgo en estudio en una serie variacional en orden creciente, como en la Tabla. 1, o en orden descendente.

Con un gran número de observaciones (n>30), el número de variantes que se producen puede ser muy grande, en este caso se compila una serie variacional de intervalo o agrupada, en la que, para simplificar el procesamiento posterior y aclarar la naturaleza de la distribución, se las variantes se combinan en grupos.

Por lo general, el número de opciones de grupo oscila entre 8 y 15.

Debe haber al menos 5 de ellos, porque. de lo contrario, será una ampliación demasiado tosca y excesiva, lo que distorsionará la imagen general de variación y afectará en gran medida la precisión de los valores promedio. Cuando el número de opciones de grupo es más de 20-25, la precisión del cálculo de los valores promedio aumenta, pero las características de la variación del atributo se distorsionan significativamente y el procesamiento matemático se vuelve más complicado.

Al compilar una serie agrupada, es necesario tener en cuenta

− los grupos de variantes deben colocarse en un orden específico (ascendente o descendente);

- los intervalos en los grupos de variantes deben ser los mismos;

− los valores de los límites de los intervalos no deben coincidir, porque no estará claro en qué grupos atribuir opciones individuales;

- es necesario tener en cuenta las características cualitativas del material recopilado al establecer los límites de los intervalos (por ejemplo, al estudiar el peso de los adultos, es aceptable un intervalo de 3-4 kg, y para los niños en los primeros meses de vida no debe exceder los 100 g.)

Construyamos una serie agrupada (intervalo) que caracterice los datos sobre la frecuencia del pulso (número de latidos por minuto) para 55 estudiantes de medicina antes del examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Para construir una serie agrupada, necesita:

1. Determinar el valor del intervalo;

2. Determinar el medio, el principio y el final de los grupos de la variante de la serie de variación.

● El valor del intervalo (i) está determinado por el número de grupos esperados (r), cuyo número se establece en función del número de observaciones (n) de acuerdo con una tabla especial

Número de grupos en función del número de observaciones:

En nuestro caso, para 55 alumnos, se pueden formar de 8 a 10 grupos.

El valor del intervalo (i) está determinado por la siguiente fórmula:

i = Vmax-Vmin/r

En nuestro ejemplo, el valor del intervalo es 82-58/8= 3.

Si el valor del intervalo es un número fraccionario, el resultado debe redondearse a un número entero.

Hay varios tipos de promedios:

● media aritmética,

● media geométrica,

● media armónica,

● raíz cuadrada media,

● progresiva media,

● mediana

EN estadísticas médicas los más utilizados son los promedios aritméticos.

La media aritmética (M) es un valor generalizador que determina el valor típico que es característico de toda la población. Los principales métodos para calcular M son: el método de la media aritmética y el método de los momentos (desviaciones condicionales).

El método de la media aritmética se utiliza para calcular la media aritmética simple y la media aritmética ponderada. La elección del método para calcular el valor medio aritmético depende del tipo de serie de variación. En el caso de una serie variacional simple, en la que cada variante ocurre solo una vez, la media aritmética simple está determinada por la fórmula:

donde: М – valor medio aritmético;

V es el valor de la característica variable (opciones);

Σ - indica la acción - suma;

n es el número total de observaciones.

Un ejemplo de cálculo de la media aritmética es simple. Frecuencia respiratoria (número de respiraciones por minuto) en 9 hombres de 35 años: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Para determinar el nivel promedio de frecuencia respiratoria en hombres de 35 años, es necesario:

1. Construya una serie variacional, colocando todas las opciones en orden ascendente o descendente Obtuvimos una serie variacional simple, porque los valores de las variantes ocurren solo una vez.

M = ∑V/n = 171/9 = 19 respiraciones por minuto

Producción. La frecuencia respiratoria en hombres de 35 años es en promedio de 19 respiraciones por minuto.

Si se repiten los valores individuales de la variante, no es necesario escribir cada variante en una línea, basta con enumerar las dimensiones de la variante que se producen (V) y luego indicar el número de sus repeticiones ( pags). una serie variacional de este tipo, en la que las opciones son, por así decirlo, ponderadas de acuerdo con el número de frecuencias que les corresponden, se denomina serie variacional ponderada, y la calculada valor promedio– media aritmética ponderada.

La media aritmética ponderada está determinada por la fórmula: M= ∑Vp/n

donde n es el número de observaciones igual a la suma de frecuencias - Σр.

Un ejemplo de cálculo de la media ponderada aritmética.

La duración de la incapacidad (en días) en 35 pacientes con enfermedades respiratorias agudas (IRA) atendidos por un médico local durante el primer trimestre del año en curso fue: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 días .

La metodología para determinar la duración media de la incapacidad en pacientes con infecciones respiratorias agudas es la siguiente:

1. Construyamos una serie variacional ponderada, porque los valores de las variantes individuales se repiten varias veces. Para ello, puedes disponer todas las opciones en orden ascendente o descendente con sus correspondientes frecuencias.

En nuestro caso, las opciones están en orden ascendente.

2. Calcular la media aritmética ponderada mediante la fórmula: M = ∑Vp/n = 233/35 = 6,7 días

Distribución de pacientes con infecciones respiratorias agudas según duración de la incapacidad:

Duración de la incapacidad para el trabajo (V) Número de pacientes (p) vicepresidente
∑p = n = 35 ∑Vp = 233

Producción. La duración de la incapacidad en pacientes con enfermedades respiratorias agudas promedió 6,7 días.

Moda (Mo) es la variante más común en la serie de variación. Para la distribución presentada en la tabla, el modo corresponde a la variante igual a 10, ocurre con más frecuencia que otras: 6 veces.

Distribución de pacientes por tiempo de estancia en cama hospitalaria (en días)

V
pags

A veces es difícil determinar el valor exacto de la moda, ya que puede haber varias observaciones en los datos que se estudian que ocurren "con mayor frecuencia".

Median (Me) es un indicador no paramétrico que divide la serie de variación en dos mitades iguales: el mismo número de opciones se encuentra a ambos lados de la mediana.

Por ejemplo, para la distribución que se muestra en la tabla, la mediana es 10 porque a ambos lados de este valor se encuentra en la opción 14, es decir el número 10 ocupa una posición central en esta serie y es su mediana.

Dado que el número de observaciones en este ejemplo es par (n=34), la mediana se puede determinar de la siguiente manera:

Yo = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Esto significa que la mitad de la serie recae en la decimoséptima opción, que corresponde a una mediana de 10. Para la distribución que se presenta en la tabla, la media aritmética es:

M = ∑Vp/n = 334/34 = 10,1

Entonces, para 34 observaciones de la Tabla. 8, obtuvimos: Mo=10, Me=10, la media aritmética (M) es 10,1. En nuestro ejemplo, los tres indicadores resultaron ser iguales o cercanos entre sí, aunque son completamente diferentes.

La media aritmética es la suma resultante de todas las influencias; en su formación intervienen todas las opciones, sin excepción, incluso las extremas, a menudo atípicas para este fenómeno o agregados.

La moda y la mediana, a diferencia de la media aritmética, no dependen del valor de todos los valores individuales del atributo variable (los valores de las variantes extremas y el grado de dispersión de la serie). La media aritmética caracteriza toda la masa de observaciones, la moda y la mediana caracterizan la mayor parte

Serie variacional, sus elementos.

Un investigador interesado en la categoría tarifaria de los trabajadores mecánicos
tienda, realizó una encuesta a 100 trabajadores. Localiza los valores observados
premio-naka en orden ascendente. Esta operación se llama clasificación.
datos estadísticos. Como resultado, obtenemos la siguiente serie, que llama:
Xia clasificado:

1,1,..1, 2,2..2, 3,3,..3, 4,4,..4, 5,5,..5, 6,6,..6.

De la serie clasificada se desprende que la característica estudiada (tarifa
dígito) tomó seis valores diferentes: 1, 2, 3, 4, 5 y 6.

En el futuro, se llamarán varios valores del premio. opción-
mi,
Y debajo variación - comprender el cambio en los valores del atributo.

Dependiendo de los valores que tome el signo, los signos se dividen
sobre el discretamente variable y continuamente variable.

La categoría tarifaria es una característica que varía discretamente. Número, impresiones-
el número de veces que aparece la variante x en una serie de observaciones se denomina hora-
totoi
opción mx.

En lugar de la frecuencia de la variante x, se puede considerar su relación con la general
número de observaciones norte, Lo que es llamado con frecuencia variante y su relación designación-comienza ancho x .

ancho x =m x /n=m x /åm x

Una tabla que le permite juzgar la distribución de frecuencias (o frecuencias) entre opciones se llama serie de variación discreta.

Junto con el concepto de frecuencia, se utiliza el concepto frecuencia acumulada,
que se denota t x acc. La hora acumulada muestra cuántas
observaciones, el signo tomó valores menores que el valor dado x. Relativo
frecuencia acumulada a numero total n observaciones se llaman acumulado-
frecuencia
y denota ancho x nac. Es obvio que



w x nac =m x nac /n=m x nac /åm x .

Frecuencias acumuladas (frequencies_ para una serie de variación discreta, calculadas en la siguiente tabla:

X mx m x nak ancho x nac
0+4=4 0,04
4+6=10 0,10
10+12=22 0,22
22+16=38 0,38
38+44=82 0,82
82+18=100 1,00
Por encima de 6

Sea necesario investigar la producción por trabajador - un operador de máquina de un taller mecánico en el año de informe como porcentaje del año anterior. Aquí, la característica estudiada x es la producción en el año del informe como porcentaje del anterior. Este es un signo que varía continuamente. Identificar rasgos característicos Las variaciones en los valores del atributo se combinarán en grupos de trabajadores cuya producción varía dentro del 10%. Presentaremos los datos agrupados en la tabla:

Investigación Característica x Número de trabajadores m Porcentaje de trabajadores w Acumulado frecuencia m x acc ancho x nac
80-90 8/117 8/117
90-100 15/117 8+15=23 23/117
100-110 46/117 23+46=69 69/117
110-120 29/117 69+29=98 98/117
120-130 13/117 98+13=111 111/117
130-140 3/117 111+3=114 114/117
140-150 3/117 114+3=117 117/117
å

En la tabla de frecuencia, m muestra cuántas observaciones tomó el rasgo en valores pertenecientes a uno u otro intervalo. Esta frecuencia se llama intervalo, y su relación con el número total de observaciones es frecuencia de intervalo w. Una tabla que permite juzgar la distribución de frecuencias entre los intervalos de variación de los valores de una característica se llama serie de variación de intervalo.

La serie de variación de intervalo se construye de acuerdo con datos observacionales para
característica que varía discontinuamente, así como que varía discretamente, si
un gran número de opciones observadas. Se construye una serie variacional discreta
solo para una característica de variable discreta

A veces, la serie de variación de intervalo se reemplaza condicionalmente por una discreta.
Entonces el valor medio del intervalo se toma como la opción x y, en consecuencia,
frecuencia de intervalo - para tx.

Para determinar el intervalo constante óptimo, a menudo se usa h Fórmula de Sturgess:

h=(x máx – x mín)/(1+3.322*lg norte).

Construcción de int.var.series

Las frecuencias m muestran cuántas observaciones tomó el rasgo en valores pertenecientes a un intervalo particular. Tal frecuencia se llama frecuencia de intervalo, y su relación con el número total de observaciones es la frecuencia de intervalo w. Una tabla que permite juzgar la distribución de frecuencias (o frecuencias) entre los intervalos de variación de los valores de una característica se denomina serie de variación de intervalo.

La serie de variación de intervalo se construye de acuerdo con los datos de observación para un rasgo que varía continuamente, así como para uno que varía discretamente, si el número de variantes observadas es grande. Una serie variacional discreta se construye solo para una característica discretamente variable.

A veces, la serie de variación de intervalo se reemplaza condicionalmente por una discreta. Entonces el valor medio del intervalo se toma como la variante x, y la frecuencia del intervalo correspondiente se toma como mx

Para construir una serie de variación de intervalo, es necesario determinar el tamaño del intervalo, establecer la escala completa de los intervalos y agrupar los resultados de las observaciones de acuerdo con ella.

Para determinar el intervalo constante óptimo h, a menudo se usa la fórmula de Sturgess:

h = (xmax - xmin) /(1+ 3.322 log n) .

donde xmax xmin son las opciones máxima y mínima, respectivamente. Si, como resultado de los cálculos, h resulta ser un número fraccionario, entonces se debe tomar como valor del intervalo el entero más cercano o la fracción simple más cercana.

Se recomienda tomar el valor a1=xmin-h/2 como inicio del primer intervalo; el comienzo del segundo intervalo coincide con el final del primero y es igual a a2=a1 +h; el comienzo del tercer intervalo coincide con el final del segundo y es igual a a3=a2 + h. La construcción de intervalos continúa hasta que el comienzo del siguiente intervalo en orden no es mayor que xmax. Después de establecer la escala de intervalos, se deben agrupar los resultados de las observaciones.

5) El concepto, formas de expresión y tipos de indicadores estadísticos.

estadística es una característica cuantitativa de los fenómenos y procesos socioeconómicos en términos de certeza cualitativa. La certeza cualitativa del indicador radica en que está directamente relacionado con el contenido interno del fenómeno o proceso que se estudia, su esencia.

Sistema de indicadores estadísticos es un conjunto de indicadores interrelacionados que tiene una estructura de un solo nivel o multinivel y está dirigido a resolver un problema estadístico específico.

A diferencia de un signo, un indicador estadístico se obtiene mediante cálculo. Esto puede ser un recuento simple de unidades de población, la suma de sus valores de atributo, una comparación de 2 o más valores o cálculos más complejos.

Se hace una distinción entre un indicador estadístico específico y una categoría de indicador.

Estadística específica caracteriza el tamaño, la magnitud del fenómeno o proceso que se estudia en un lugar determinado y en un momento determinado. Sin embargo, en trabajos teóricos y en la etapa de diseño de la observación estadística, también operan con indicadores absolutos o indicadores-categorías.

Indicadores de categoría reflejan la esencia, las propiedades distintivas generales de indicadores estadísticos específicos del mismo tipo sin especificar el lugar, el tiempo y el valor numérico. Todos los indicadores estadísticos se dividen según la cobertura de las unidades de población en individuales y libres, y según la forma, en absoluto, relativo y promedio.

Indicadores individuales caracterizar un objeto separado o una unidad separada de la población: una empresa, una firma, un banco, etc. Un ejemplo es la cantidad de personal industrial y de producción de una empresa. Sobre la base de la correlación de dos indicadores absolutos individuales que caracterizan el mismo objeto o unidad, se obtiene un indicador relativo individual.

Resumen de indicadores a diferencia de los individuales, caracterizan un grupo de unidades, que es una parte de la población estadística o la población entera en su conjunto. Estos indicadores se dividen en volumétricos y calculados.

Indicadores de volumen se obtienen sumando los valores del atributo de las unidades individuales de la población. El valor resultante, llamado volumen del atributo, puede actuar como un indicador absoluto de volumen y puede compararse con otro valor absoluto de volumen o el volumen de la población. En los 2 últimos casos se obtienen medias volumétricas y relativas volumétricas.

Indicadores estimados, calculados por varias fórmulas, sirven para resolver problemas estadísticos individuales de análisis: la medición de la variación, las características de los cambios estructurales, la evaluación de la relación, etc. También se dividen en absolutos, relativos o promedio.

Este grupo incluye índices, coeficientes de cercanía, errores de muestreo y otros indicadores.

La cobertura de las unidades de población y la forma de expresión son las principales, pero no las únicas, características de clasificación de los indicadores estadísticos. Una característica importante de la clasificación es también el factor tiempo. Los procesos y fenómenos socioeconómicos se reflejan en indicadores estadísticos ya sea a partir de un momento determinado, por regla general, en una fecha determinada, al principio o al final de un mes, un año o durante un período determinado: un día, una semana, un mes, un trimestre, un año. En el primer caso, los indicadores son momentáneo, en el segundo - intervalo.

Dependiendo de la pertenencia a uno o dos objetos de estudio, hay objeto único Y indicadores entre objetos. Si los primeros caracterizan un solo objeto, los segundos se obtienen comparando dos cantidades relacionadas con objetos diferentes.

Desde el punto de vista de la certeza espacial, los indicadores estadísticos se dividen en todoterritorial caracterizar el objeto o fenómeno estudiado en todo el país, regionales y locales relativo a cualquier parte del territorio o a un objeto separado.

6) Tipos y relación de indicadores relativos.

indicador relativo es el resultado de dividir un indicador absoluto por otro y expresa la relación entre las características cuantitativas de los procesos y fenómenos socioeconómicos. Por lo tanto, en relación con los indicadores absolutos, los indicadores relativos o los indicadores en forma de valores relativos son derivados.

Al calcular un indicador relativo, el indicador absoluto que está en el numerador de la relación resultante se llama Actual o comparable. El indicador con el que se hace la comparación y que está en el denominador se denomina base o base de comparación. Los indicadores relativos se pueden expresar como porcentajes, ppm, proporciones, o se pueden nombrar como números.

Todos los indicadores relativos utilizados en la práctica se dividen en:

dinámica; plan; implementación del plan; estructuras; coordinación; Intensidad y nivel de desarrollo eco-go; comparaciones

Indicador relativo de la dinámica pre-es la relación entre el nivel del proceso o fenómeno en estudio durante un período de tiempo determinado y el nivel del mismo proceso o fenómeno en el pasado.

OPD = indicador actual / anterior. O línea de base.

El valor calculado de esta manera muestra cuántas veces el nivel actual supera al anterior o qué proporción de este último es. Si este indicador se expresa como una razón múltiple, se llama factor de crecimiento, cuando este coeficiente se multiplica por 100%, se obtiene tasa de crecimiento.

Índice de estructura relativa representa la relación entre las partes estructurales del objeto en estudio y su totalidad. El indicador relativo de la estructura se expresa en fracciones de unidad o en porcentaje. Los valores calculados (d i), respectivamente llamados acciones o pesos específicos, muestran qué participación tiene la i-ésima parte o qué peso específico tiene en el total.

Indicadores relativos de coordinación caracterizar la proporción de las partes individuales del todo entre sí. En este caso, se selecciona como base de comparación la parte que tiene la mayor participación o es prioritaria desde el punto de vista económico, social o de cualquier otra índole. El resultado es cuántas unidades de cada parte estructural representan 1 unidad de la parte estructural básica.

Indicador de intensidad relativa caracteriza el grado de distribución del proceso o fenómeno en estudio en su entorno inherente. Este indicador se calcula cuando el valor absoluto es insuficiente para formular conclusiones razonables sobre la escala del fenómeno, su tamaño, saturación y densidad de distribución. Puede expresarse como un porcentaje, ppm o ser un valor con nombre. Una variedad de indicadores relativos de intensidad son indicadores relativos del nivel de desarrollo eco-th, caracterizando la producción per cápita y jugando un papel importante en la evaluación del desarrollo de la economía estatal. En cuanto a la forma de expresión, estos indicadores se acercan a los indicadores promedio, lo que muchas veces conduce a su confusión o identificación. La diferencia entre ellos radica solo en el hecho de que al calcular el promedio, estamos tratando con un conjunto de unidades, cada una de las cuales es portadora de una característica promedio.

Índice de comparación relativa es la relación de indicadores absolutos del mismo nombre que caracterizan diferentes objetos (empresas, firmas, regiones, distritos, etc.)

Indicadores de variación

El estudio de la variación (cambio en los valores de un rasgo dentro de la población) ha gran importancia en estadística e investigación social y económica en general. Los indicadores de variación absolutos y relativos, que caracterizan la fluctuación de los valores de un atributo variable, permiten, en particular, medir el grado de conexión y relación, evaluar el grado de homogeneidad de la población, la tipicidad y la estabilidad. de la media, y determinar la magnitud del posible error de observación de la muestra.

Los indicadores absolutos de variación incluyen el rango de variación, la desviación lineal promedio, la varianza, la desviación estándar y la desviación trimestral.

El rango de variación muestra cuánto cambia el valor de un atributo que varía cuantitativamente

R=xmax-xmin, donde xmax(xmin) es el valor máximo (mínimo) del atributo en el agregado (en la serie de distribución).

La desviación lineal promedio d se define como el valor promedio de las desviaciones de las opciones de rasgo desde el promedio hasta el primer grado, tomado módulo:

La desviación lineal media se usa relativamente raramente para evaluar la variación de un rasgo. Por lo general, se calculan la varianza y la desviación estándar.

Si es necesario comparar la fluctuación de varias características en un conjunto o la misma característica en varios conjuntos con diferentes indicadores del centro de distribución, se utilizan indicadores relativos de variación.

Estos incluyen los siguientes indicadores:

1. Coeficiente de oscilación:

2. Desviación lineal relativa:

3. Coeficiente de variación:

4. Indicador relativo de variación del cuartil:

La medida de variación relativa más utilizada es el coeficiente de variación. Este indicador se utiliza no solo para una evaluación comparativa de la variación, sino también como una característica de la homogeneidad de la población. El conjunto se considera homogéneo si<0,33.

formularios

1. Estado. la presentación de informes es una forma organizativa en la que las unidades de observables proporcionan información sobre sus actividades en forma de formularios, un aparato regulador.

La peculiaridad del informe es que es obligatoriamente justificado, obligatorio en ejecución y legalmente confirmado por la firma del jefe o responsable.

2. La observación especialmente organizada es el ejemplo más sorprendente y simple de esta forma de observación. censo. El censo generalmente se lleva a cabo a intervalos regulares, simultáneamente en toda el área de estudio al mismo tiempo.

Los organismos estadísticos rusos realizan censos de la población de ciertos tipos de asentamientos y organizaciones, recursos materiales, plantaciones perennes, objetos de construcción de Nueva Zelanda, etc.

4. Formulario de registro de observación - basado en el mantenimiento del registro estadístico. En el registro cada unidad obl-I har-Xia número de indicadores. En la práctica estadística nacional, los registros más utilizados son los registros us-I y p/p.

Registro de la población - realizado por la oficina de registro

Registro p/p - USREO lead.org. Estadísticas.

Tipos.

se pueden dividir en grupos de acuerdo a lo siguiente. Destacados:

a) en el momento de la inscripción

b) en términos de cobertura de unidades de cos-ti

Por registro de tiempo ellos son:

Actual (continua)

Discontinuo (periódico y puntual)

en la actualidad obs. los cambios en los fenómenos y procesos se registran a medida que se reciben (inscripción de nacimiento, defunción, matrimonio, divorcio, etc.)

Periódico obs. llevado a cabo a través de la intervalos (N censo cada 10 años)

Una vez obs. celebrada de forma irregular o sólo una vez (referéndum)

Por alcance cos. stat.obl. existen:

sólido

discontinuo

Observación continua es una encuesta de todas las unidades de cos

observación discontinua asume que sólo una parte de la investigación está sujeta a mantenimiento.

Hay varios tipos de observación discontinua:

método principal formación

Selectivo (auto)

monográfico

Este método es x-Xia en el sentido de que, como regla, se seleccionan la mayoría de las criaturas, generalmente las unidades más grandes. búhos en un gato. medio medio. parte de todos los signos observables.

Con observación monográfica, cuidadosa an. están sujetos a unidades estudio oh búhos o m.b. o típico para estas unidades cov-ti. o representar algunas nuevas variedades de fenómenos.

Obs. llevado a cabo con el fin de identificar las tendencias emergentes en el desarrollo de este fenómeno.

Formas

Observación directa

Observ. documental

Directamente llamado. tan observable con un gato los propios registradores, mediante la medición directa, el cálculo, la contención, establecen el hecho objeto de la inscripción y, con base en ello, anotan en el formulario.

Método documental obl. basado en el uso de varios documentos como fuentes de información, como regla de contabilidad x-ra (es decir, informes estadísticos)

Poll es un método de persuasión con un gato. la información necesaria se obtiene de las palabras del encuestado (es decir, el encuestado) (oral, corresponsal, cuestionario, privado, etc.)

Determinación de errores de muestreo.

En el proceso de observación muestral se distinguen dos tipos de errores: de registro y de representatividad.

Errores de registro - desviaciones entre el valor del indicador obtenido durante la observación estadística y su valor real. Estos errores pueden aparecer tanto durante la observación continua como discontinua. Los errores de registro ocurren debido a información incorrecta o inexacta. Las fuentes de este tipo de error pueden ser una mala interpretación de la esencia del problema, la falta de atención del registrador, la omisión o el conteo repetido de unidades individuales de observación. Los errores de registro se dividen en sistemático debido a causas que actúan en una dirección y suavizan los resultados del examen (redondeo de números), y aleatorio, que son el resultado de la acción de varios factores aleatorios (reordenamiento de dígitos adyacentes). Los errores aleatorios tienen diferentes direcciones y, con un volumen suficientemente grande de la población encuestada, se anulan entre sí.

Errores de representatividad - desviaciones de los valores del indicador de la población encuestada de su valor en la población inicial. Estos errores también se dividen en sistemático, apareciendo como resultado de la violación de los principios de selección de unidades a observar de la población inicial, y aleatorio que surgen si la población seleccionada reproduce de forma incompleta a toda la población como un todo. La cantidad de error aleatorio se puede estimar.

Error de muestreo- la diferencia entre el valor del atributo en la población general y su valor calculado a partir de los resultados de la observación selectiva. En la práctica de las encuestas por muestreo, la mayoría de las veces se determinan los errores de muestreo promedio y marginal.

El error de muestreo promedio para diferentes métodos de selección se calcula de manera diferente. Si la selección es aleatoria o mecánica, entonces

Para el promedio: m \u003d s 2 / (n) 1/2

Para fracción: m = (w(1-w)/n) 1/ 2 , donde

m - error medio de muestreo

s 2 - dispersión general

n - tamaño de la muestra

Si la muestra se forma sobre la base de una muestra típica y la selección de unidades se realiza en proporción al volumen de grupos típicos, entonces el error medio es igual a:

Para el medio: m = (s yo 2 / n) 1/2

Para compartir: m = (wi (1-wi) / n) 1/2 , donde

s i 2 - el promedio de las varianzas intragrupo

w i es la proporción de unidades en todo el grupo que tienen el rasgo en estudio.

s yo 2 = ås 2 norte yo / ån yo

El error promedio del muestreo en serie es igual a:

Para el medio: m = (d x 2 / r) 1/2

Para compartir: m = (d 2 w / r) 1/2

re 2 w - variación intergrupal de participación

d x 2 - dispersión intergrupal de un rasgo cuantitativo.

r es el número de series seleccionadas/

d 2 x \u003d å (xi -x) 2 / r

d 2 w \u003d å (wi - w) 2 / r

Si la selección de unidades de la población general se realiza de forma no repetitiva, entonces se modifican las fórmulas del error medio: (1-n/N) 1/2

Error de muestreo marginal D se calcula como el producto del factor de confianza t y el error de muestreo promedio: D = t*m. D está relacionado con el nivel de probabilidad que lo garantiza. Este nivel determina el factor de confianza t, y viceversa. Los valores de t se dan en tablas matemáticas especiales.

Determinación del tamaño de la muestra.

El tamaño de la muestra se calcula, por regla general, en la etapa de diseño de una encuesta por muestreo. Las fórmulas para determinar el tamaño de la muestra se derivan de las fórmulas para los errores marginales de muestreo.

El volumen de muestras aleatorias y mecánicas repetidas está determinado por las fórmulas:

para promedio n \u003d t 2 s 2 / D 2

Para compartir n \u003d t 2 w (1-w) / D 2

En el caso de muestreo sin reintento:

para promedio n \u003d t 2 s 2 N / ND 2 + t 2 s 2

Para compartir n = t 2 w(1-w)N / ND 2 +t 2 w(1-w).

Los valores s 2 y w antes de la observación aleatoria son desconocidos. Aproximadamente se encuentran así:

1. tomado de encuestas anteriores;

2. si se conocen los valores máximo y mínimo del atributo, entonces la desviación estándar se determina de acuerdo con la regla "tres sigma":

s= xmáx – xmín / 6

3. al estudiar un signo alternativo, si no hay información sobre su participación en la población general, se toma el valor máximo posible w = 0.5

Con la selección típica, proporcional al tamaño de los grupos típicos, el tamaño de la muestra para cada grupo está determinado por la fórmula : norte yo = norte * norte yo / norte, donde

yo- tamaño de la muestra del i-ésimo grupo

yo- el volumen del i-ésimo grupo en el gen-ésimo cos-ti.

Con una muestra proporcional a la variación del rasgo, el tamaño de la muestra de cada grupo se encuentra de la siguiente manera: norte yo = nN yo s yo /åN yo s yo .

Con un remuestreo típico proporcional al tamaño de los grupos, el tamaño total de la muestra se encuentra de la siguiente manera:

para promedio n \u003d t 2 s 2 i / D 2

Para compartir n \u003d t 2 w (1-w) / D 2

En el caso de muestreo típico no repetitivo:

para promedio norte = t 2 s 2 yo norte / re 2 norte + t 2 s 2 yo

Para compartir n = t 2 w(1-w)N / D 2 N+t 2 w(1-w)

Conceptos básicos y requisitos previos para el uso del análisis de correlación y regresión.

Correlación- se trata de una dependencia estadística entre variables aleatorias que no tienen un carácter estrictamente funcional, en la que un cambio en una de las variables aleatorias provoca un cambio en la expectativa matemática de la otra.

Análisis de correlación- tiene como tarea la determinación cuantitativa de la proximidad de la conexión entre dos signos y entre los signos efectivos y muchos factores. La estanqueidad de la conexión se expresa cuantitativamente por el valor de los coeficientes de correlación.

Correlación-Regresión el análisis como concepto general incluye la medida de la rigurosidad, la dirección de la comunicación y el establecimiento de una expresión analítica (forma) de comunicación (análisis de regresión).

Análisis de regresión consiste en determinar la expresión analítica de la relación, en la que el cambio en un valor (llamado característica dependiente o efectiva) se debe a la influencia de uno o más valores independientes (factores), y el conjunto de todos los demás factores que también afectan el valor dependiente, toma - trabajos para valores constantes y promedio. La regresión puede ser de un solo factor (par) y multifactorial (múltiple).

El propósito del análisis de regresión es una evaluación de la dependencia funcional del valor promedio condicional del atributo efectivo (Y) en los signos factoriales (x 1, x 2, ... x k).

La premisa principal del análisis de regresión es que sólo el signo resultante (Y) obedece a la ley de distribución normal, y los signos factoriales x 1, x 2, ..., x k pueden tener una ley de distribución arbitraria. En el análisis de series temporales, el tiempo t actúa como factor de signo. Al mismo tiempo, en el análisis de regresión, se implica de antemano la presencia de relaciones causales entre los signos efectivos (Y) factoriales (x 1, x 2, ..., x k). La ecuación de regresión, o el modelo estadístico de la relación de los fenómenos socioeconómicos, expresado por la función Y x \u003d f (x 1, x 2, ..., xk), es bastante adecuado para el fenómeno o proceso real simulado. si se observa lo siguiente requisitos para su construccion.

1. La totalidad de los datos iniciales en estudio son homogéneos y matemáticamente descritos por funciones continuas.

2. La posibilidad de describir el fenómeno simulado mediante una o más ecuaciones de relaciones de causa y efecto.

3. Todos los signos de los factores deben tener una expresión cuantitativa (numérica).

4. La presencia de un volumen suficientemente grande de la muestra en estudio.

5. Las relaciones de causa y efecto entre fenómenos y procesos deben describirse en una forma de dependencia lineal o lineal.

6. Ausencia de restricciones cuantitativas sobre los parámetros del modelo de comunicación.

7. La constancia de la estructura territorial y temporal de la población estudiada.

La validez teórica de los modelos de relación construidos sobre la base del análisis de correlación y regresión se asegura observando lo siguiente condiciones básicas.

1. Todos los signos y sus distribuciones conjuntas deben obedecer a la ley de distribución normal;

2. La varianza del rasgo modelado (Y) siempre debe permanecer constante al cambiar el valor (Y) y los valores de los rasgos de los factores.

3. Las observaciones separadas deben ser independientes, es decir, los resultados obtenidos en la i-ésima observación no deben estar relacionados con las anteriores y contener información sobre las observaciones posteriores, así como influir en ellas.

RESUMEN OBJETIVOS Y CONTENIDO

la observación proporciona información sobre cada unidad del objeto en estudio. Los datos obtenidos no son indicadores generales. Con su ayuda, es imposible sacar conclusiones sobre el objeto en su conjunto sin un procesamiento preliminar de datos.

Por lo tanto, el objetivo de la siguiente etapa de la investigación estadística es sistematizar los datos primarios y obtener, sobre esta base, una característica resumida de todo el objeto utilizando datos estadísticos generalizadores.

Resumen: un conjunto de operaciones secuenciales para generalizar hechos únicos específicos que forman un conjunto, para identificar características y patrones típicos inherentes al fenómeno en estudio como un todo.

si durante la observación estadística se recopilan datos sobre cada unidad de un objeto, entonces el resultado del resumen son datos detallados que reflejan toda la población como un todo

Se debe realizar un resumen estadístico sobre la base de un análisis teórico preliminar de fenómenos y procesos para que durante el resumen no se pierda información sobre el fenómeno en estudio y todos los resultados estadísticos reflejen las características más importantes del objeto.

Según la profundidad del procesamiento del material, el resumen puede ser simple y complejo.

Un resumen simple es la operación de calcular los totales para las mismas unidades de observación.

Un resumen complejo es un conjunto de operaciones que incluye agrupar unidades de observación, contar los totales para cada grupo y para todo el objeto, y presentar los resultados de agrupamiento y resumen en forma de tablas estadísticas.

El resumen está precedido por el desarrollo de su programa, que consta de las siguientes etapas: selección de las características del agrupamiento; determinación del orden de formación de los grupos; desarrollo de un sistema de pok-lei estadístico para caracterizar grupos y el objeto como un todo; desarrollo de un sistema de diseños de cuadros estadísticos en los que se deben presentar los resultados del resumen.

Según la forma de procesamiento material, el resumen: descentralizado y centralizado.

Con un resumen descentralizado (se utiliza, por regla general, en el procesamiento de informes estadísticos), el desarrollo del material se lleva a cabo en etapas sucesivas. Por lo tanto, las autoridades estadísticas de las entidades constitutivas de la Federación de Rusia resumen los informes de las empresas, y los resultados de la región ya se envían al Comité Estatal de Estadística de Rusia, y allí se determinan para toda la economía nacional de la país.

Con un resumen centralizado, todo el material primario ingresa a una organización, donde se procesa de principio a fin. El resumen centralizado generalmente se usa para procesar materiales de encuestas estadísticas únicas.

Según la técnica de ejecución, el resumen estadístico se divide en mecanizado y manual.

Resumen mecanizado: en el que todas las operaciones se realizan mediante computadoras electrónicas. Con los resúmenes manuales, todas las operaciones básicas (cálculo de grupos y totales totales) se realizan manualmente.

Para llevar a cabo el resumen, se elabora un plan que establece cuestiones organizativas: por quién y cuándo se realizarán todas las operaciones, el procedimiento para realizarlo, la composición de la información que se publicará en la prensa periódica.

Cerrando filas de din-ki

Al analizar filas de din-ki, se hace necesario cerrarlas: combinar dos o más filas en una fila. El cierre es necesario en los casos en que los niveles de las series son incomparables por cambios territoriales, por cambios en los precios y por un cambio en la metodología de cálculo de los niveles de las series. es necesario cerrar (combinar) las dos filas anteriores en una. Esto se puede hacer utilizando el factor de comparabilidad. Multiplicando los datos del año por el coeficiente obtenido, obtenemos una serie cerrada (comparable) de dinámicas de valores absolutos, y luego del cambio se toman como 100%, y el resto se recalcula como un porcentaje relativo a estos niveles, respectivamente.

30. M-dy alineación filas din-ki

Cualquier serie de din-ki teóricamente se puede representar como tres componentes:

Tendencia (la principal tendencia y desarrollo de la serie dinámica);

Fluctuaciones cíclicas (periódicas), incluidas las estacionales;

Fluctuaciones aleatorias.

Una de las tareas que se plantean en el análisis de series dinámicas es establecer cambios en los niveles del fenómeno en estudio. En algunos casos, el patrón de cambios en los niveles de una serie de din-ki es bastante claro, por ejemplo, una disminución sistemática en los niveles de una serie o su aumento. a veces los niveles de la serie sufren una variedad de cambios (a veces aumentan, a veces disminuyen). En este caso, solo podemos hablar de una tendencia y desarrollo general: ya sea al crecimiento o al declive.

La identificación de la tendencia principal y el desarrollo (tendencia) se denomina alineación de la serie temporal, y m-dy identificación de la tendencia principal m-dy nivelación.

La selección directa de la tendencia puede ser realizada por tres me-mi.

* Md intervalos gruesos. Este md se basa en la ampliación de las líneas temporales, que incluyen los niveles de la serie. Por ejemplo, una fila de din-ki

la producción diaria se reemplaza por una serie de proyecciones de producción mensuales, y así sucesivamente.

* Md media móvil. En este m-de, los niveles iniciales de la serie se sustituyen por valores medios, que se obtienen a partir de un nivel dado y varios que lo rodean simétricamente. El número entero de niveles sobre los que se calcula el valor medio se denomina intervalo de suavizado. El intervalo de suavizado puede ser impar (3, 5, 7, etc. puntos) o par (2, 4, 6, etc. puntos). El cálculo de los promedios se realiza por el método deslizante, es decir, excluyendo gradualmente el primer nivel del período deslizante aceptado e incluyendo el siguiente. Con el suavizado impar, el valor medio aritmético resultante se asigna a la mitad del intervalo calculado.

El "-" m-dika del suavizado por medias móviles consiste en la convencionalidad de determinar niveles suavizados para puntos al principio y al final de la serie.

* Alineación analítica: es la forma más efectiva de identificar la tendencia principal y el desarrollo. En este caso, los niveles de una serie de dinámicas se expresan en función del tiempo: Yt=f(t)

El propósito del alineamiento analítico de la serie din-ésima es determinar la fábrica f(t) del analito-ésima. En la práctica, de acuerdo con la serie de tiempo disponible, se establece la forma y se encuentran los parámetros de la función f(t), y luego se analiza el comportamiento de las desviaciones de la tendencia.

En economía, a menudo se usa una función de la forma: Уi = а0 +∑ ai +ti

De las funciones de la forma (3.12), con mayor frecuencia al nivelar, se usa el sistema lineal / (*) \u003d ao + a1 * t o el parabólico f (t) \u003d a0 + att + a2 t2.

Los coeficientes ao,a,a2,...,ap se encuentran en la fórmula por mínimos cuadrados.

De acuerdo con este método, para encontrar los parámetros del polinomio de p-ésimo grado, es necesario resolver el sistema de las llamadas ecuaciones normales:

nao+a1∑t=∑Y

ao∑t+ a1∑t*t= ∑Y*t.

La tendencia muestra cómo los factores sistemáticos afectan los niveles de din-ki. La fluctuación de los niveles alrededor de la tendencia sirve como medida del impacto de los factores residuales (aleatorios). Este impacto se puede evaluar

según la fórmula de la desviación estándar.

Conceptos básicos del análisis de correlación-regresión.

Nombre del parámetro Sentido
Tema del artículo: Serie de variación
Rúbrica (categoría temática) Producción

Valores observados variable aleatoria X 1 , X 2 , …, x k llamado opciones.

Frecuencia opciones X me llaman un numero n yo (I=1,…,k) mostrando cuántas veces ocurre esta variante en la muestra.

Frecuencia(frecuencia relativa, acciones) opciones x yo (I=1,…,k) suele llamarse el cociente de su frecuencia n yo al tamaño de la muestra norte.

Las frecuencias y las frecuencias se llaman escamas.

Frecuencia acumulada es costumbre llamar a la cantidad de opciones, cuyos valores son menores que un dado X:

Frecuencia acumulada Es costumbre llamar a la relación entre la frecuencia acumulada y el tamaño de la muestra:

serie de variaciones(serie estadística) - se acostumbra llamar a una secuencia de opciones escritas en orden ascendente y sus pesos correspondientes.

La serie de variación debe ser discreto(muestra de valores de una variable aleatoria discreta) y continuo (intervalo)(selección de valores de una variable aleatoria continua).

La serie variacional discreta tiene la forma:

Cuando el número de opciones es grande o la característica es continua (una variable aleatoria puede tomar cualquier valor en un cierto intervalo), son intervalo serie de variación.

Para construir una serie de variación de intervalo, realice agrupamiento opción - se dividen en intervalos separados:

El número de intervalos a veces se determina usando Fórmulas de Sturges:

Luego se calcula el número de variantes que caen en cada intervalo - frecuencias n yo(o frecuencia n yo/norte). Si la variante está en el borde del intervalo, entonces se adjunta al intervalo derecho.

La serie variacional de intervalo tiene la forma:

Opciones
Frecuencias

Función de distribución empírica (estadística) es costumbre llamar a una función cuyo valor en el punto X es igual a la frecuencia relativa que tomará la variante en un valor inferior a X(frecuencia acumulada para X):

Polígono de frecuencia se llama polilínea cuyos segmentos conectan puntos con coordenadas ( X 1 ; norte 1), (X 2 ; norte 2), …, (x k; nk). los Polígono de frecuencia, que es un análogo estadístico del polígono de distribuciones.

Vale la pena decir que para una serie variacional continua, se puede construir un polígono si los valores X 1 , X 2 , …, x k tomar los puntos medios de los intervalos.

Una serie de variación de intervalo generalmente se representa gráficamente usando histogramas.

gráfico de barras- una figura escalonada que consta de rectángulos cuyas bases son intervalos de longitud parcial h= x yo +1 – x yo, I= 0,…,k-1, y las alturas son iguales a las frecuencias (o frecuencias) de los intervalos n yo (yo).

Recogido en montón(curva acumulativa) - curva de frecuencias acumuladas (frecuencias). Para serie discreta el acumulado es una línea discontinua que conecta los puntos o , . Para serie de intervalos la acumulación comienza desde el punto, cuya abscisa es igual al comienzo del primer intervalo, y la ordenada es la frecuencia acumulada (frecuencia) igual a cero. Otros puntos de esta línea discontinua corresponden a los extremos de los intervalos.

Serie de variación - concepto y tipos. Clasificación y características de la categoría "Serie de variación" 2017, 2018.

  • - Variación serie de distribución

    Distribución del volumen de negocios del comercio minorista en la Federación Rusa en 1995 por tipo de propiedad, millones de rublos Tipos de series de distribución Conferencia VIII. Serie de distribución Como resultado del procesamiento y sistematización de los datos estadísticos primarios, se obtienen....


  • - Serie de variación

    La transformación más simple de los datos estadísticos es su ordenación por magnitud. Tamaño de la muestra de la población general, ordenada en orden no decreciente de elementos, es decir , se llama serie de variación: . En el caso cuando el volumen de observaciones ... .


  • - Tarea 2. Serie de variación de intervalo

    1. Con base en una muestra dada correspondiente a la variante de la tarea, construya una serie de variación de intervalo; construya un histograma y acumule (utilice dos métodos: insertar un gráfico de Excel y el modo "Histograma" del paquete "Análisis de datos"). 2. Analice el histograma resultante. ... .


  • - Compilar una serie de variación de la variabilidad del carácter de semillas de frijol u hojas de cualquier planta de la misma edad. Revelar patrones de variabilidad de rasgos.

    Una población es una unidad estructural de una especie. El número de poblaciones. Causas de las fluctuaciones demográficas. La relación de individuos en poblaciones y entre diferentes poblaciones de la misma y diferente especie. 1. Una característica importante de una especie es su distribución en grupos, poblaciones en...

  • (definición de una serie variacional; componentes de una serie variacional; tres formas de una serie variacional; conveniencia de construir una serie de intervalos; conclusiones que pueden extraerse de la serie construida)

    Una serie variacional es una secuencia de todos los elementos de una muestra dispuestos en orden no decreciente. Se repiten los mismos elementos.

    Variacional: estas son series construidas sobre una base cuantitativa.

    Las series de distribución variacional constan de dos elementos: variantes y frecuencias:

    Las variantes son los valores numéricos de un rasgo cuantitativo en la serie de variación de la distribución. Pueden ser positivos o negativos, absolutos o relativos. Entonces, cuando se agrupan las empresas de acuerdo con los resultados de la actividad económica, las opciones son positivas: esto es ganancia y números negativos: esto es una pérdida.

    Las frecuencias son el número de variantes individuales o cada grupo de la serie de variación, es decir, estos son números que muestran con qué frecuencia ocurren ciertas opciones en una serie de distribución. La suma de todas las frecuencias se denomina volumen de la población y está determinada por el número de elementos de la población total.

    Las frecuencias son frecuencias expresadas como valores relativos (fracciones de unidades o porcentajes). La suma de las frecuencias es igual a uno o 100%. La sustitución de frecuencias por frecuencias permite comparar series variacionales con diferente número de observaciones.

    Hay tres formas de serie de variación: series ordenadas, series discretas y series de intervalos.

    Una serie clasificada es la distribución de unidades individuales de la población en orden ascendente o descendente del rasgo en estudio. La clasificación facilita la división de datos cuantitativos en grupos, detecta inmediatamente los valores más pequeños y más grandes de una característica y resalta los valores que se repiten con mayor frecuencia.

    Otras formas de las series de variación son tablas de grupos compiladas según la naturaleza de la variación en los valores del rasgo en estudio. Por la naturaleza de la variación, se distinguen signos discretos (discontinuos) y continuos.

    Una serie discreta es una serie variacional de este tipo, cuya construcción se basa en signos con un cambio discontinuo (signos discretos). Estos últimos incluyen la categoría arancelaria, el número de hijos en la familia, el número de empleados en la empresa, etc. Estos signos pueden tomar solo un número finito de ciertos valores.

    Una serie variacional discreta es una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda, el número de unidades de población con un valor específico del atributo.

    Si un signo tiene un cambio continuo (la cantidad de ingresos, la experiencia laboral, el costo de los activos fijos de una empresa, etc., que pueden tomar cualquier valor dentro de ciertos límites), entonces se debe construir una serie de variación de intervalo para este signo.



    La tabla de grupos aquí también tiene dos columnas. El primero indica el valor de la función en el intervalo "desde - hasta" (opciones), el segundo, el número de unidades incluidas en el intervalo (frecuencia).

    Frecuencia (frecuencia de repetición) - el número de repeticiones de una variante particular de los valores de los atributos, denotados fi, y la suma de frecuencias igual al volumen de la población estudiada, denotados

    Donde k es el número de opciones de valor de atributo

    Muy a menudo, la tabla se complementa con una columna en la que se calculan las frecuencias acumuladas S, que muestran cuántas unidades de la población tienen un valor de característica no superior a este valor.

    Una serie de distribución variacional discreta es una serie en la que los grupos se componen de acuerdo con una característica que varía discretamente y toma solo valores enteros.

    La serie de distribución de variación de intervalo es una serie en la que el atributo de agrupación, que forma la base de la agrupación, puede tomar cualquier valor en un intervalo determinado, incluidos los fraccionarios.

    Una serie variacional de intervalo es un conjunto ordenado de intervalos de variación de los valores de una variable aleatoria con las correspondientes frecuencias o frecuencias de los valores de la cantidad que caen en cada uno de ellos.

    Es conveniente construir una serie de distribución de intervalo, en primer lugar, con una variación continua de un rasgo, y también si una variación discreta se manifiesta en un amplio rango, es decir el número de opciones para una característica discreta es bastante grande.

    Ya se pueden sacar varias conclusiones de esta serie. Por ejemplo, el elemento promedio de una serie de variación (mediana) puede ser una estimación del resultado más probable de una medición. El primer y último elemento de la serie variacional (es decir, el elemento mínimo y máximo de la muestra) muestran la dispersión de los elementos de la muestra. A veces, si el primer o el último elemento es muy diferente del resto de la muestra, se excluyen de los resultados de la medición, considerando que estos valores se obtuvieron como resultado de algún tipo de falla grave, por ejemplo, tecnológica.

    Como resultado del dominio de este capítulo, el estudiante deberá: saber

    • indicadores de variación y su relación;
    • leyes básicas de distribución de características;
    • la esencia de los criterios de consentimiento; ser capaz de
    • calcular tasas de variación y bondad de ajuste;
    • determinar las características de las distribuciones;
    • evaluar las principales características numéricas de las series de distribución estadística;

    propio

    • métodos de análisis estadístico de series de distribución;
    • fundamentos del análisis de dispersión;
    • métodos para verificar series de distribución estadística para el cumplimiento de las leyes básicas de distribución.

    Indicadores de variación

    En el estudio estadístico de las características de varias poblaciones estadísticas, es de gran interés estudiar la variación de la característica de las unidades estadísticas individuales de la población, así como la naturaleza de la distribución de las unidades según esta característica. Variación - estas son las diferencias en los valores individuales del rasgo entre las unidades de la población estudiada. El estudio de la variación es de gran importancia práctica. Por el grado de variación, uno puede juzgar los límites de la variación del rasgo, la homogeneidad de la población para este rasgo, la tipicidad del promedio, la relación de factores que determinan la variación. Los indicadores de variación se utilizan para caracterizar y ordenar poblaciones estadísticas.

    Los resultados del resumen y agrupación de materiales de observación estadística, elaborados en forma de series de distribución estadística, representan una distribución ordenada de unidades de la población estudiada en grupos según un atributo de agrupación (variable). Si se toma un rasgo cualitativo como base para agrupar, entonces tal serie de distribución se llama atributivo(distribución por profesión, género, color, etc.). Si la serie de distribución se construye sobre una base cuantitativa, entonces dicha serie se llama variacional(distribución por altura, peso, tamaño salarios etc). Construir una serie de variación significa ordenar la distribución cuantitativa de las unidades de población según los valores característicos, contar el número de unidades de población con estos valores (frecuencia), ordenar los resultados en una tabla.

    En lugar de la frecuencia de una variante, es posible utilizar su relación con el volumen total de observaciones, que se denomina frecuencia (frecuencia relativa).

    Hay dos tipos de series de variación: discretas y de intervalo. serie discreta- esta es una serie variacional de este tipo, cuya construcción se basa en signos con un cambio discontinuo (signos discretos). Estos últimos incluyen el número de empleados en la empresa, la categoría salarial, el número de hijos en la familia, etc. Una serie variacional discreta es una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda, el número de unidades de población con un valor específico del atributo. Si un signo tiene un cambio continuo (la cantidad de ingresos, la experiencia laboral, el costo de los activos fijos de una empresa, etc., que, dentro de ciertos límites, pueden tomar cualquier valor), entonces para este signo es posible construir serie de variación de intervalo. La tabla al construir una serie de variación de intervalo también tiene dos columnas. El primero indica el valor de la función en el intervalo "desde - hasta" (opciones), el segundo, el número de unidades incluidas en el intervalo (frecuencia). Frecuencia (frecuencia de repetición) - el número de repeticiones de una variante particular de los valores de atributo. Los intervalos pueden ser cerrados y abiertos. Los intervalos cerrados están limitados en ambos lados, es decir, tener un borde tanto inferior ("desde") como superior ("hasta"). Los intervalos abiertos tienen cualquier borde: superior o inferior. Si las opciones están dispuestas en orden ascendente o descendente, las filas se denominan clasificado.

    Para series variacionales, hay dos tipos de opciones de respuesta de frecuencia: frecuencia acumulada y frecuencia acumulada. La frecuencia acumulada muestra cuántas observaciones el valor de la característica tomó valores menores que el valor especificado. La frecuencia acumulada se determina sumando los valores de la frecuencia característica de un grupo determinado con todas las frecuencias de los grupos anteriores. La frecuencia acumulada caracteriza la proporción de unidades de observación en las que los valores de la característica no superan el límite superior del grupo de días. Así, la frecuencia acumulada muestra el peso específico de la variante en el agregado, las cuales tienen un valor no mayor al dado. La frecuencia, la frecuencia, las densidades absoluta y relativa, la frecuencia acumulada y la frecuencia son características de la magnitud de la variante.

    Las variaciones en el signo de las unidades estadísticas de la población, así como la naturaleza de la distribución, se estudian utilizando indicadores y características de la serie de variación, que incluyen el nivel medio de la serie, la desviación lineal media, la desviación estándar, la dispersión , coeficientes de oscilación, variación, asimetría, curtosis, etc.

    Se utilizan valores promedio para caracterizar el centro de distribución. El promedio es una característica estadística generalizadora, en la que se cuantifica el nivel típico de un rasgo que poseen los miembros de la población estudiada. Sin embargo, puede haber casos en los que las medias aritméticas coincidan con una naturaleza diferente de la distribución, por lo que como características estadísticas de las series de variación se calculan los denominados promedios estructurales - moda, mediana, así como los cuantiles que dividen la distribución. series en partes iguales (cuartiles, deciles, percentiles, etc.).

    Moda - este es el valor de la característica que ocurre con más frecuencia en la serie de distribución que sus otros valores. Para series discretas, esta es la variante con la frecuencia más alta. En las series variacionales de intervalos, para determinar la moda, es necesario en primer lugar determinar el intervalo en el que se encuentra, el llamado intervalo modal. En una serie variacional con intervalos iguales, el intervalo modal está determinado por la frecuencia más alta, en series con intervalos desiguales, pero por la densidad de distribución más alta. Luego, para determinar la moda en filas con intervalos iguales, aplique la fórmula

    donde Mo es el valor de la moda; x Mo - el límite inferior del intervalo modal; h- ancho de intervalo modal; / Mo - frecuencia de intervalo modal; / Mo j - frecuencia del intervalo premodal; / Mo+1 es la frecuencia del intervalo posmodal, y para una serie con intervalos desiguales en esta fórmula de cálculo, en lugar de las frecuencias / Mo, / Mo, / Mo, se deben utilizar las densidades de distribución Mente 0 _| , Mente 0> UMO+"

    Si hay un solo modo, entonces la distribución de probabilidad de la variable aleatoria se llama unimodal; si hay más de un modo, se llama multimodal (polimodal, multimodal), en el caso de dos modos, bimodal. Por regla general, la multimodalidad indica que la distribución en estudio no obedece a la ley distribución normal. Las poblaciones homogéneas, por regla general, se caracterizan por distribuciones unimodales. Multivertex también indica la heterogeneidad de la población estudiada. La aparición de dos o más vértices obliga a reagrupar los datos para aislar grupos más homogéneos.

    En una serie de variación de intervalo, la moda se puede determinar gráficamente utilizando un histograma. Para hacer esto, se dibujan dos líneas que se cruzan desde los puntos superiores de la columna más alta del histograma hasta los puntos superiores de dos columnas adyacentes. Luego, desde el punto de su intersección, se baja una perpendicular al eje de abscisas. El valor de la característica en la abscisa correspondiente a la perpendicular es la moda. En muchos casos, al caracterizar a la población como un indicador generalizado, se da preferencia a la moda, en lugar de la media aritmética.

    mediana - este es el valor central de la característica; lo posee el miembro central de la serie de distribución clasificada. En series discretas, para encontrar el valor de la mediana, primero se determina su número de serie. Para hacer esto, con un número impar de unidades, se suma uno a la suma de todas las frecuencias, el número se divide por dos. Si hay un número par de 1, habrá 2 medianas en la serie, por lo que en este caso la mediana se define como el promedio de los valores de las 2 medianas. Así, la mediana en una serie de variación discreta es el valor que divide la serie en dos partes que contienen el mismo número de opciones.

    En la serie de intervalos, después de determinar el número de serie de la mediana, el intervalo de la mediana se encuentra mediante las frecuencias acumuladas (frecuencias) y luego, utilizando la fórmula para calcular la mediana, se determina el valor de la mediana:

    donde Me es el valor de la mediana; x yo - el límite inferior del intervalo mediano; h- anchura mediana del intervalo; - la suma de las frecuencias de la serie de distribución; /D - la frecuencia acumulada del intervalo previo a la mediana; / Me - la frecuencia del intervalo mediano.

    La mediana se puede encontrar gráficamente usando el acumulado. Para ello, en la escala de frecuencias acumuladas (frecuencias) del cúmulo, desde el punto correspondiente al número ordinal de la mediana, se traza una recta paralela al eje de abscisas hasta su intersección con el cúmulo. Además, desde el punto de intersección de la línea recta indicada con el acumulado, se baja una perpendicular al eje de abscisas. El valor de la característica en el eje x correspondiente a la ordenada dibujada (perpendicular) es la mediana.

    La mediana se caracteriza por las siguientes propiedades.

    • 1. No depende de aquellos valores de atributos que se ubican a ambos lados de la misma.
    • 2. Tiene la propiedad de minimalidad, lo que significa que la suma de las desviaciones absolutas de los valores de los rasgos de la mediana es valor mínimo en comparación con la desviación de los valores característicos de cualquier otro valor.
    • 3. Cuando se combinan dos distribuciones con medianas conocidas, es imposible predecir el valor de la mediana de la nueva distribución por adelantado.

    Estas propiedades de la mediana se utilizan ampliamente en el diseño de la ubicación de los puntos de servicio público: escuelas, clínicas, estaciones de servicio, bombas de agua, etc. Por ejemplo, si se planea construir un policlínico en cierto barrio de la ciudad, entonces es más conveniente ubicarlo en un punto del barrio que no divida la longitud del barrio, sino el número de habitantes.

    La relación de la moda, la mediana y la media aritmética indica la naturaleza de la distribución del rasgo en el agregado, le permite evaluar la simetría de la distribución. Si x Me entonces hay una asimetría de la mano derecha de la serie. Con una distribución normal X - Yo - Mo.

    K. Alineación basada en Pearson varios tipos curvas determinaron que para distribuciones moderadamente asimétricas son válidas las siguientes relaciones aproximadas entre la media aritmética, la mediana y la moda:

    donde Me es el valor de la mediana; Mo - valor de la moda; x arithm - el valor de la media aritmética.

    Si es necesario estudiar la estructura de la serie de variación con más detalle, se calculan los valores característicos, similares a la mediana. Dichos valores característicos dividen todas las unidades de distribución en números iguales, se denominan cuantiles o gradientes. Los cuantiles se subdividen en cuartiles, deciles, percentiles, etc.

    Los cuartiles dividen a la población en cuatro partes iguales. El primer cuartil se calcula de forma similar a la mediana mediante la fórmula de cálculo del primer cuartil, habiendo determinado previamente el primer intervalo trimestral:

    donde Qi es el valor del primer cuartil; xQ^- el límite inferior del intervalo del primer cuartil; h- amplitud del primer intervalo trimestral; /, - frecuencias de la serie de intervalos;

    Frecuencia acumulada en el intervalo anterior al intervalo del primer cuartil; Jq ( - frecuencia del intervalo del primer cuartil.

    El primer cuartil muestra que el 25% de las unidades de población son inferiores a su valor, y el 75% son superiores. El segundo cuartil es igual a la mediana, es decir Q2 = me.

    Por analogía, se calcula el tercer cuartil, habiendo encontrado previamente el tercer intervalo trimestral:

    donde es el límite inferior del intervalo del tercer cuartil; h- ancho del intervalo del tercer cuartil; /, - frecuencias de la serie de intervalos; /X"- frecuencia acumulada en el intervalo anterior

    GRAMO

    intervalo del tercer cuartil; Jq - frecuencia del intervalo del tercer cuartil.

    El tercer cuartil muestra que el 75% de las unidades de población son inferiores a su valor, y el 25% son superiores.

    La diferencia entre el tercer y el primer cuartil es el rango intercuartílico:

    donde Aq es el valor del intervalo intercuartílico; P 3 - el valor del tercer cuartil; Q, - el valor del primer cuartil.

    Los deciles dividen a la población en 10 partes iguales. Un decil es un valor de una característica en una serie de distribución que corresponde a las décimas partes de la población. Por analogía con los cuartiles, el primer decil muestra que el 10% de las unidades de población son menores que su valor y el 90% son mayores, y el noveno decil revela que el 90% de las unidades de población son menores que su valor y el 10% son más. La relación entre el noveno y el primer decil, es decir coeficiente de decil, ampliamente utilizado en el estudio de la diferenciación de ingresos para medir la relación entre los niveles de ingresos del 10% de la población más rica y del 10% de la población menos rica. Los percentiles dividen la población clasificada en 100 partes iguales. El cálculo, significado y uso de los percentiles es similar a los deciles.

    Los cuartiles, deciles y otras características estructurales se pueden determinar gráficamente por analogía con la mediana utilizando el acumulado.

    Para medir el tamaño de la variación, se utilizan los siguientes indicadores: el rango de variación, la desviación lineal promedio, la desviación estándar y la varianza. La magnitud del rango de variación depende enteramente de la aleatoriedad de la distribución de los miembros extremos de la serie. Este indicador es de interés en casos donde es importante saber cuál es la amplitud de las fluctuaciones en los valores del atributo:

    donde R- el valor del rango de variación; x max - el valor máximo del atributo; x tt- el valor mínimo de la característica.

    Al calcular el rango de variación, no se tiene en cuenta el valor de la gran mayoría de los miembros de la serie, mientras que la variación está asociada a cada valor del miembro de la serie. Esta deficiencia está desprovista de indicadores que son promedios obtenidos de las desviaciones de los valores de los rasgos individuales de su valor promedio: la desviación lineal promedio y la desviación estándar. Existe una relación directa entre las desviaciones individuales del promedio y la fluctuación de un rasgo particular. Cuanto mayor sea la volatilidad, mayor será el tamaño absoluto de las desviaciones del promedio.

    La desviación lineal promedio es el promedio aritmético de los valores absolutos de las desviaciones de las opciones individuales de su valor promedio.

    Desviación lineal media para datos no agrupados

    donde / pr - el valor de la desviación lineal promedio; x, - - el valor de la característica; X - PAGS - número de unidades de población.

    Desviación lineal promedio de series agrupadas

    donde / vz - el valor de la desviación lineal promedio; x, - el valor de la característica; X - el valor medio del rasgo para la población estudiada; / - el número de unidades de población en un grupo separado.

    Los signos de desviación se ignoran en este caso, de lo contrario, la suma de todas las desviaciones será igual a cero. La desviación lineal media en función de la agrupación de los datos analizados se calcula mediante diferentes fórmulas: para datos agrupados y no agrupados. La desviación lineal media, debido a su condicionalidad, por separado de otros indicadores de variación, se utiliza relativamente raramente en la práctica (en particular, para caracterizar el cumplimiento de las obligaciones contractuales en términos de uniformidad del suministro; en el análisis de la facturación comercio Exterior, la composición de los empleados, el ritmo de producción, la calidad del producto, teniendo en cuenta caracteristicas tecnologicas producción, etc).

    La desviación estándar caracteriza cuánto se desvían en promedio los valores individuales del rasgo estudiado del valor promedio de la población, y se expresa en unidades del rasgo estudiado. La desviación estándar, al ser una de las principales medidas de variación, es ampliamente utilizada para evaluar los límites de variación de un rasgo en una población homogénea, para determinar los valores de las ordenadas de la curva de distribución normal, así como para cálculos relacionados con la organización de la observación de la muestra y el establecimiento de la precisión de las características de la muestra. La desviación estándar para datos no agrupados se calcula de acuerdo con el siguiente algoritmo: cada desviación del promedio se eleva al cuadrado, todos los cuadrados se suman, después de lo cual la suma de los cuadrados se divide por el número de términos en la serie y se saca la raíz cuadrada de el cociente:

    donde a Iip - el valor de la desviación estándar; Xj- valor de característica; X- el valor medio del atributo para la población estudiada; PAGS - número de unidades de población.

    Para datos analizados agrupados, la desviación estándar de los datos se calcula utilizando la fórmula ponderada

    donde - el valor de la desviación estándar; Xj- valor de característica; X - el valor medio del rasgo para la población estudiada; fx- el número de unidades de población en un grupo particular.

    La expresión debajo de la raíz en ambos casos se llama varianza. Así, la varianza se calcula como el cuadrado medio de las desviaciones de los valores de los rasgos de su valor medio. Para valores de características no ponderados (simples), la varianza se define de la siguiente manera:

    Para valores característicos ponderados

    También hay una forma simplificada especial para calcular la varianza: en términos generales

    para valores de características no ponderados (simples) para valores característicos ponderados
    usando el método de contar desde cero condicional

    donde a 2 - el valor de la dispersión; x, - - el valor de la característica; X - el valor medio de la característica, h- valor del intervalo de grupo, t 1 - peso (A =

    La dispersión tiene una expresión independiente en las estadísticas y es uno de los indicadores de variación más importantes. Se mide en unidades correspondientes al cuadrado de las unidades de medida del rasgo en estudio.

    La dispersión tiene las siguientes propiedades.

    • 1. La dispersión de un valor constante es cero.
    • 2. Reducir todos los valores de la característica por el mismo valor de A no cambia el valor de la varianza. Esto significa que el cuadrado medio de las desviaciones no se puede calcular a partir de los valores dados del atributo, sino a partir de sus desviaciones de algún número constante.
    • 3. Disminución de todos los valores de la función en k veces reduce la dispersión en k 2 veces, y la desviación estándar - en k veces, es decir todos los valores de características se pueden dividir por un número constante (por ejemplo, por el valor del intervalo de la serie), calcular la desviación estándar y luego multiplicarla por un número constante.
    • 4. Si calculamos el cuadrado promedio de las desviaciones de cualquier valor y en difiere en cierta medida de la media aritmética, siempre será mayor que el cuadrado medio de las desviaciones calculadas a partir de la media aritmética. En este caso, el cuadrado medio de las desviaciones será mayor por un valor bien definido, por el cuadrado de la diferencia entre el promedio y este valor tomado condicionalmente.

    La variación de una característica alternativa es la presencia o ausencia de la propiedad estudiada en las unidades de la población. Cuantitativamente, la variación de un atributo alternativo se expresa mediante dos valores: la presencia de la propiedad estudiada en una unidad se denota por uno (1), y su ausencia se denota por cero (0). La proporción de unidades que tienen la propiedad en estudio se denota por P, y la proporción de unidades que no tienen esta propiedad se denota por GRAMO. Así, la varianza de un atributo alternativo es igual al producto de la proporción de unidades que tienen una propiedad dada (P) por la proporción de unidades que no tienen esta propiedad (GRAMO). La mayor variación de la población se consigue en los casos en que una parte de la población, que es el 50% del volumen total de la población, tiene una característica, y la otra parte de la población, también igual al 50%, no la tiene. esta característica, mientras que la varianza alcanza valor máximo igual a 0,25, es decir P = 0,5, G= 1 - P \u003d 1 - 0.5 \u003d 0.5 y o 2 \u003d 0.5 0.5 \u003d 0.25. El límite inferior de este indicador es igual a cero, lo que corresponde a una situación en la que no hay variación en el agregado. Uso práctico La varianza de un signo alternativo consiste en construir intervalos de confianza durante el muestreo.

    Cuanto menor sea el valor de la varianza y la desviación estándar, más homogénea será la población y más típica será la media. En la práctica de la estadística, a menudo se vuelve necesario comparar variaciones de varias características. Por ejemplo, es interesante comparar variaciones en la edad de los trabajadores y sus calificaciones, antigüedad en el servicio y salarios, costo y beneficio, antigüedad en el servicio y productividad laboral, etc. Para tales comparaciones, los indicadores de la variabilidad absoluta de las características no son adecuados: es imposible comparar la variabilidad de la experiencia laboral, expresada en años, con la variación de los salarios, expresada en rublos. Para realizar tales comparaciones, además de las comparaciones de la fluctuación de un mismo atributo en varias poblaciones con diferentes medias aritméticas, se utilizan indicadores de variación - el coeficiente de oscilación, el coeficiente de variación lineal y el coeficiente de variación, que muestran la medida de fluctuaciones de valores extremos alrededor del promedio.

    Factor de oscilación:

    donde VR- el valor del coeficiente de oscilación; R- el valor del rango de variación; X -

    Coeficiente de variación lineal".

    donde vj- el valor del coeficiente de variación lineal; I- el valor de la desviación lineal promedio; X - el valor promedio del rasgo para la población en estudio.

    El coeficiente de variación:

    donde Virginia- el valor del coeficiente de variación; a - el valor de la desviación estándar; X - el valor promedio del rasgo para la población en estudio.

    El coeficiente de oscilación es el porcentaje del rango de variación del valor medio de la característica en estudio, y el coeficiente de variación lineal es la relación entre la desviación lineal media y el valor medio de la característica en estudio, expresado como porcentaje. El coeficiente de variación es el porcentaje de la desviación estándar del valor medio del rasgo en estudio. Como valor relativo, expresado como porcentaje, el coeficiente de variación se utiliza para comparar el grado de variación de varios rasgos. Mediante el coeficiente de variación se estima la homogeneidad de la población estadística. Si el coeficiente de variación es inferior al 33%, entonces la población estudiada es homogénea y la variación es débil. Si el coeficiente de variación es superior al 33%, entonces la población en estudio es heterogénea, la variación es fuerte y el valor promedio es atípico y no puede usarse como un indicador generalizador de esta población. Además, los coeficientes de variación se utilizan para comparar la fluctuación de un rasgo en diferentes poblaciones. Por ejemplo, para evaluar la variación en la antigüedad de los trabajadores en dos empresas. Cómo mas valor coeficiente, más significativa es la variación de la característica.

    A partir de los cuartiles calculados, también es posible calcular el indicador relativo de variación trimestral mediante la fórmula

    donde Q 2 Y

    El rango intercuartil está determinado por la fórmula

    La desviación del cuartil se usa en lugar del rango de variación para evitar las desventajas asociadas con el uso de valores extremos:

    Para series variacionales de intervalos desiguales, también se calcula la densidad de distribución. Se define como el cociente de la frecuencia o frecuencia correspondiente dividido por el valor del intervalo. En series de intervalos desiguales, se utilizan densidades de distribución absolutas y relativas. La densidad de distribución absoluta es la frecuencia por unidad de longitud del intervalo. Densidad de distribución relativa: la frecuencia por unidad de longitud del intervalo.

    Todo lo anterior es cierto para las series de distribución cuya ley de distribución está bien descrita por la ley de distribución normal o se aproxima a ella.