Nivel de significancia estadística (p). Términos y conceptos básicos de estadística médica.

¿Qué crees que hace que tu “otra mitad” sea especial y significativa? ¿Está relacionado con su personalidad o con los sentimientos que tienes por esta persona? ¿O tal vez con el simple hecho de que la hipótesis sobre la aleatoriedad de tu simpatía, como muestran los estudios, tiene una probabilidad inferior al 5%? Si consideramos fiable la última afirmación, entonces, en principio, no existirían sitios de citas exitosos:

Cuando realiza pruebas divididas o cualquier otro análisis de su sitio web, malinterpretar la "significancia estadística" puede llevar a una mala interpretación de los resultados y, por lo tanto, a acciones incorrectas en el proceso de optimización de la conversión. Esto es cierto para las miles de otras pruebas estadísticas que se realizan todos los días en todas las industrias existentes.

Para comprender qué es la “importancia estadística”, es necesario profundizar en la historia del término, conocer su verdadero significado y comprender cómo esta “nueva” y antigua comprensión le ayudará a interpretar correctamente los resultados de su investigación.

Una pequeña historia

Aunque la humanidad ha estado utilizando las estadísticas para resolver diversos problemas durante muchos siglos, la comprensión moderna de la significación estadística, la prueba de hipótesis, la aleatorización e incluso el Diseño de Experimentos (DOE) comenzó a tomar forma recién a principios del siglo XX y está indisolublemente ligada a el nombre de Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher fue un biólogo y estadístico evolutivo que tenía una pasión especial por el estudio de la evolución y la selección natural en los reinos animal y vegetal. Durante su ilustre carrera, desarrolló y popularizó muchas herramientas estadísticas útiles que todavía utilizamos hoy.

Fisher utilizó las técnicas que desarrolló para explicar procesos biológicos como la dominancia, las mutaciones y las desviaciones genéticas. Podemos utilizar las mismas herramientas hoy para optimizar y mejorar el contenido de los recursos web. El hecho de que estas herramientas de análisis puedan usarse para trabajar con objetos que ni siquiera existían en el momento de su creación parece bastante sorprendente. Es igualmente sorprendente que la gente solía realizar cálculos complejos sin calculadoras ni ordenadores.

Para describir los resultados de un experimento estadístico como si tuvieran una alta probabilidad de ser ciertos, Fisher utilizó la palabra "significancia".

Además, uno de los desarrollos más interesantes de Fisher puede denominarse la hipótesis del "hijo sexy". Según esta teoría, las mujeres prefieren a los hombres sexualmente promiscuos (promiscuos) porque esto permitirá que los hijos nacidos de estos hombres tengan la misma predisposición y produzcan más descendencia (tenga en cuenta que esto es solo una teoría).

Pero nadie, ni siquiera los científicos brillantes, está inmune a cometer errores. Los defectos de Fisher todavía atormentan a los especialistas hasta el día de hoy. Pero recuerde las palabras de Albert Einstein: "Quien nunca ha cometido un error nunca ha creado nada nuevo".

Antes de pasar al siguiente punto, recuerde: la significación estadística se produce cuando la diferencia en los resultados de las pruebas es tan grande que no puede explicarse mediante factores aleatorios.

¿Cuál es tu hipótesis?

Para comprender lo que significa "significancia estadística", primero es necesario comprender qué es la "prueba de hipótesis", ya que los dos términos están estrechamente entrelazados.
Una hipótesis es sólo una teoría. Una vez que haya desarrollado una teoría, necesitará establecer un proceso para recolectar suficiente evidencia y recolectar realmente esa evidencia. Hay dos tipos de hipótesis.

Manzanas o naranjas, ¿cuál es mejor?

Hipótesis nula

Por regla general, aquí es donde muchas personas experimentan dificultades. Una cosa a tener en cuenta es que una hipótesis nula no es algo que deba probarse, como demostrar que un determinado cambio en un sitio web conducirá a un aumento en las conversiones, sino viceversa. La hipótesis nula es una teoría que afirma que si realiza algún cambio en el sitio, no sucederá nada. Y el objetivo del investigador es refutar esta teoría, no probarla.

Si nos fijamos en la experiencia de la resolución de crímenes, donde los investigadores también formulan hipótesis sobre quién es el criminal, la hipótesis nula toma la forma de la llamada presunción de inocencia, el concepto según el cual se presume inocente al acusado hasta que se demuestre su culpabilidad. en un tribunal de justicia.

Si la hipótesis nula es que dos objetos son iguales en sus propiedades y estás tratando de demostrar que uno es mejor (por ejemplo, A es mejor que B), debes rechazar la hipótesis nula en favor de la alternativa. Por ejemplo, está comparando una u otra herramienta de optimización de conversiones. En la hipótesis nula, ambos tienen el mismo efecto (o ningún efecto) sobre el objetivo. Como alternativa, el efecto de uno de ellos es mejor.

Su hipótesis alternativa puede contener un valor numérico, como B - A > 20%. En este caso, la hipótesis nula y la alternativa pueden tomar la siguiente forma:

Otro nombre para una hipótesis alternativa es hipótesis de investigación porque el investigador siempre está interesado en probar esta hipótesis en particular.

Significancia estadística y valor p.

Volvamos nuevamente a Ronald Fisher y su concepto de significación estadística.

Ahora que tienes una hipótesis nula y una alternativa, ¿cómo puedes probar una y refutar la otra?

Dado que la estadística, por su propia naturaleza, implica el estudio de una población específica (muestra), nunca se puede estar 100% seguro de los resultados obtenidos. Un buen ejemplo: los resultados electorales a menudo difieren de los resultados de las encuestas preliminares e incluso de los resultados de las encuestas a boca de urna.

El Dr. Fisher quería crear una línea divisoria que le permitiera saber si su experimento fue un éxito o no. Así apareció el índice de confiabilidad. La credibilidad es el nivel que tomamos para decir lo que consideramos “significativo” y lo que no. Si "p", el índice de significancia, es 0,05 o menos, entonces los resultados son fiables.

No te preocupes, en realidad no es tan confuso como parece.

Distribución de probabilidad gaussiana. A lo largo de los bordes están los valores menos probables de la variable, en el centro están los más probables. La puntuación P (área sombreada en verde) es la probabilidad de que el resultado observado ocurra por casualidad.

La distribución de probabilidad normal (distribución gaussiana) es una representación de todos los valores posibles de una determinada variable en un gráfico (en la figura anterior) y sus frecuencias. Si investiga correctamente y luego traza todas sus respuestas en un gráfico, obtendrá exactamente esta distribución. Según la distribución normal, recibirá un gran porcentaje de respuestas similares y el resto de opciones se ubicarán en los bordes del gráfico (las llamadas "colas"). Esta distribución de valores se encuentra a menudo en la naturaleza, por eso se la denomina “normal”.

Usando una ecuación basada en su muestra y los resultados de la prueba, puede calcular lo que se llama una "estadística de prueba", que indicará cuánto se desvían sus resultados. También le dirá qué tan cerca está de que la hipótesis nula sea cierta.

Para ayudarle a entenderlo, utilice calculadoras en línea para calcular la significación estadística:

Un ejemplo de este tipo de calculadoras.

La letra "p" representa la probabilidad de que la hipótesis nula sea cierta. Si el número es pequeño, indicará una diferencia entre los grupos de prueba, mientras que la hipótesis nula sería que son iguales. Gráficamente, parecerá que la estadística de su prueba estará más cerca de una de las colas de su distribución en forma de campana.

El Dr. Fisher decidió establecer el umbral de significancia en p ≤ 0,05. Sin embargo, esta afirmación es controvertida, ya que conduce a dos dificultades:

1. Primero, el hecho de que haya demostrado que la hipótesis nula es falsa no significa que haya demostrado la hipótesis alternativa. Todo este significado simplemente significa que no se puede probar ni A ni B.

2. En segundo lugar, si la puntuación p es 0,049, significará que la probabilidad de la hipótesis nula será del 4,9%. Esto puede significar que los resultados de su prueba pueden ser verdaderos y falsos al mismo tiempo.

Puede utilizar o no el puntaje p, pero luego deberá calcular la probabilidad de la hipótesis nula caso por caso y decidir si es lo suficientemente grande como para impedirle realizar los cambios que planeó y probó. .

El escenario más común para realizar una prueba estadística hoy en día es establecer un umbral de significancia de p ≤ 0,05 antes de ejecutar la prueba en sí. Solo asegúrese de observar de cerca el valor p cuando verifique sus resultados.

Errores 1 y 2

Ha pasado tanto tiempo que los errores que pueden ocurrir al utilizar la métrica de significancia estadística incluso han recibido nombres propios.

Errores tipo 1

Como se mencionó anteriormente, un valor p de 0,05 significa que hay un 5% de posibilidades de que la hipótesis nula sea cierta. Si no lo hace, cometerá el error número 1. Los resultados dicen que su nuevo sitio web aumentó sus tasas de conversión, pero hay un 5% de posibilidades de que no sea así.

Errores tipo 2

Este error es el opuesto al error 1: se acepta la hipótesis nula cuando es falsa. Por ejemplo, los resultados de las pruebas le indican que los cambios realizados en el sitio no aportaron ninguna mejora, aunque sí hubo cambios. Como resultado, pierde la oportunidad de mejorar su desempeño.

Este error es común en pruebas con un tamaño de muestra insuficiente, así que recuerde: cuanto mayor sea la muestra, más confiable será el resultado.

Conclusión

Quizás ningún término sea tan popular entre los investigadores como significación estadística. Cuando los resultados de las pruebas no son estadísticamente significativos, las consecuencias van desde un aumento en las tasas de conversión hasta el colapso de una empresa.

Y dado que los especialistas en marketing utilizan este término cuando optimizan sus recursos, es necesario saber qué significa realmente. Las condiciones de la prueba pueden variar, pero el tamaño de la muestra y los criterios de éxito siempre son importantes. Recuerda esto.

Las principales características de cualquier relación entre variables.

Dos de los más propiedades simples dependencias entre variables: (a) la magnitud de la relación y (b) la confiabilidad de la relación.

- Magnitud . La magnitud de la dependencia es más fácil de entender y medir que la confiabilidad. Por ejemplo, si algún hombre de la muestra tenía un valor de recuento de glóbulos blancos (WCC) superior al de cualquier mujer, entonces se puede decir que la relación entre las dos variables (Género y WCC) es muy alta. En otras palabras, podrías predecir los valores de una variable a partir de los valores de otra.

- Fiabilidad ("verdad"). La confiabilidad de la interdependencia es un concepto menos intuitivo que la magnitud de la dependencia, pero es extremadamente importante. La confiabilidad de la relación está directamente relacionada con la representatividad de una determinada muestra a partir de la cual se extraen conclusiones. En otras palabras, la confiabilidad se refiere a la probabilidad de que una relación sea redescubierta (en otras palabras, confirmada) utilizando datos de otra muestra extraída de la misma población.

Cabe recordar que el objetivo final casi nunca es estudiar esta muestra particular de valores; una muestra sólo es de interés en la medida en que proporciona información sobre toda la población. Si el estudio satisface ciertos criterios específicos, entonces la confiabilidad de las relaciones encontradas entre las variables de la muestra se puede cuantificar y presentar utilizando una medida estadística estándar.

La magnitud de la dependencia y la confiabilidad representan dos características diferentes de las dependencias entre variables. Sin embargo, no se puede decir que sean completamente independientes. Cuanto mayor sea la magnitud de la relación (conexión) entre variables en una muestra de tamaño normal, más confiable será (ver la siguiente sección).

La significancia estadística de un resultado (nivel p) es una medida estimada de confianza en su “verdad” (en el sentido de “representatividad de la muestra”). Más técnicamente hablando, el nivel p es una medida que varía en orden de magnitud decreciente con la confiabilidad del resultado. Un nivel p más alto corresponde a un nivel más bajo de confianza en la relación entre las variables encontradas en la muestra. Es decir, el nivel p representa la probabilidad de error asociada con la distribución del resultado observado a toda la población.

Por ejemplo, nivel p = 0,05(es decir, 1/20) indica que existe un 5% de posibilidades de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de la muestra. En muchos estudios, un nivel p de 0,05 se considera un "margen aceptable" para el nivel de error.

No hay forma de evitar la arbitrariedad a la hora de decidir qué nivel de significancia debería considerarse realmente "significativo". La elección de un cierto nivel de significancia por encima del cual los resultados se rechazan como falsos es bastante arbitraria.



En la práctica, la decisión final suele depender de si el resultado fue predicho a priori (es decir, antes de realizar el experimento) o descubierto a posteriori como resultado de muchos análisis y comparaciones realizadas sobre una variedad de datos, así como sobre la base de datos. tradición del campo de estudio.

Generalmente, en muchos campos, un resultado de p .05 es un límite aceptable para la significación estadística, pero tenga en cuenta que este nivel aún incluye un margen de error bastante grande (5%).

Los resultados significativos al nivel de p 0,01 generalmente se consideran estadísticamente significativos, mientras que los resultados al nivel de p 0,005 o p 0,00 generalmente se consideran estadísticamente significativos. 001 como muy significativo. Sin embargo, debe entenderse que esta clasificación de niveles de significancia es bastante arbitraria y es sólo un acuerdo informal adoptado sobre la base de la experiencia práctica. en un campo de estudio particular.

Está claro que cuanto mayor sea el número de análisis que se realicen sobre la totalidad de los datos recopilados, mayor será el número de resultados significativos (en el nivel seleccionado) que se descubrirán puramente por casualidad.

Algunos métodos estadísticos que implican muchas comparaciones y, por lo tanto, tienen una probabilidad significativa de repetir este tipo de errores, hacen un ajuste o corrección especial para numero total comparaciones. Sin embargo, muchos métodos estadísticos (especialmente los métodos simples de análisis de datos exploratorios) no ofrecen ninguna forma de resolver este problema.

Si la relación entre variables es “objetivamente” débil, entonces no hay otra manera de probar dicha relación que estudiar una muestra grande. Incluso si la muestra es perfectamente representativa, el efecto no será estadísticamente significativo si la muestra es pequeña. Del mismo modo, si una relación es "objetivamente" muy fuerte, entonces se puede detectar con alto grado significancia incluso en una muestra muy pequeña.

Cuanto más débil sea la relación entre las variables, mayor será el tamaño de muestra necesario para detectarla de manera significativa.

Muchas diferentes medidas de relación entre variables. La elección de una medida particular en un estudio particular depende del número de variables, las escalas de medición utilizadas, la naturaleza de las relaciones, etc.

Sin embargo, la mayoría de estas medidas siguen un principio general: intentan estimar una relación observada comparándola con la “relación máxima concebible” entre las variables en cuestión. Técnicamente hablando, la forma habitual de hacer este tipo de estimaciones es observar cómo varían los valores de las variables y luego calcular qué parte de la variación total presente puede explicarse por la presencia de una variación "común" ("conjunta") en dos (o más) variables.

La importancia depende principalmente del tamaño de la muestra. Como ya se explicó, en muestras muy grandes incluso las relaciones muy débiles entre variables serán significativas, mientras que en muestras pequeñas incluso las relaciones muy fuertes no son confiables.

Así, para determinar el nivel de significancia estadística, se necesita una función que represente la relación entre la “magnitud” y la “significancia” de la relación entre variables para cada tamaño de muestra.

Tal función indicaría exactamente “qué probabilidad hay de obtener una dependencia de un valor dado (o más) en una muestra de un tamaño dado, suponiendo que no existe tal dependencia en la población”. En otras palabras, esta función daría un nivel de significancia
(nivel p), y, por tanto, la probabilidad de rechazar erróneamente el supuesto de ausencia de esta dependencia en la población.

Esta hipótesis "alternativa" (que no existe relación en la población) suele denominarse hipótesis nula.

Sería ideal si la función que calcula la probabilidad de error fuera lineal y solo tuviera pendientes diferentes para diferentes tamaños de muestra. Lamentablemente, esta función es mucho más compleja y no siempre es exactamente igual. Sin embargo, en la mayoría de los casos su forma es conocida y puede usarse para determinar niveles de significancia en estudios de muestras de un tamaño determinado. La mayoría de estas funciones están asociadas con una clase de distribuciones llamadas normal .

El nivel de significancia en estadística es un indicador importante que refleja el grado de confianza en la exactitud y veracidad de los datos obtenidos (predichos). El concepto se utiliza ampliamente en diversos campos: desde la realización de investigaciones sociológicas hasta la prueba estadística de hipótesis científicas.

Definición

El nivel de significancia estadística (o resultado estadísticamente significativo) muestra la probabilidad de que los indicadores estudiados ocurran por casualidad. La importancia estadística general de un fenómeno se expresa mediante el coeficiente de valor p (nivel p). En cualquier experimento u observación, existe la posibilidad de que los datos obtenidos se deban a errores de muestreo. Esto es especialmente cierto en el caso de la sociología.

Es decir, un valor estadísticamente significativo es un valor cuya probabilidad de ocurrencia aleatoria es extremadamente pequeña o tiende al extremo. El extremo en este contexto es el grado en que las estadísticas se desvían de la hipótesis nula (una hipótesis cuya coherencia se prueba con los datos de muestra obtenidos). En la práctica científica, el nivel de significancia se selecciona antes de la recopilación de datos y, por regla general, su coeficiente es 0,05 (5%). Para sistemas donde los valores precisos son extremadamente importantes, esta cifra puede ser 0,01 (1%) o menos.

Fondo

El concepto de nivel de significancia fue introducido por el estadístico y genetista británico Ronald Fisher en 1925, cuando estaba desarrollando una técnica para probar hipótesis estadísticas. Al analizar cualquier proceso, existe una cierta probabilidad de que se produzcan determinados fenómenos. Las dificultades surgen cuando se trabaja con porcentajes pequeños (o no obvios) de probabilidades que caen bajo el concepto de "error de medición".

Cuando se trabaja con datos estadísticos que no son lo suficientemente específicos para probarlos, los científicos se enfrentan al problema de la hipótesis nula, que "impide" operar con cantidades pequeñas. Fisher propuso que tales sistemas determinen la probabilidad de eventos al 5% (0,05) como un corte de muestreo conveniente, lo que permite rechazar la hipótesis nula en los cálculos.

Introducción de probabilidades fijas

En 1933 científicos Jerzy Neyman y Egon Pearson en sus trabajos recomendaron establecer un cierto nivel de importancia de antemano (antes de la recopilación de datos). Los ejemplos del uso de estas reglas son claramente visibles durante las elecciones. Digamos que hay dos candidatos, uno de los cuales es muy popular y el otro es poco conocido. Es obvio que el primer candidato ganará las elecciones y las posibilidades del segundo tienden a cero. Se esfuerzan, pero no son iguales: siempre existe la posibilidad de fuerza mayor, información sensacionalista, decisiones inesperadas que pueden cambiar los resultados electorales previstos.

Neyman y Pearson coincidieron en que el nivel de significancia de Fisher de 0,05 (indicado por α) era el más apropiado. Sin embargo, el propio Fischer se opuso en 1956 a fijar este valor. Creía que el nivel de α debería fijarse según circunstancias específicas. Por ejemplo, en física de partículas es 0,01.

valor de nivel p

El término valor p fue utilizado por primera vez por Brownlee en 1960. El P-level (p-value) es un indicador que está inversamente relacionado con la veracidad de los resultados. El coeficiente de valor p más alto corresponde al nivel más bajo de confianza en la relación muestreada entre variables.

Este valor refleja la probabilidad de errores asociados con la interpretación de los resultados. Supongamos nivel p = 0,05 (1/20). Muestra una probabilidad del cinco por ciento de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de la muestra. Es decir, si esta dependencia está ausente, entonces con experimentos similares repetidos, en promedio, en cada vigésimo estudio se puede esperar la misma o mayor dependencia entre las variables. El nivel p suele verse como un "margen" para la tasa de error.

Por cierto, es posible que el valor p no refleje la relación real entre variables, sino que solo muestra un cierto valor promedio dentro de los supuestos. En particular, el análisis final de los datos también dependerá de los valores seleccionados de este coeficiente. En el nivel p = 0,05 habrá algunos resultados y con un coeficiente igual a 0,01 habrá resultados diferentes.

Prueba de hipótesis estadísticas

El nivel de significación estadística es especialmente importante al probar hipótesis. Por ejemplo, al calcular una prueba bilateral, la región de rechazo se divide igualmente en ambos extremos de la distribución de muestreo (en relación con la coordenada cero) y se calcula la verdad de los datos resultantes.

Supongamos que al monitorear un determinado proceso (fenómeno), resulta que la nueva información estadística indica pequeños cambios en relación con los valores anteriores. Al mismo tiempo, las discrepancias en los resultados son pequeñas, no obvias, pero importantes para el estudio. El especialista se enfrenta a un dilema: ¿realmente se están produciendo cambios o se trata de errores de muestreo (inexactitud en las mediciones)?

En este caso, utilizan o rechazan la hipótesis nula (atribuyen todo a un error, o reconocen el cambio en el sistema como un hecho consumado). El proceso de resolución de problemas se basa en la relación entre la significancia estadística general (valor p) y el nivel de significancia (α). Si nivel p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valores utilizados

El nivel de significancia depende del material que se esté analizando. En la práctica, se utilizan los siguientes valores fijos:

  • α = 0,1 (o 10%);
  • α = 0,05 (o 5%);
  • α = 0,01 (o 1%);
  • α = 0,001 (o 0,1%).

Cuanto más precisos sean los cálculos necesarios, menor será el coeficiente α que se utilice. Naturalmente, los pronósticos estadísticos en física, química, productos farmacéuticos y genética requieren mayor precisión que en ciencias políticas y sociología.

Umbrales de importancia en áreas específicas

En campos de alta precisión como la física de partículas y actividad productiva, la significación estadística a menudo se expresa como la relación entre la desviación estándar (indicada por el coeficiente sigma - σ) vs. distribución normal probabilidades (distribución gaussiana). σ es un indicador estadístico que determina la dispersión de los valores de una determinada cantidad en relación con las expectativas matemáticas. Se utiliza para trazar la probabilidad de eventos.

Dependiendo del campo de conocimiento, el coeficiente σ varía mucho. Por ejemplo, al predecir la existencia del bosón de Higgs, el parámetro σ es igual a cinco (σ = 5), lo que corresponde a un valor p = 1/3,5 millones. En los estudios del genoma, el nivel de significancia puede ser 5 × 10 - 8, lo cual no es raro en estas áreas.

Eficiencia

Hay que tener en cuenta que los coeficientes α y el valor p no son especificaciones exactas. Cualquiera que sea el nivel de importancia en las estadísticas del fenómeno en estudio, no es una base incondicional para aceptar la hipótesis. Por ejemplo, cuanto menor sea el valor de α, mayor será la probabilidad de que la hipótesis que se establece sea significativa. Sin embargo, existe riesgo de error, lo que reduce el poder estadístico (significancia) del estudio.

Los investigadores que se centran únicamente en resultados estadísticamente significativos pueden llegar a conclusiones erróneas. Al mismo tiempo, es difícil verificar su trabajo, ya que aplican supuestos (que en realidad son los valores α y p). Por lo tanto, siempre se recomienda, además de calcular la significación estadística, determinar otro indicador: la magnitud del efecto estadístico. El tamaño del efecto es una medida cuantitativa de la fuerza de un efecto.

La confiabilidad estadística es esencial en la práctica de cálculo de la FCC. Anteriormente se señaló que se pueden seleccionar múltiples muestras de la misma población:

Si se seleccionan correctamente, entonces sus indicadores promedio y los indicadores de la población general difieren ligeramente entre sí en la magnitud del error de representatividad, teniendo en cuenta la confiabilidad aceptada;

Si se seleccionan de diferentes poblaciones, la diferencia entre ellas resulta significativa. La estadística consiste en comparar muestras;

Si difieren de manera insignificante, no principal, insignificante, es decir, en realidad pertenecen a la misma población general, la diferencia entre ellos se considera estadísticamente poco confiable.

Estadísticamente confiable Una diferencia muestral es una muestra que difiere significativa y fundamentalmente, es decir, pertenece a poblaciones generales diferentes.

En la FCC, evaluar la significancia estadística de las diferencias muestrales significa resolver muchos problemas prácticos. Por ejemplo, la introducción de nuevos métodos de enseñanza, programas, conjuntos de ejercicios, pruebas y ejercicios de control está asociada con sus pruebas experimentales, lo que debería mostrar que el grupo de prueba es fundamentalmente diferente del grupo de control. Por lo tanto, se utilizan métodos estadísticos especiales, llamados criterios de significación estadística, para detectar la presencia o ausencia de una diferencia estadísticamente significativa entre muestras.

Todos los criterios se dividen en dos grupos: paramétricos y no paramétricos. Los criterios paramétricos requieren la presencia de una ley de distribución normal, es decir Esto significa la determinación obligatoria de los principales indicadores de la ley normal: la media aritmética y la desviación estándar s. Los criterios paramétricos son los más precisos y correctos. Las pruebas no paramétricas se basan en diferencias de rango (ordinales) entre elementos de la muestra.

Estos son los principales criterios de significación estadística utilizados en la práctica de la FCC: prueba de Student y prueba de Fisher.

prueba t de Student lleva el nombre del científico inglés K. Gosset (Estudiante - seudónimo), quien descubrió este método. La prueba de Student es paramétrica y se utiliza para comparar los valores absolutos de muestras. Las muestras pueden variar en tamaño.

prueba t de Student se define así.

1. Encuentre la prueba t de Student usando la siguiente fórmula:


¿Dónde están los promedios aritméticos de las muestras comparadas? t 1, t 2: errores de representatividad identificados con base en los indicadores de las muestras comparadas.

2. La práctica en la FCC ha demostrado que para el trabajo deportivo basta con aceptar la fiabilidad de la cuenta P = 0,95.

Para contar la confiabilidad: P = 0,95 (a = 0,05), con el número de grados de libertad

k = n 1 + n 2 - 2 usando la tabla del Apéndice 4 encontramos el valor del valor límite del criterio ( t gr).

3. Con base en las propiedades de la ley de distribución normal, el criterio de Student compara t y t gr.

Sacamos conclusiones:

si t t gr, entonces la diferencia entre las muestras comparadas es estadísticamente significativa;

si t t gr, entonces la diferencia es estadísticamente insignificante.

Para los investigadores en el campo de FCS, evaluar la significación estadística es el primer paso para resolver un problema específico: si las muestras que se comparan son fundamentalmente o no fundamentalmente diferentes entre sí. El siguiente paso es evaluar esta diferencia desde un punto de vista pedagógico, que viene determinado por las condiciones de la tarea.

Consideremos la aplicación de la prueba de Student usando un ejemplo específico.

Ejemplo 2.14. Se evaluó la frecuencia cardíaca (lpm) de un grupo de 18 sujetos antes de x i y después y yo calentamiento.

Evaluar la efectividad del calentamiento en función de la frecuencia cardíaca. Los datos iniciales y los cálculos se presentan en la tabla. 2.30 y 2.31.

Tabla 2.30

Procesamiento de indicadores de frecuencia cardíaca antes del calentamiento.


Los errores de ambos grupos coincidieron, ya que los tamaños de muestra fueron iguales (el mismo grupo fue estudiado en diferentes condiciones) y las desviaciones estándar fueron s x = s y = 3 latidos/min. Pasemos a definir la prueba de Student:

Fijamos la fiabilidad de la cuenta: P = 0,95.

Número de grados de libertad k 1 = n 1 + n 2 - 2 = 18 + 18-2 = 34. De la tabla del Apéndice 4 encontramos t gr= 2,02.

Inferencia estadística. Dado que t = 11,62 y la frontera t gr = 2,02, entonces 11,62 > 2,02, es decir t > t gr, por lo tanto la diferencia entre las muestras es estadísticamente significativa.

Conclusión pedagógica. Se encontró que en términos de frecuencia cardíaca la diferencia entre el estado del grupo antes y después del calentamiento es estadísticamente significativa, es decir. significativo, fundamental. Entonces, basándonos en el indicador de frecuencia cardíaca, podemos concluir que el calentamiento es efectivo.

Criterio de Fisher es paramétrico. Se utiliza al comparar tasas de dispersión de muestras. Esto suele significar una comparación en términos de estabilidad del rendimiento deportivo o estabilidad de los indicadores funcionales y técnicos en la práctica. cultura Física y deportes. Las muestras pueden ser de diferentes tamaños.

El criterio de Fisher se define en la siguiente secuencia.

1. Encuentre el criterio de Fisher F usando la fórmula


donde , son las varianzas de las muestras comparadas.

Las condiciones del criterio de Fisher estipulan que en el numerador de la fórmula F hay una gran dispersión, es decir el número F es siempre mayor que uno.

Establecemos la confiabilidad del cálculo: P = 0,95 - y determinamos el número de grados de libertad para ambas muestras: k 1 = n 1 - 1, k 2 = n 2 - 1.

Utilizando la tabla del Apéndice 4, encontramos el valor límite del criterio F gramo.

Comparación de los criterios F y F. gramo nos permite formular conclusiones:

si F > F gr, entonces la diferencia entre las muestras es estadísticamente significativa;

si F< F гр, то различие между выборками статически недо­стоверно.

Pongamos un ejemplo específico.

Ejemplo 2.15. Analicemos dos grupos de jugadores de balonmano: xyo (n 1= 16 personas) y y i (p 2 = 18 personas). Estos grupos de deportistas fueron estudiados para el tiempo o los tiempos de despegue al lanzar el balón a la portería.

¿Los indicadores de repulsión son del mismo tipo?

Los datos iniciales y los cálculos básicos se presentan en la tabla. 2,32 y 2,33.

Tabla 2.32

Procesamiento de indicadores de repulsión del primer grupo de jugadores de balonmano.


Definamos el criterio de Fisher:





Según los datos presentados en la tabla del Apéndice 6, encontramos Fgr: Fgr = 2,4

Prestemos atención al hecho de que en la tabla del Apéndice 6 la lista de los números de grados de libertad de dispersión tanto mayor como menor se vuelve más aproximada a medida que nos acercamos a números mayores. Así, el número de grados de libertad de la dispersión mayor sigue en este orden: 8, 9, 10, 11, 12, 14, 16, 20, 24, etc., y la más pequeña: 28, 29, 30, 40. , 50, etc. d.

Esto se explica por el hecho de que a medida que aumenta el tamaño de la muestra, las diferencias en la prueba F disminuyen y es posible utilizar valores tabulares cercanos a los datos originales. Entonces, en el ejemplo 2,15 =17 está ausente y podemos tomar el valor más cercano a él k = 16, del cual obtenemos Fgr = 2,4.

Inferencia estadística. Dado que la prueba de Fisher F= 2,5 > F= 2,4, las muestras son estadísticamente distinguibles.

Conclusión pedagógica. Los valores del tiempo (s) de salida al lanzar el balón a la portería para los jugadores de balonmano de ambos grupos difieren significativamente. Estos grupos deben considerarse diferentes.

Investigaciones futuras deberían revelar la razón de esta diferencia.

Ejemplo 2.20.(sobre la fiabilidad estadística de la muestra ). ¿Ha mejorado la calificación del futbolista si el (los) tiempo(s) desde que se da la señal hasta que se patea el balón al inicio del entrenamiento fue x i y al final y i ?

Los datos iniciales y los cálculos básicos se dan en la tabla. 2,40 y 2,41.

Tabla 2.40

Procesamiento de indicadores de tiempo desde dar una señal hasta golpear la pelota al inicio del entrenamiento.


Determinemos la diferencia entre grupos de indicadores utilizando el criterio de Student:

Con confiabilidad P = 0.95 y grados de libertad k = n 1 + n 2 - 2 = 22 + 22 - 2 = 42, usando la tabla del Apéndice 4 encontramos t gr= 2,02. Dado que t = 8,3 > t gr= 2,02: la diferencia es estadísticamente significativa.

Determinemos la diferencia entre grupos de indicadores utilizando el criterio de Fisher:


Según la tabla del Apéndice 2, con confiabilidad P = 0,95 y grados de libertad k = 22-1 = 21, el valor F gr = 21. Dado que F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Inferencia estadística. Según la media aritmética, la diferencia entre grupos de indicadores es estadísticamente significativa. En términos de dispersión (dispersión), la diferencia entre grupos de indicadores no es estadísticamente confiable.

Conclusión pedagógica. Las calificaciones del futbolista han mejorado significativamente, pero se debe prestar atención a la estabilidad de su testimonio.

Preparándose para el trabajo

Antes de esto trabajo de laboratorio en la disciplina "Metrología deportiva" a todos los estudiantes grupo de estudio es necesario formar equipos de trabajo de 3-4 estudiantes en cada uno, para completar conjuntamente la asignación de trabajo de todos los trabajos de laboratorio.

En preparación para el trabajo lea las secciones relevantes de la literatura recomendada (consulte la sección 6 de la guía de datos instrucciones metodológicas) y apuntes de conferencias. Estudiar los apartados 1 y 2 de este trabajo de laboratorio, así como el trabajo asignado al mismo (apartado 4).

Preparar un formulario de informe en hojas estándar de papel de escribir tamaño A4 y rellénelo con los materiales necesarios para el trabajo.

El informe debe contener :

Pagina del titulo indicando el departamento (UC y TR), grupo de estudio, apellido, nombre, patronímico del estudiante, número y título del trabajo de laboratorio, fecha de su realización, así como apellido, grado académico, título académico y cargo del profesor aceptando el trabajo;

Objetivo del trabajo;

Fórmulas con valores numéricos que explican los resultados intermedios y finales de los cálculos;

Tablas de valores medidos y calculados;

Material gráfico requerido por el encargo;

Breves conclusiones sobre los resultados de cada etapa del trabajo asignado y sobre el trabajo realizado en general.

Todos los gráficos y tablas se dibujan cuidadosamente utilizando herramientas de dibujo. Gráfico condicional y designaciones de letras debe cumplir con los estándares GOST. Está permitido preparar un informe utilizando tecnología informática.

Trabajo asignado

Antes de realizar todas las mediciones, cada miembro del equipo debe estudiar las normas de uso. juego de deportes Dardos que figuran en el Apéndice 7, que son necesarios para la realización de las siguientes etapas de la investigación.

Etapa I de la investigación“Estudio de los resultados del acierto al blanco del juego deportivo de Dardos por cada miembro del equipo para el cumplimiento de la ley de distribución normal según el criterio χ 2 Pearson y el criterio tres sigma"

1. medir (probar) su velocidad (personal) y coordinación de acciones, lanzando dardos de 30 a 40 veces a un objetivo circular en el juego de deportes Dardos.

2. Resultados de las mediciones (pruebas) xyo(con vasos) organizar en la forma serie de variación e ingresar en la tabla 4.1 (columnas , realizar todos los cálculos necesarios, completar las tablas necesarias y sacar conclusiones apropiadas sobre el cumplimiento de la distribución empírica resultante con la ley de distribución normal, por analogía con cálculos, tablas y conclusiones similares del ejemplo 2.12, figuran en la sección 2 de estas directrices en las páginas 7 -10.

Tabla 4.1

Correspondencia de la velocidad y coordinación de las acciones de los sujetos con la ley de distribución normal.

No. redondeado
Total

II – etapa de investigación

“Evaluación de los indicadores promedio de la población general de aciertos al objetivo del juego deportivo Dardos de todos los estudiantes del grupo de estudio en base a los resultados de las mediciones de los miembros de un equipo”

Evaluar los indicadores promedio de velocidad y coordinación de acciones de todos los estudiantes del grupo de estudio (según la lista del grupo de estudio en la revista de la clase) en función de los resultados de acertar en el objetivo del juego deportivo Dardos de todos los miembros del equipo, obtenidos en la primera etapa de investigación de este trabajo de laboratorio.

1. Documentar los resultados de las mediciones de velocidad y coordinación de acciones. al lanzar dardos a un objetivo circular en un juego de deportes Dardos de todos los miembros de su equipo (2 - 4 personas), que representan una muestra de los resultados de las mediciones de la población general (resultados de las mediciones de todos los estudiantes de un grupo de estudio, por ejemplo, 15 personas), inscribiéndolas en la segunda y tercera columnas Tabla 4.2.

Tabla 4.2

Procesamiento de indicadores de rapidez y coordinación de acciones.

miembros de la brigada

No.
Total

En el cuadro 4.2 bajo debe ser entendido , puntuación media igualada (ver resultados del cálculo en la Tabla 4.1) miembros de su equipo ( , obtenido en la primera etapa de la investigación. Se debe notar que, generalmente, La Tabla 4.2 contiene el valor promedio calculado de los resultados de la medición obtenidos por un miembro del equipo en la primera etapa de la investigación. , ya que la probabilidad de que coincidan los resultados de las mediciones de diferentes miembros del equipo es muy pequeña. Entonces, por regla general, los valores en columna Tabla 4.2 para cada fila - igual a 1, A en la línea “Total "columnas" ", se escribe el número de miembros de su equipo.

2. Realice todos los cálculos necesarios para completar la tabla 4.2, así como otros cálculos y conclusiones similares a los cálculos y conclusiones del ejemplo 2.13 que se dan en la segunda sección de este desarrollo metodológico en las páginas 13-14. Se debe tener en cuenta al calcular el error de representatividad. "metro" es necesario utilizar la fórmula 2.4 dada en la página 13 de este desarrollo metodológico, ya que la muestra es pequeña (n, y se conoce el número de elementos de la población general N, y es igual al número de estudiantes del grupo de estudio, según el listado de la revista del grupo de estudio.

III – etapa de investigación

Evaluación de la efectividad del calentamiento según el indicador “Velocidad y coordinación de acciones” por cada miembro del equipo mediante la prueba t de Student

Evaluar la efectividad del calentamiento para el lanzamiento de dardos a la diana del juego deportivo "Dardos", realizado en la primera etapa de investigación de este trabajo de laboratorio, por cada miembro del equipo según el indicador "Velocidad y coordinación de acciones", utilizando el criterio de Student, un criterio paramétrico para la confiabilidad estadística de la ley de distribución empírica con respecto a la ley de distribución normal.

… Total

2. variaciones y RMS , resultados de las mediciones del indicador “Velocidad y coordinación de acciones” en base a los resultados del calentamiento, dado en la tabla 4.3, (ver cálculos similares dados inmediatamente después de la tabla 2.30 del ejemplo 2.14 en la página 16 de este desarrollo metodológico).

3. Cada miembro del equipo de trabajo. medir (probar) su velocidad (personal) y coordinación de acciones después del calentamiento,

… Total

5. Realizar cálculos promedio variaciones y RMS ,resultados de las mediciones del indicador “Velocidad y coordinación de acciones” después del calentamiento, dado en la tabla 4.4, anote el resultado general de la medición basándose en los resultados del calentamiento (ver cálculos similares dados inmediatamente después de la tabla 2.31 del ejemplo 2.14 en la página 17 de este desarrollo metodológico).

6. Realice todos los cálculos y conclusiones necesarios similares a los cálculos y conclusiones del ejemplo 2.14 que figuran en la segunda sección de este desarrollo metodológico en las páginas 16-17. Se debe tener en cuenta al calcular el error de representatividad. "metro" es necesario utilizar la fórmula 2.1 dada en la página 12 de este desarrollo metodológico, ya que la muestra es n y se desconoce el número de elementos de la población N (.

IV – etapa de investigación

Evaluación de la uniformidad (estabilidad) de los indicadores “Rapidez y coordinación de acciones” de dos miembros del equipo utilizando el criterio de Fisher

Evaluar la uniformidad (estabilidad) de los indicadores “Rapidez y coordinación de acciones” de dos miembros del equipo utilizando el criterio de Fisher, con base en los resultados de medición obtenidos en la tercera etapa de la investigación en este trabajo de laboratorio.

Para hacer esto necesitas hacer lo siguiente.

Utilizando los datos de las tablas 4.3 y 4.4, los resultados del cálculo de las varianzas de estas tablas obtenidos en la tercera etapa de la investigación, así como la metodología para calcular y aplicar el criterio de Fisher para evaluar la uniformidad (estabilidad) de los indicadores deportivos, dado en ejemplo 2.15 en las páginas 18-19 de este desarrollo metodológico, extraiga conclusiones estadísticas y pedagógicas apropiadas.

V – etapa de investigación

Evaluación de grupos de indicadores “Rapidez y coordinación de acciones” de un miembro del equipo antes y después del calentamiento

Al justificar la inferencia estadística, cabe preguntarse: ¿dónde está la línea entre aceptar y rechazar la hipótesis nula? Debido a la presencia de influencias aleatorias en el experimento, este límite no se puede trazar con absoluta precisión. Se basa en el concepto nivel de significancia. Nivel de significancia se llama probabilidad de rechazar falsamente la hipótesis nula. O, en otras palabras, Nivel significativo - Esta es la probabilidad de cometer un error tipo I al tomar una decisión. Para denotar esta probabilidad, por regla general, utilizan la letra griega α o la letra latina r. En lo que sigue usaremos la letra r.

Históricamente, en las ciencias aplicadas que utilizan la estadística, y en particular en la psicología, se considera que el nivel más bajo de significación estadística es el nivel pag = 0,05; suficiente - nivel R= 0,01 y nivel más alto pag = 0,001. Por lo tanto, en las tablas estadísticas que se encuentran en el apéndice de los libros de texto de estadística, generalmente se dan valores tabulares para los niveles. pag = 0,05, pag = 0,01 y R= 0,001. A veces se dan valores tabulares para los niveles. R - 0,025 y pag = 0,005.

Los valores de 0,05, 0,01 y 0,001 son los llamados niveles estándar de significancia estadística. Al analizar estadísticamente datos experimentales, un psicólogo, según los objetivos e hipótesis del estudio, debe seleccionar el nivel de significancia requerido. Como podemos ver, aquí el valor más grande, o el límite inferior del nivel de significancia estadística, es igual a 0,05; esto significa que se permiten cinco errores en una muestra de cien elementos (casos, sujetos) o un error en veinte. elementos (casos, sujetos). Se cree que no podemos equivocarnos ni seis, ni siete, ni más veces de cada cien. El costo de tales errores será demasiado alto.

Tenga en cuenta que los paquetes estadísticos modernos en las computadoras no utilizan niveles de significancia estándar, sino niveles calculados directamente en el proceso de trabajo con el método estadístico correspondiente. Estos niveles, designados por la letra R, puede tener una expresión numérica diferente en el rango de 0 a 1, por ejemplo, pag = 0,7, R= 0,23 o R= 0,012. Está claro que en los dos primeros casos los niveles de significancia obtenidos son demasiado altos y es imposible decir que el resultado sea significativo. Además, en este último caso los resultados son significativos al nivel de 12 milésimas. Este es un nivel confiable.

La regla para aceptar una conclusión estadística es la siguiente: a partir de los datos experimentales obtenidos, el psicólogo calcula la llamada estadística empírica, o valor empírico, utilizando el método estadístico que haya elegido. Es conveniente denotar esta cantidad como h ellos . Entonces las estadísticas empíricas h ellos se compara con dos valores críticos que corresponden a niveles de significancia del 5% y 1% para el método estadístico seleccionado y que se denotan como h cr . Cantidades h cr se encuentran para un método estadístico determinado utilizando las tablas correspondientes que figuran en el apéndice de cualquier libro de texto de estadística. Estas cantidades, por regla general, son siempre diferentes y en lo que sigue, por conveniencia, se pueden llamar como h kr1 Y h kr2 . Valores críticos encontrados en tablas. h kr1 Y h kr2 Es conveniente representarlo en la siguiente forma de notación estándar:

Destacamos, sin embargo, que utilizamos la notación h ellos Y h cr como abreviatura de la palabra "número". Todos los métodos estadísticos han adoptado sus propias designaciones simbólicas para todas estas cantidades: tanto el valor empírico calculado mediante el método estadístico correspondiente como el valor crítico encontrado en las tablas correspondientes. Por ejemplo, al calcular el coeficiente de correlación de rango de Spearman utilizando una tabla de valores críticos de este coeficiente, se encontraron los siguientes valores críticos, que para este método se denotan con la letra griega ρ (“rho”). entonces para pag = Valor 0,05 encontrado en la tabla. ρ cr 1 = 0,61 y para pag = magnitud 0,01 ρ cr 2 = 0,76.

En la forma estándar de notación adoptada en la siguiente presentación, se ve así:

Ahora necesitamos comparar nuestro valor empírico con los dos valores críticos encontrados en las tablas. La mejor manera de hacerlo es colocar los tres números en lo que se llama el "eje de significancia". El "eje de importancia" es una línea recta, en cuyo extremo izquierdo está el 0, aunque, por regla general, no está marcado en esta línea recta, y de izquierda a derecha hay un aumento en la serie numérica. De hecho, este es el eje de abscisas habitual de la escuela. OH Sistema de coordenadas Cartesianas. Sin embargo, la peculiaridad de este eje es que tiene tres tramos, “zonas”. Una zona extrema se llama zona de insignificancia, la segunda zona extrema se llama zona de importancia y la zona intermedia se llama zona de incertidumbre. Los límites de las tres zonas son h kr1 Para pag = 0,05 y h kr2 Para pag = 0,01, como se muestra en la figura.

Dependiendo de la regla de decisión (regla de inferencia) prescrita en este método estadístico, son posibles dos opciones.

Primera opción: se acepta la hipótesis alternativa si h ellosh cr .

O la segunda opción: se acepta la hipótesis alternativa si h ellosh cr .

contado h ellos según algún método estadístico, necesariamente debe caer en una de tres zonas.

Si el valor empírico cae en la zona de insignificancia, entonces se acepta la hipótesis H 0 sobre la ausencia de diferencias.

Si h ellos cae en la zona de significancia, se acepta la hipótesis alternativa H 1 oh presencia de diferencias, y se rechaza la hipótesis H 0.

Si h ellos cae en una zona de incertidumbre, el investigador se enfrenta a un dilema. Entonces, dependiendo de la importancia del problema a resolver, puede considerar que la estimación estadística obtenida es confiable al nivel del 5% y, por lo tanto, aceptar la hipótesis H 1, rechazando la hipótesis H 0. , o - poco fiable al nivel del 1%, aceptando así la hipótesis H 0. Sin embargo, destacamos que este es exactamente el caso cuando un psicólogo puede cometer errores del primer o segundo tipo. Como se analizó anteriormente, en estas circunstancias es mejor aumentar el tamaño de la muestra.

Recalquemos también que el valor h ellos puede coincidir exactamente con cualquiera de los dos h kr1 o h kr2 . En el primer caso, podemos suponer que la estimación es confiable exactamente al nivel del 5% y aceptar la hipótesis H 1 o, por el contrario, aceptar la hipótesis H 0. En el segundo caso, por regla general, se acepta la hipótesis alternativa H 1 sobre la presencia de diferencias y se rechaza la hipótesis H 0.