Estandarización matemática para la validación de pruebas


	Estandarización matemática para la validación de pruebas
	Profesores de Tiempo Completo de la Benemérita Universidad Autónoma de Puebla (México)	Enrique Buendía-Lozada Rodrigo Aguilar-Enríquez Mauricio Caballero-Gómez Alisvech Águila Carralero Marco Cruz-Gómez buendiaenr1@gmail.com
	Resumen La falta de test y los múltiples usos que estos test tienen, crean la necesidad de buscar mejores métodos de desarrollo y aplicación de estos, de lo anterior el objetivo en este trabajo es crear una aplicación de cómputo que coadyuve a la creación y validación de test desde el aspecto estadístico como propuesta de estandarización matemática requerida. La aplicación propuesta es ptestV2.2.02 y está publicada en http://sourceforge.net/projects/biomechanics/files/Test/ de libre distribución. Palabras clave: Biomecánica. Test. Metodología. Estandarización matemática. Recepción: 04/11/2014 - Aceptación: 22/11/2014.
	EFDeportes.com, Revista Digital. Buenos Aires, Año 19, Nº 199, Diciembre de 2014. http://www.efdeportes.com/

1 / 1

Introducción

    Los test tienen múltiples usos, como se menciona en (Pérez Guerra, 2008; Gómez, 2011; Yucra Rivera, 2001) y como se sugiere en Alejandro Gerardo (2013), O’Farril asume que uno de los problemas científicos de mayor envergadura que presenta el deporte de alto rendimiento es la ausencia de herramientas en forma de medición o pruebas, para poder controlar y evaluar el nivel de preparación deportiva con una calidad y rango de variación adecuados, acotando además que la mayoría de las pruebas específicas existentes entran en el campo de la llamada cualimetría, o sea, no se basan en el empleo de la medicina, esta inquietud no debe excluir la posibilidad de diseñar procedimientos de control que permitan evaluar al atleta dentro de su actividad deportiva en particular, pues si algo es patrimonio de los deportes de cooperación-oposición es el carácter abierto de sus habilidades que se realizan en un ambiente incierto y dependiente de las demandas situacionales.”, esto es lo que se plantea también en Roldán Aguilar (2007), aunado a que algunas pruebas extranjeras se han querido usar en México y particularmente en Puebla, teniendo efectos no esperados como se demuestra en Torres Machorro (2012) al trabajar una batería de pruebas en niños en Béisbol, con la que el entrenador esperaba identificar a niños de alto nivel deportivo, dadas las condiciones y el tiempo de trabajo con estos, pero sin usar pruebas (por falta de estas) de control, desarrollo o mantenimiento del nivel deportivo durante el plan de entrenamiento.

    Así mismo se cita en Alejandro Gerardo (2013) a Antonio Morales Águila que en 2001 dijo que había: “15 problemas que amenazaban la confiabilidad en el uso y la aplicación de las pruebas entre los cuales distinguía con mayor énfasis la ausencia de una metodología para su elaboración y validación en el empleo de pruebas generales para evaluar al deportista en su actividad específica, la transferencia de pruebas y la valoración de capacidades a partir de una sola situación del test.”

    Por lo anteriormente mencionado este trabajo tiene como objetivo, crear una aplicación de cómputo que estandarice la matemática necesaria para la elaboración y validación de pruebas.

Metodología

    Se usará como guía de elaboración teórica de pruebas la metodología propuesta por Antonio Morales Águila. La metodología propuesta (Escalante Candeaux & Pila Hernández, 2012; Morales Rodríguez) por Antonio Morales Águila se describe a continuación:

Estructura del test

Nombre

Como la identifica, enunciar los parámetros esenciales que se miden. Definición de lo que se desea medir. Determina con precisión lo que la prueba aborda.

Objetivo

Claridad de lo que se quiere medir para (fase de validación) ser acertados en la elección del criterio.

Fundamentación teórica

Soportado en la pedagogía, fisiología, psicología y otras ciencias se argumenta el porqué de la selección de un determinado ejercicio.

Metodología

Explicar los pasos a seguir para cumplir el ejercicio.

La metodología puede influir en los valores de las variables. (Teoría, práctica y Matemática)

Tarea o consigna

Plantea al deportista lo que se le exige con la prueba.

Condiciones de estandarización

Garantizar que las tareas se realicen en igualdad de condiciones. (Teoría, práctica y Matemática)

Medios e instrumentos

Comprende los requerimientos materiales para la ejecución de la prueba.

Forma de calificación

Precisa como expresar los datos. Se refiere a lo cualitativo no a lo cuantitativo, o transformar lo cualitativo en cuantitativo.

Investigadores

Definir sus funciones y el número de personas que registrarán la actividad del deportista.

Protocolo

Plantilla para el registro de los datos.

Procesamiento de la información

Asegura la objetividad de la evaluación, al precisar los pasos encaminados a la obtención de la información final. (Parte matemática)

Normativas de evaluación

Posibilita arribar a conclusiones acerca de lo que está midiéndose.

Se requiere de una selección de normativas que aporte criterios acertados para que el resultado se convierta en evaluación como reclama V. M. Zatsiorsky.

Validez

Criterio de validez (ej.: grupo de personas con las características tales).

Tipos de ejercicios que se aplicarán, para medir lo que deseamos, para cumplir con el objetivo y la fundamentación teórica.

Demostración teórica y práctica de lo que deseamos medir. Esto es por ej.: demostrar que la medida realizada por un equipo (aparato) experimental coincide con el dato real.

Verificar que el aparato de medición de variables registre lo que deseamos medir y no haga cálculos indirectos de dichas variables.

La validez de la metodología usada puede tener dos fuentes.

Es la justificación de que con la misma metodología las variables no han sufrido modificaciones significativas.

La segunda fuente de validez es la aportada por diferentes autores que realizan de forma habitual pruebas similares a la muestra para la determinación de de los valores de las variables. (Teoría, práctica y Matemática)

Confiabilidad

Caso 1

Prueba piloto.

Prueba en muestra diferente.

Caso 2

Prueba piloto.

En cierto tiempo aplicar la prueba al mismo grupo de personas.

Para los 2 casos

Aplicar correlación

cercano a uno o menos uno -> si confiable

cercano a cero -> no confiable

Es estándar

Análisis de Varianza ANOVA

Usar Post hoc Sheffé o LSD para identificar las diferencias.

Reproductibilidad

La reproductibilidad de un test queda garantizada, si entre dos pruebas similares (test – retest) no existen diferencias significativas. (Usar Lawrwnce-Lin)

Ética o Bioética?

Usar le declaración de Helsinki de la Asociación Médica Mundial, para la investigación con los seres humanos.

Modificado por Enrique R.P. Buendia Lozada de Morales Águila, Antonio (1995).

    La relación de la metodología de Antonio Morales Águila y la aplicación de cómputo se describe en la Ilustración 1:

Ilustración 1. Metodología para la aplicación de cómputo

Función

Texto en el botón de la aplicación

Descripción

Significado

Leer información de análisis (mediciones de una sola variable)

Leer los datos de las muestras [*.csv]

Información capturada en un archivo de Excel y guardada en el tipo de archivo CSV (MSDOS).

1ª forma de leer mediciones

Tomar en cuenta los datos de las muestras

Captura directa de las mediciones.

2ª forma de leer mediciones

Metodología
Protocolo de test [Parte teórica]

Pasos para la construcción del test o la validación de test.

Parte teórica de la construcción del test que tiene 3 partes: teórica (objetivo, fundamentación teórica, etc.), práctica (actividad, ejercicio, etc.) y matemática.

Si alguno de los test estadísticos no se cumple (medias o promedios diferentes, varianzas diferentes,
distribuciones no normales, existencia de outliers, etc.) no se podrá crear el test o validarlo.

Test estadísticos de estandarización matemática (propuesta)

Test de normalidad

1er Supuesto que se debe cumplir para cada muestra de mediciones para usar ANOVA

Detección de observaciones outliers vía criterio BOXPLOT

Si son 2 muestras pequeñas (<30) se usará Shapiro Wilks para probar pertenecer a la distribución normal.

Si son más de 2 muestras se usará el test D’Agostino Pearson K2 para probar normalidad

Para detectar outliers se usará: 1C-1.5*RI

3C+1.5*RI

1C (1 cuartil)

3C (3er cuartil)

RI (rango intercuartil=3C-1C)

Si son más de 2 muestras para detectar outliers se usará el Test de Grubbs.

Empieza: Parte matemática del test.

La distribución normal de las mediciones garantiza poder construir la tabla de valoración o norma.

Si existen outliers (valor extremo que no se comporta como la muestra de mediciones) no se podrá construir el test o no se podrá validarlo.

Si en algún momento se decide quitar un outlier, no se podrá volver a quitar más outliers ni se debe volver a aplicar los test de detección de outliers y no podrá crearse el test o validar el test.

Si no tienen distribución normal las muestras de mediciones, no se podrá crear o validad el test.

Test de Homocedasticidad

2º supuesto que se debe cumplir para cada muestra de mediciones para usar ANOVA

Verificar igualdad de varianzas en las muestras de mediciones.

Si son 2 muestras pequeñas (<30 datos), se usará Intervalo de confianza (IC) de 95% para la igualdad de 2 varianzas poblacionales.

Si son más de 2 muestras con más de 11 datos cada muestra se usará el test de Levene

Si existe diferencia en las varianzas no se podrá crear el test o validar el test.

Test ANOVA

Verifica si los promedios de las mediciones son iguales o al menos un promedio es diferente.

Análisis de varianza de un factor o vía, diseño completamente aleatorio de las muestras.

Si al menos una muestra es diferente en promedio se realiza una prueba Post Hoc LSD (Least Significant Difference)

para mostrar esas diferencias.

Si se tienen 2 muestras con menos de 30 datos cada muestra se realiza un IC 95% para la diferencia de 2 medias poblacionales.

El diseño completo aleatorio de las muestras no se verifica en la aplicación, y por ende es responsabilidad del que usa esta aplicación, al construir o validar los test.

Si al menos una media de las mediciones muestrales es diferente no se puede crear el test o validarlo.

Test de L. Lin

Repetitividad del test creado o validado.

Se verifica por parejas de muestras (todas las combinaciones) la repetitividad o la reproductibilidad y la correlación de Pearson.

Datos para la gráfica Bland - Altman

Esto demuestra la confiabilidad del Test que se construye o valida.

Se presentan las tablas de valoración de Domholdt (2005) y Landis y Koch (1977) para interpretar estos dos coeficientes.

Si existiera no relación o no repetitividad entre las muestras de mediciones no se puede construir el test o validarlo.

La grafica Bland Altman muestra cuanto error existe entre las mediciones de 2 muestras y si el error es sistemático muestra la misma gráfica.

Tabla de evaluación

Tabla de frecuencias por muestra.

Normativas de evaluación para el test creado o para comparar con el test a validar.

En la última columna se verifica la validez del Test a construir o validar desde la parte matemática, esto al cumplirse que las muestras sean de promedios iguales, varianzas iguales, correlación y repetitividad cercana a 1 o a -1; sin outliers, y que las muestras tengan todas unas distribuciones de probabilidad normal.

La estandarización de la parte matemática del test, se cumple al realizar los análisis matemáticos y estadísticos en orden dado por la aplicación de cómputo (de arriba abajo cada botón de la aplicación) y esta tabla (de arriba hacia abajo, apartado por apartado).

La aplicación de cómputo apoya al procesamiento de la información, y verificar si el objetivo del test se cumple o no, si es en la etapa de construcción debe medir lo mismo de la misma variable, al igual que al validarlo.

Resultados y conclusiones

    La aplicación de cómputo propuesta usará diferente matemática si existen 2 muestras ó más de 2, como lo describe la Ilustración 1. Si hay más de 2 muestras estas deben tener como mínimo 10 datos cada muestra. Si hay solo 2 muestras, estas deben tener como mínimo 3 datos cada una. Se simuló el trabajo de la aplicación con un máximo 32 muestras de 400 datos y para cada opción se tardaba de 5 a 10 minutos en mostrar la información de resultado (Windows 7 con CPU INTEL i3). Se debe tomar la condición de que todas las muestras deben ser del mismo tamaño, por diseño.

    La aplicación de cómputo propuesta se publicó para su libre distribución en SourceForge.NET en el proyecto Biomechanics, carpeta Test, archivo ptestV2.2.02.zip en la dirección http://sourceforge.net/projects/biomechanics/files/Test/ y se muestra dicha aplicación en la ilustración 2.

Ilustración 2. La aplicación propuesta PtestV2.2.02

Discusión

    En Morales Rodríguez se menciona que la “vigencia es únicamente para los sujetos investigados, condiciones de aplicación y con el procesamiento estadístico empleado”; esto de manera personal considero que es también lo correcto para interpretar los resultados, el test construido o el test validado. Considerando que se puede transformar la situación correspondiente del test a la necesidad de acuerdo a la siguiente gráfica (propuesta), ver Ilustración 3 Interpretación del Test.

    Algunos documentos al hacer mención de no poder usar ANOVA por no cumplir con los supuestos se podría usar algún test no paramétrico como Kruskal Wallis, pero esto significa que no tenemos certeza de que las muestras sean normales y por lo tanto la tabla de valoración o norma no se puede crear para el test a construir o validar, ya que esta tabla tiene como base de construcción la distribución de probabilidad normal.

Ilustración 3. Interpretación del Test

    De la ilustración 3 y este trabajo se puede ver que existe la validación en la construcción del test y la validación por querer usar un test en diferente población.

    La confiabilidad en la estructura del Test propuesta por Antonio Morales Águila solo muestra la medición de 2 muestras en caso 1 ó caso 2, pero deben realizarse los 2 casos para tener mínimo 4 muestras de mediciones (para tener calidad) a analizar por la aplicación de cómputo propuesta, para estandarizar la parte matemática de la construcción o validación de test.

    Los test tienen distintas fases de validación desde su ámbito: fase de construcción, donde se realiza validación (en la ilustración 1 se dice que en los test estadísticos, si los promedios de las mediciones son diferentes, si las varianzas de las mediciones son diferentes no es posible validar el test, esto tiene su explicación en el siguiente supuesto: el test es un instrumento que debe medir siempre la misma variable y en las mismas condiciones debe de resultar la misma medición) y tiene que ser en un tiempo corto (tal vez una semana máximo); fase de aplicación, en esta fase es posterior a su construcción y dentro de un plan de entrenamiento, una investigación, entre otros (donde la aplicación nos da como resultado un tipo de control (validación) del entrenamiento, de la investigación, del atleta, entre otros); fase de adaptación, en esta fase lo que se desea es, dado un test construido o aplicado en cierto tipo de población que puede ser extranjera, lo que se desea es validarlo (repetir la metodología del artículo científico con la única variante de la población con características similares y que se interpreta como obtener los mismos resultados o mediciones) para poder aplicarlo a una población particular.

Bibliografía

Alejandro Gerardo, J. (2013). Test for diagnosis ofspecific resistancefighter’ sintermittent effortsinhighly competitive. Dimensión deportiva, Universidad Deportiva del Sur, San Carlos - Cojedes, 67-75.

Escalante Candeaux, L., & Pila Hernández, H. (2012). Evaluación de la condición física en personas de 60 años ó más. EFDeportes.com, Revista Digital. Buenos Aires, Nº 172. http://www.efdeportes.com/efd172/evaluacion-de-la-condicion-fisica-en-60-anos.htm

Gómez, M. (2011). Diseño de un test para valorar la resistencia específica en el Tenis de Mesa: Test de Resistencia Intermitente Incremental del Tenis de Mesa (TREIITM). EFDeportes.com, Revista Digital. Buenos Aires, Nº 161. http://www.efdeportes.com/efd161/test-de-resistencia-intermitente-del-tenis-de-mesa.htm

Morales Rodríguez, C. (s.f.). Obtenido de Prueba para el diagnóstico de la resistencia aerobia en practicantes de tenis de campo. Monografías.

Pérez Guerra, E. (2008). Las pruebas o tests en el deporte. EFDeportes.com, Revista Digital. Buenos Aires, Nº 126. http://www.efdeportes.com/efd126/las-pruebas-o-tests-en-el-deporte.htm

Roldán Aguilar, E. E. (2007). Test fisiológicos útiles en la planeación del entrenamiento en fútbol según fuentes metabólicas. EFDeportes.com, Revista Digital. Buenos Aires, Nº 110. http://www.efdeportes.com/efd110/test-fisiologicos-utiles-en-la-planeacion-del-entrenamiento-en-futbol.htm

Torres Machorro, J. (2012). Batería de pruebas para medir fuerza en brazo, velocidad de aceleración y velocidad de reacción como caracteríticas físicas motrices en niños beisbolistas de 6 a 13 años en el municipio de Tepeaca, Puebla. Puebla, México: Benemérita Universidad Autónoma de Puebla, Facultad de Cultura Física.

Yucra Rivera, J. (2001). Algunas consideraciones para la utilización de las baterías de test de la condición física. EFDeportes.com, Revista Digital. Buenos Aires, Nº 38. http://www.efdeportes.com/efd38/test.htm

Otros artículos sobre Investigación

	Búsqueda personalizada
EFDeportes.com, Revista Digital · Año 19 · N° 199 \| Buenos Aires, Diciembre de 2014 © 1997-2014 Derechos reservados

Función	Texto en el botón de la aplicación	Descripción		Significado
Leer información de análisis (mediciones de una sola variable)	Leer los datos de las muestras [*.csv]	Información capturada en un archivo de Excel y guardada en el tipo de archivo CSV (MSDOS).		1ª forma de leer mediciones
	Tomar en cuenta los datos de las muestras	Captura directa de las mediciones.		2ª forma de leer mediciones
Metodología	Protocolo de test [Parte teórica]	Pasos para la construcción del test o la validación de test.		Parte teórica de la construcción del test que tiene 3 partes: teórica (objetivo, fundamentación teórica, etc.), práctica (actividad, ejercicio, etc.) y matemática.
Si alguno de los test estadísticos no se cumple (medias o promedios diferentes, varianzas diferentes, distribuciones no normales, existencia de outliers, etc.) no se podrá crear el test o validarlo.
Test estadísticos de estandarización matemática (propuesta)	Test de normalidad	1er Supuesto que se debe cumplir para cada muestra de mediciones para usar ANOVA Detección de observaciones outliers vía criterio BOXPLOT	Si son 2 muestras pequeñas (<30) se usará Shapiro Wilks para probar pertenecer a la distribución normal. Si son más de 2 muestras se usará el test D’Agostino Pearson K2 para probar normalidad Para detectar outliers se usará: 1C-1.5RI 3C+1.5RI 1C (1 cuartil) 3C (3er cuartil) RI (rango intercuartil=3C-1C) Si son más de 2 muestras para detectar outliers se usará el Test de Grubbs.	Empieza: Parte matemática del test. La distribución normal de las mediciones garantiza poder construir la tabla de valoración o norma. Si existen outliers (valor extremo que no se comporta como la muestra de mediciones) no se podrá construir el test o no se podrá validarlo. Si en algún momento se decide quitar un outlier, no se podrá volver a quitar más outliers ni se debe volver a aplicar los test de detección de outliers y no podrá crearse el test o validar el test. Si no tienen distribución normal las muestras de mediciones, no se podrá crear o validad el test.
	Test de Homocedasticidad	2º supuesto que se debe cumplir para cada muestra de mediciones para usar ANOVA Verificar igualdad de varianzas en las muestras de mediciones.	Si son 2 muestras pequeñas (<30 datos), se usará Intervalo de confianza (IC) de 95% para la igualdad de 2 varianzas poblacionales. Si son más de 2 muestras con más de 11 datos cada muestra se usará el test de Levene	Si existe diferencia en las varianzas no se podrá crear el test o validar el test.
	Test ANOVA	Verifica si los promedios de las mediciones son iguales o al menos un promedio es diferente.	Análisis de varianza de un factor o vía, diseño completamente aleatorio de las muestras. Si al menos una muestra es diferente en promedio se realiza una prueba Post Hoc LSD (Least Significant Difference) para mostrar esas diferencias. Si se tienen 2 muestras con menos de 30 datos cada muestra se realiza un IC 95% para la diferencia de 2 medias poblacionales.	El diseño completo aleatorio de las muestras no se verifica en la aplicación, y por ende es responsabilidad del que usa esta aplicación, al construir o validar los test. Si al menos una media de las mediciones muestrales es diferente no se puede crear el test o validarlo.
	Test de L. Lin	Repetitividad del test creado o validado.	Se verifica por parejas de muestras (todas las combinaciones) la repetitividad o la reproductibilidad y la correlación de Pearson. Datos para la gráfica Bland - Altman	Esto demuestra la confiabilidad del Test que se construye o valida. Se presentan las tablas de valoración de Domholdt (2005) y Landis y Koch (1977) para interpretar estos dos coeficientes. Si existiera no relación o no repetitividad entre las muestras de mediciones no se puede construir el test o validarlo. La grafica Bland Altman muestra cuanto error existe entre las mediciones de 2 muestras y si el error es sistemático muestra la misma gráfica.
	Tabla de evaluación		Tabla de frecuencias por muestra.	Normativas de evaluación para el test creado o para comparar con el test a validar.
En la última columna se verifica la validez del Test a construir o validar desde la parte matemática, esto al cumplirse que las muestras sean de promedios iguales, varianzas iguales, correlación y repetitividad cercana a 1 o a -1; sin outliers, y que las muestras tengan todas unas distribuciones de probabilidad normal. La estandarización de la parte matemática del test, se cumple al realizar los análisis matemáticos y estadísticos en orden dado por la aplicación de cómputo (de arriba abajo cada botón de la aplicación) y esta tabla (de arriba hacia abajo, apartado por apartado). La aplicación de cómputo apoya al procesamiento de la información, y verificar si el objetivo del test se cumple o no, si es en la etapa de construcción debe medir lo mismo de la misma variable, al igual que al validarlo.