Efecto del tamaño de muestra y la razón de tamaños de muestra en la detección de funcionamiento diferencial de los ítems

Herrera Rojas, Aura Nidia

Please use this identifier to cite or link to this item: https://dipositint.ub.edu/dspace/handle/2445/42371

Title:	Efecto del tamaño de muestra y la razón de tamaños de muestra en la detección de funcionamiento diferencial de los ítems
Author:	Herrera Rojas, Aura Nidia
Director/Tutor:	Gómez Benito, Juana
Keywords:	Psicometria Psychometrics
Issue Date:	14-Feb-2006
Publisher:	Universitat de Barcelona
Abstract:	A comienzos del siglo pasado Stern (1914) había mostrado que el rendimiento en pruebas de inteligencia variaba según la clase social y Binet & Simon (1916) habían eliminado algunos ítems en la nueva versión de su prueba de inteligencia porque eran sensibles a efectos culturales (Camilli & Shepard, 1994). Sin embargo, fue sólo después del importante auge en la construcción y uso de pruebas psicológicas, que encontró su punto máximo durante las dos guerras mundiales y la década subsiguiente, cuando empezó a popularizarse la idea de que éstas podían resultar injustas, sesgadas y favorecedoras de unas clases sociales o grupos étnicos y culturales particulares (Anastasi, 1974). Esa percepción se basaba en la observación de diferencias sistemáticas en los resultados arrojados por las pruebas, entre personas pertenecientes a distintos grupos según género, raza, clase socioeconómica o cultura. Sin embargo, una revisión de la literatura sobre el tema muestra que fueron los trabajos de Eelles, Havighurst, Herrick & Tyler (1951) y Jensen (1969) los que significaron un importante punto de partida para el avance de la investigación sobre lo que hoy se conoce como funcionamiento diferencial de los ítems (DIF, abreviatura de "Differential Items Functioning") y funcionamiento diferencial de los test (FDT). El primero de estos dos trabajos es considerado por la mayoría de autores sobre el tema como la investigación pionera sobre sesgo de los ítems y de las pruebas psicológicas, ya que sus autores mostraron empíricamente y con un gran número de ítems de pruebas de inteligencia que algunos de éstos se dejaban afectar por diferencias culturales. A pesar de sus hallazgos, la discusión sobre el sesgo de las pruebas no alcanzó su punto más alto hasta la década de los sesenta, dentro del contexto del movimiento por la defensa de los derechos civiles y la igualdad de oportunidades educativas y laborales; ámbitos en los que las pruebas psicológicas eran ampliamente usadas y sus resultados constituían uno de los argumentos más fuertes para la toma de decisiones relacionadas con asignación de cupos (Cole, 1993). Hasta aquí la noción de sesgo se asociaba a cualquier diferencia sistemática en los resultados de las pruebas entre grupos diferentes; en consecuencia, el término tenía una connotación negativa equiparable con injusticia, parcialidad e inequidad contra los grupos minoritarios o menos favorecidos. Diversos autores están de acuerdo en que esta asociación, dominante durante la década de los sesenta y que tuvo amplias implicaciones de tipo social, se debió en gran parte a un conflicto semántico y a una confusión en el uso del lenguaje común y del lenguaje técnico: público y psicólogos estaban usando el mismo término -sesgo- pero para los primeros estaba cargado de contenido social y político con una connotación claramente negativa, mientras que para los segundos estaba cargado de contenido técnico, y aunque la connotación no era buena, hacía referencia básicamente a 'características técnicas no óptimas' (Cole, 1993, p.27) y no a injusticia social. Por otra parte, el segundo trabajo antes mencionado (Jensen, 1969) apareció publicado en medio de la acalorada discusión de finales de los sesenta y su importancia radica en la enorme polémica que desató y su efecto sobre el desarrollo de técnicas para la detección de DIF. El autor afirmaba que la inteligencia era heredada y que en consecuencia las diferencias observadas en las pruebas entre grupos raciales podían explicarse genéticamente, argumentos que avivaron la discusión entre las explicaciones genéticas y las de determinantes ambientales y sociales de las diferencias en cociente intelectual. Otro trabajo de Jensen (1980) contribuyó a esclarecer el significado del término "sesgo" buscando despejarlo de las connotaciones éticas, sociales y políticas para entenderlo como un problema técnico; pero sin lugar a dudas, una propuesta que contribuyó a superar el conflicto semántico fue la de Holland & Thayer (1988) quienes sugirieron cambiar el término "sesgo" por el de Funcionamiento Diferencial de los Ítems (DIF). Además de la claridad conceptual, en el mismo periodo de tiempo se han identificado categorías diferentes de DIF y se han propuesto múltiples procedimientos estadísticos y estrategias metodológicas de estimación. La literatura especializada de las últimas décadas muestra un número considerable de esfuerzos por identificar las ventajas y limitaciones de las diferentes técnicas de estimación, así como por encontrar las condiciones en las cuales resultan más o menos adecuadas. El presente trabajo centra su atención en la evaluación del efecto del tamaño de muestra y de la razón de tamaños de los grupos, definida como <i>r = nr/nf</i>, donde "nr" es el tamaño del grupo de referencia y "nf" es el tamaño del grupo focal, sobre el funcionamiento de los estadísticos más frecuentemente utilizados hoy en la detección de DIF de ítems dicótomos. En concreto, este trabajo se ocupa de evaluar el efecto de estos factores sobre el error tipo I y la potencia de dos procedimientos basados en el análisis de tablas de contingencia (Mante-Haenszel y Regresión Logística) y uno basado en la teoría de Respuesta al Item (χ 2 de Lord) para la detección de DIF. De esta manera, se espera contribuir a la identificación de las condiciones prácticas en las cuales los procedimientos tienen su mejor desempeño y aquellas en las cuales su uso no resulta recomendable. La estrategia metodológica elegida para el cumplimiento de este propósito general está compuesta por tres experimentos de Monte Carlo. En la categoría denominada "métodos de Monte Carlo" se incluyen una buena cantidad de técnicas empleadas para simular muchos experimentos, con el fin de obtener algunas inferencias sobre un proceso descrito por medio de un modelo estadístico. De acuerdo con Gentle (2003), Ross (1999) y Spence (1983), entre otros, una de las principales ventajas de este tipo de aproximación es que permite abordar problemas para los cuales no resulta factible o es muy difícil, encontrar la solución de forma analítica y puede además, ilustrar este tipo de solución. Dentro de la investigación psicométrica en general y sobre procedimientos para identificar DIF en particular, este tipo de procedimientos se ha empleado frecuentemente para estudiar las distribuciones muestrales de nuevos estadísticos, para evaluar el comportamiento de los mismos cuando no se cumplen algunos de los supuestos que los sustentan (conocidos como estudios de robustez) o en condiciones prácticas en las cuales no se conoce su comportamiento. Este documento, compuesto por dos partes, presenta la discusión teórica previa a la realización de tales estudios y la descripción de los mismos, su procedimiento, resultado y conclusiones. La primera parte del documento presenta la revisión bibliográfica sobre los aspectos teóricos y metodológicos básicos que apoyan el presente trabajo; esta parte incluye tres capítulos: Conceptos y métodos, procedimientos basados en análisis de tablas de contingencia y procedimientos basados en la Teoría de Respuesta al Ítem (TRI). La segunda parte incluye tres capítulos en cada uno de los cuales se presenta uno de los estudios empíricos antes mencionados.
URI:	https://hdl.handle.net/2445/42371
ISBN:	978-84-694-1957-1
Appears in Collections:	Tesis Doctorals - Departament - Metodologia de les Ciències del Comportament

Files in This Item:

File	Description	Size	Format
ANHR_TESIS.pdf		955.66 kB	Adobe PDF	View/Open

Show full item record