(2017-09-7) Investigación estadística: entre la autocrítica y los intereses privados

El cuestionamiento continuo de la ciencia es básico para seguir avanzando en el conocimiento de la realidad. Al mismo tiempo, deberíamos evitar sacralizar “lo científico" como el único saber factible y fuera del cual no habría salvación. Sobre todo teniendo en cuenta que la ciencia no es neutra, forma parte de la ideología, y por tanto del poder de dominación.

En el caso de la estadística (ciencia del estado) , nos encontramos con el mismo problema. Ya Benjamin Disraeli afirmaba que "Hay mentiras, malditas mentiras, y estadísticas". Desde hace unos años, los problemas de la falta de reproducibilidad de los experimentos han puesto en difícil posición a las técnicas muestrales estadísticas. Se critica la idoneidad del valor 0,05 de la p, y se plantea la posibilidad de que los umbrales del valor p se reduzcan. Incluso su abandono en favor de la estadística bayesiana. Sin embargo, no podemos cerrar los ojos a lo que seguramente es mucho mas importante: mientras la mayor parte de la investigación esté en manos de instituciones privadas, es decir, sus objetivos sean puramente lucrativos, gran parte de sus resultados serán, como mínimo tendenciosos y cuestionables.

LA NOTICIA:

Grandes expertos en el uso de la estadística proclaman que 0,05 no es el filtro adecuado.

Uno de los estadísticos muestrales más utilizados, el llamado valor p, debería estar sometido a criterios más estrictos, dicen investigadores destacados.

La ciencia padece una crisis de reproducibilidad: a los investigadores, los proveedores de fondos y los editores les preocupa cada vez más que la bibliografía académica esté plagada de resultados irreproducibles. Ahora, un grupo de 72 destacados investigadores apunta a lo que consideran una causa del problema: los débiles criterios estadísticos que se aplican a las pruebas a la hora de decir que se ha logrado un descubrimiento.

En muchas disciplinas la relevancia del resultado se juzga por medio de valores p. Con ellos se comprueba (y rechaza) una «hipótesis nula», que propone que el efecto que se está comprobando no existe. Cuanto menor sea el valor p que se le halle a un conjunto de resultados, menos probable será que se deban puramente al azar. Se establece que los resultados son «estadísticamente significativos» cuando ese valor es menor que 0,05.

Muchos científicos, no obstante, se temen que el umbral del 0,05 ha hecho que se publiquen muchos falsos positivos, problema exacerbado por una forma de proceder conocida como p-hacking, en la que los investigadores reúnen datos sin haber enunciado primero una hipótesis que se vaya a poner prueba y buscan luego en los resultados unos patrones que se puedan presentar como estadísticamente significativos.

Así, en un texto encaminado a provocar el debate y publicado el 22 de julio en el repositorio de preimpresiones PsyArXiv, esos 72 investigadores sostienen que los umbrales del valor p deben disminuir en las ciencias sociales y biomédicas hasta 0,005. [El artículo definitivo se publicó el 1 de septiembre en Nature Human Behaviour].

«Los investigadores no son conscientes, simplemente, de lo débil que es la prueba cuando el valor p es 0,05», dice Daniel Benjamin, uno de los coautores principales, economista de la Universidad del Sur de California, en Los Ángeles. Cree que los resultados comunicados con valores p de entre 0,05 y 0,005 deberían recibir la consideración meramente de «indicio sugerente» en vez de la de conocimiento establecido.
Entre los coautores hay dos pesos pesados de la reproducibilidad: John Ioannidis, que estudia la robustez de los resultados científicos en la Universidad de Stanford, en California, y Biran Nosek, director ejecutivo del Centro para la Ciencia Abierta, en Charlotesville, Virginia.

Muestras extragrandes
Un problema de reducir los umbrales del valor p es que puede aumentar la probabilidad de un falso negativo (establecer que no existe un efecto cuando sí existe), dice Casper Albers, investigador en psicometría y estadística de la Universidad de Groningen, en Holanda. Para contrarrestar este problema, Benjamin y sus colegas sugieren que los investigadores aumenten el tamaño de las muestras en un 70%; sostienen que esto impediría que aumentasen los porcentajes de falsos negativos mientras que a la vez se reduciría fuertemente el de falsos positivos. Pero Albers cree que en la práctica solo los científicos bien provistos de fondos tendrían los medios para proceder así.

Shlomon Argamon, científico de la computación del Instituto de Illinois de Tecnología, en Chicago, mantiene que no hay una respuesta simple para el problema, ya que «no importa qué nivel de confianza se elija, si hay un número suficientemente grande de formas de diseñar el experimento será muy probable que al menos una de ellas dé un resultado estadísticamente significativo solo por azar». Se necesitan, sostiene, cambios más radicales, como unos nuevos incentivos y criterios metodológicos para la investigación.
Disminuir los umbrales del valor p puede también agravar el «problema del archivador»: los estudios con resultados negativos se dejan sin publicar, dice Tom Johnstone, neurocientífico cognoscitivo de la Universidad de Reading, en el Reino Unido. Pero Benjamin afirma que se deberían publicar todas las investigaciones, sea cual sea su valor p.

Un blanco en movimiento
Otros campos de la ciencia han actuado ya sobre los valores p. En 2015, una revista de psicología los prohibió. Los físicos de partículas, que reúnen miríadas de datos en los experimentos donde hacen chocar unas partículas con otras, han venido exigiendo un valor de p inferior a 0,0000003 (o 3 X 10-7); les preocupa que un umbral más bajo pudiera conducir a aseveraciones equivocadas, como señala Valen Johnson, estadístico de la Universidad A&M de Texas, en College Station, y coautor del artículo. Hace más de una década, los genetistas dieron pasos similares para establecerles un umbral de 5 X 10-8 a los estudios de asociación a lo largo del genoma, que buscan diferencias a lo largo de cientos de miles de variantes de las letras del ADN de quienes padecen una enfermedad y quienes no.

Sin embargo, otros científicos han abandonado los valores p en favor de herramientas estadísticas más elaboradas, como los tests bayesianos, que requieren que los investigadores definan y comprueben dos hipótesis alternativas. Pero no todos los investigadores tienen el conocimiento técnico necesario para efectuar tests bayesianos, dice Johnson, quien cree que los valores p todavía pueden ser útiles para calibrar si una hipótesis está respaldada por las pruebas experimentales. «El valor p no es necesariamente maligno».

ENLACE ORIGINAL