.
EDUCACIÓN "Malos estudios de Big Data pueden sacudir su fe", economista y profesor Gary Smith
domingo, 1 de mayo de 2022

Destaca el hecho de que los investigadores reales no correlacionan números aleatorios pero correlacionan variables elegidas al azar

En una columna publicada en 'Bloomberg Opinion', Gary Smith, profesor de economía en Pomona College y autor de 'The AI ​​Delusion' y el próximo 'Distrust: Big Data, Data-Torturing, and the Assault on Science', señala el hecho de que si bien antes el problema era la escasez de datos, hoy es todo lo contrario. Existe un exceso de cifras e información que está socavando la credibilidad de la ciencia.

"Supongamos que un desafortunado investigador calcula las correlaciones entre cientos de variables, felizmente inconsciente de que todos los datos son, de hecho, números aleatorios. En promedio, una de cada 20 correlaciones será estadísticamente significativa, aunque cada correlación no sea más que una coincidencia", se lee en el artículo.

Smith destaca el hecho de que los investigadores reales no correlacionan números aleatorios pero correlacionan las variables elegidas al azar, un hecho conocido en estadística como minería de datos.

"Al igual que con los números aleatorios, la correlación entre variables no relacionadas elegidas al azar tiene 5% de probabilidad de ser estadísticamente significativa por casualidad. La extracción de datos se puede aumentar mediante la manipulación, la poda y la tortura de los datos para obtener valores probabilísticos bajos", menciona.

Tal como menciona el columnista, las relaciones "tontas" se publican en buenas revistas simplemente porque los resultados son estadísticamente significativos, y pone de ejemplo estudios como: 'A los estudiantes les va mejor en una prueba de recuerdo si estudian para la prueba después de tomarla', 'Los estadounidenses de origen japonés son propensos a ataques cardíacos el cuarto día del mes' y 'Los precios de Bitcoin se pueden predecir a partir de los rendimientos de las acciones en la industria del cartón, los contenedores y las cajas', entre otros.

Sin embargo, estos estudios ahora desacreditados son la punta de un iceberg estadístico que se conoce como la crisis de replicación.

Un equipo dirigido por John Ioannidis analizó los intentos de replicar 34 estudios médicos muy respetados y descubrió que solo 20 fueron confirmados. El proyecto de reproducibilidad intentó replicar 97 estudios publicados en las principales revistas de psicología y confirmó solo 35. El documento de replicación de economía experimental intentó replicar 18 estudios experimentales informados en las principales revistas de economía y confirmó solo 11.

"Escribí un artículo satírico que pretendía demostrar la locura de la minería de datos. Examiné los voluminosos tuits de Donald Trump y encontré correlaciones estadísticamente significativas entre: Trump tuiteando la palabra “presidente” y el índice S&P 500 dos días después; Trump tuiteando la palabra “nunca” y la temperatura en Moscú cuatro días después; Trump tuiteando la palabra “más” y el precio del té en China cuatro días después; y Trump tuiteando la palabra “demócrata” y algunos números aleatorios que yo había generado", mencionó Smith.

Posteriormente, el autor envió un artículo a una revista científica con los datos encontrados escritos de forma académica y convincente, y los comentarios del revisor demostraron cuán profundamente arraigada está la noción de que la significación estadística reemplaza al sentido común: “El artículo está generalmente bien escrito y estructurado. Este es un estudio interesante y los autores han recopilado conjuntos de datos únicos utilizando una metodología de vanguardia”, mencionaron los pares educativos.

Es tentador creer que más datos significa más conocimiento. Sin embargo, la explosión en la cantidad de cosas que se miden y registran ha aumentado más allá de lo creíble la cantidad de patrones coincidentes y relaciones estadísticas falsas que esperan engañarnos.

Si el número de relaciones verdaderas aún por descubrir es limitado, mientras que el número de patrones coincidentes crece exponencialmente con la acumulación de más y más datos, entonces la probabilidad de que un patrón descubierto al azar sea real se aproxima inevitablemente a cero.

"El problema actual no es que tengamos muy pocos datos, sino que tenemos demasiados datos, lo que seduce a los investigadores para que los registren en busca de patrones que sean fáciles de encontrar, que probablemente sean coincidentes y que probablemente no sean útiles", concluyó.

Lea aquí la columna de opinión completa.

Conozca los beneficios exclusivos para
nuestros suscriptores

ACCEDA YA SUSCRÍBASE YA

MÁS DE ALTA GERENCIA

México 18/05/2022 Las diferentes señales de alerta (red flags) para detectar las ofertas laborales falsas

En los últimos meses ha crecido la recepción de ofertas de empleo fraudulentas a través de redes sociales y programas de mensajería

MÁS ALTA GERENCIA