La inteligencia artificial (IA) se ha convertido en una herramienta omnipresente, prometiendo eficiencias y capacidades de análisis de datos sin precedentes en todos los campos, incluida la investigación científica. Desde la minería de datos masivos hasta la generación de texto, las aplicaciones son vastas. Sin embargo, como cualquier tecnología, la IA presenta desafíos significativos, especialmente cuando se trata de la integridad y calidad del ecosistema de información científica. Para profesionales con experiencia en sistemas y análisis de datos, la aparición de «ruido» o información de baja calidad en bases de datos críticas es una preocupación familiar. En la literatura científica, este «ruido» puede manifestarse de formas extrañas y reveladoras.
Un caso reciente y notable que ilustra esta tensión involucra una frase sin sentido: «microscopía electrónica vegetativa» . Esta frase al parecer es científicamente absurda para un especialista en microscopía o biología, pero ha logrado infiltrarse en múltiples artículos científicos, pasando controles de revisión supuestamente rigurosos . Para los «detectives» científicos que monitorean la literatura, estas frases anómalas actúan como «huellas dactilares» («fingerprints») , sugiriendo la posible participación de «fábricas de artículos» («paper mills»), organizaciones que producen y venden textos científicos falsos o de baja calidad a gran escala. Esto es un claro ejemplo de contaminación de datos a escala industrial en el ámbito científico .
¿Cómo una frase tan ilógica se abre camino en publicaciones indexadas? Pues algunos investigadores apuntan a posibles fallas en el procesamiento digital de la información . Una hipótesis plausible, propuesta por el ingeniero de software Alexander Magazinov, es que la frase podría haberse originado de un sistema de lectura automatizada (IA) que procesó un artículo antiguo (de 1959) con un formato de dos columnas.

El sistema podría haber combinado erróneamente palabras que aparecían una frente a la otra pero en columnas separadas, como «vegetative» y «electron microscopy», ignorando el salto de columna.
Otros autores y cibernautas sugieren que podría ser un error de traducción automática del persa, dado que las palabras para «scanning» y «vegetative» son muy similares en escritura persa, y varios artículos con la frase tienen autores de Irán. En cualquier caso, ambas teorías implican un fallo en un proceso automatizado (o asistido por IA) en la generación o traducción del texto, por lo que es altamente probable que las herramientas de IA generativa o de reescritura, existentes desde hace ya algunos años, estén implicadas en la proliferación de estas frases.
La detección de estas «huellas dactilares» es cada vez más relevante. Existen herramientas automatizadas, como el «Problematic Paper Screener», que analizan millones de artículos para identificar estos patrones anómalos, sin embargo el caso de la «microscopía electrónica vegetativa» demuestra que la detección inicial a menudo proviene del ojo crítico y la experiencia humana, en este caso, de un químico y un ingeniero de software que comenzaron a consultar e investigar utilizando plataformas de discusión post-publicación como PubPeer (sí, el espacio para los comentarios que aparece bajo las publicaciones en internet).
La respuesta de las editoriales ante esta situación ha sido mixta. Un artículo en Environmental Science and Pollution Research, co-autorizado por Rafael Luque y Mohsen Omidvar, fue retractado por Springer Nature. Las razones de la retractación incluyeron un proceso de revisión por pares comprometido, referencias inapropiadas y la presencia de «frases no estándar».
Por otro lado, la misma frase apareció en un artículo de febrero de 2024 en la revista Industrial Crops and Products de Elsevier. Este artículo, cuyo autor principal es Vijay Kumar Thakur – quien también es Editor de Contenido Especial de la misma revista –, supuestamente utilizó la «microscopía electrónica vegetativa» para estudiar la estructura de la celulosa bacteriana. Un portavoz de Elsevier defendió el uso, indicando que, según el editor en jefe, era una forma abreviada válida para «microscopía electrónica de estructuras vegetativas» y que estaban «contentos» con ella . Esta respuesta, interpretada por algunos como evasiva, resalta las diferentes aproximaciones institucionales frente a la gestión de la calidad y la integridad en sus publicaciones. También se mencionó una alegación de «autocitación masiva» por parte de dos autores iraníes en este artículo, que Elsevier estaba investigando.
Este escenario resalta que, si bien la IA puede ser una herramienta poderosa para la investigación y la detección de anomalías, la validación y curación de la información científica sigue requiriendo una capa crítica de juicio humano y experiencia en el dominio. La facilidad con la que frases generadas por procesos defectuosos pueden pasar desapercibidas en la revisión por pares sugiere debilidades sistémicas, posiblemente exacerbadas por la presión para publicar o bien por una laxa revisión. Permitir que contenido de baja calidad o potencialmente fraudulento se propague devalúa el cuerpo total de conocimiento científico, un riesgo que cualquier profesional que confíe en datos fiables para la toma de decisiones debería considerar seriamente. La lucha contra las «fábricas de artículos» y la contaminación del conocimiento es un desafío que combina la detección automatizada con la indispensable diligencia debida humana y el pensamiento crítico, similar a cómo se abordan los desafíos en ciberseguridad o la calidad de datos en entornos empresariales.
En este complejo panorama, donde la automatización puede ser tanto parte del problema como de la solución, la supervisión humana, la comprensión profunda del contenido y la responsabilidad editorial siguen siendo pilares fundamentales para asegurar la confianza en la investigación publicada porque al parecer, los humanos seguiremos siendo necesarios para detectar autobuses y bicicletas en las imágenes por mucho tiempo más.