Las conclusiones sobre las poblaciones antiguas pueden ser drásticamente erróneas debido a un método cuestionable

Cientos de miles de artículos revisados ​​por pares en el campo de la genética utilizan un método llamado análisis de componentes principales. Pero una nueva investigación muestra que este método está muy sesgado. ¡Esto significa que multitud de estudios importantes sobre poblaciones antiguas pueden estar radicalmente equivocados!

Índice
  1. El sorteo irresistible de la PCA
  2. ¿Qué es el análisis de componentes principales?
  3. PCA: ¿Un método dudoso?
  4. Las conclusiones científicas pueden ser radicalmente erróneas

El sorteo irresistible de la PCA

Es difícil hacer nuevos amigos, especialmente después de los treinta. Como Seinfeld tan elocuentemente dijo: Sea cual sea el grupo que tengas ahora, ese es el grupo al que vas. No estás entrevistando, no estás buscando gente nueva, no estás interesado en ver aplicaciones . Para los científicos del ADN y los científicos en general, la situación es aún peor. Las largas jornadas y el aislamiento necesarios para llevar a cabo nuestra investigación tienen efectos determinantes en nuestra vida social. Por supuesto, siempre hay excepciones. A veces llegas a conocer a alguien que siempre está ahí para apoyarte, alguien que pide poco y da mucho. Alguien con quien siempre puedes ir a una fiesta y estar orgulloso. Alguien a quien tus amigos y compañeros de trabajo admirarán porque te hacen lucir inteligente y genial con un profundo conocimiento de la ciencia involucrada. ¿Quién no quiere un amigo así? Reemplace "alguien" con "algo" y comprenderá qué es el análisis de componentes principales (PCA) para los científicos, especialmente los genetistas de poblaciones.

¿Qué es el análisis de componentes principales?

PCA es una transformación matemática que toma un conjunto de datos complejo, como 10 000 genomas de 2000 personas en todo el mundo, y lo transforma para que pueda representarse mediante un diagrama de dispersión XY coloreado con solo hacer clic en un botón. Es el mejor amigo del estudiante postergador que mañana tiene una lección y necesita obtener resultados rápidos, del profesor que busca producir trabajos a toda prisa y del profesor que busca un ascenso haciendo declaraciones a la moda sin evidencia. La cantidad de amigos que tiene PCA es un recuerdo de los viejos tiempos de MySpace: con citas de alrededor de 200 000 solo en genética, multiplicadas por un número promedio de 10 autores por artículo, obtenemos 2 000 000 de académicos que han escrito un artículo usando PCA.

PCA se utiliza para examinar la estructura de la población de un grupo de individuos para determinar su ascendencia, analizar la historia demográfica y la mezcla, decidir la similitud genética de los individuos y excluir los valores atípicos, decidir cómo modelar las poblaciones, describir las relaciones genéticas antiguas y modernas entre los individuos, inferir lazos familiares, identificar tendencias ancestrales en datos, detectar firmas genómicas de selección natural, identificar tendencias evolutivas, apoyar estudios genéticos de enfermedades, geolocalizar individuos, sacar conclusiones históricas y etnobiológicas, etc. Es "La pequeña nube de puntos que pudo".

El problema con PCA también fue su mayor ventaja. Siempre les decía a todos lo que querían escuchar, así que nadie se atrevía a desafiarlo. Así que, naturalmente, lo hice.

PCA: ¿Un método dudoso?

En un artículo publicado en Informes científicos , he demostrado que los resultados de PCA son mucho más sensibles a la entrada de lo que nadie se ha dado cuenta. Por analogía, piense en PCA como un horno con harina, azúcar y huevos como entrada. El horno siempre puede hacer lo mismo, pero el resultado, un bizcocho, depende básicamente de la proporción de los ingredientes y de cómo se combinen. De manera similar, los cambios menores en la forma en que se ingresan los datos hacen que PCA genere salidas drásticamente diferentes, lo que genera resultados incorrectos, conceptos erróneos y falta de replicación.

Una de las áreas consideradas los mejores amigos de APC para siempre es la paleogenómica, donde queremos aprender más sobre los pueblos e individuos antiguos, como los europeos de la Edad del Cobre. Se espera que sean similares a los europeos, y los científicos han utilizado PCA para demostrar que los europeos de la Edad del Cobre se agruparon con los europeos. ¿Por qué? Porque la razón para usar PCA es que se puede usar para crear un mapa genético que posicione a la población desconocida junto a las poblaciones con las que está más relacionada. Dado que el PCA solo ve los datos (sin las etiquetas), asumimos que es una herramienta neutral e imparcial, y que la respuesta que da es correcta.

Mi estudio ha demostrado que pequeños cambios en el número de individuos y la elección de poblaciones pueden producir una diferencia muy grande en los resultados de PCA, lo que permite al experimentador un control completo de los resultados.

De esta manera, el experimentador (en este caso, yo) puede producir respuestas muy diferentes a la simple pregunta "¿A qué población son genéticamente más cercanos los europeos de la Edad del Cobre?", colocándolos en la proximidad de cualquier población. Hice esto cambiando la cantidad de individuos en cada población (oceánicos, asiáticos del sur, etc.) y eligiendo diferentes subpoblaciones. ¿Qué ha pasado? Nuestra herramienta supuestamente imparcial, la brújula de los genetistas, ha producido cuatro escenarios históricos diferentes (de versiones históricas prácticamente infinitas), todos matemáticamente "correctos", pero solo uno puede ser biológicamente correcto (si lo hay).

Tales "conclusiones" se derivan de PCA en casi todos los artículos sobre genética de poblaciones relacionadas con humanos, plantas, animales, genética médica y pruebas de drogas (donde se comparan casos y controles). Los resultados de PCA no se limitan a artículos científicos. También se integran en grandes conjuntos de datos, utilizados por prueba genetica llevado a cabo y utilizado para apoyar las decisiones políticas. No hay un solo lector que no esté afectado por PCA, ya sea que sepan lo que es o que estén aprendiendo sobre él ahora. Tan solo 216 000 artículos revisados ​​por pares en el campo de la genética han utilizado PCA para explorar y visualizar similitudes y diferencias entre individuos y poblaciones y han basado sus conclusiones en estos hallazgos.

Esta figura muestra cuatro de los innumerables resultados de PCA que describen los orígenes de los europeos de la Edad del Cobre. Los gráficos PCA se generaron utilizando las mismas poblaciones de referencia pero con diferentes tamaños de población, lo que permitió a todos elegir su escenario histórico preferido. (Proporcionado por el autor)

Esta figura muestra cuatro de los innumerables resultados de PCA que describen los orígenes de los europeos de la Edad del Cobre. Los gráficos PCA se generaron utilizando las mismas poblaciones de referencia pero con diferentes tamaños de población, lo que permitió a todos elegir su escenario histórico preferido. (Proporcionado por el autor)

Las conclusiones científicas pueden ser radicalmente erróneas

Para poner estos ejemplos en contexto, considere la reciente publicación de " Tumbas judías Ashkenazi del siglo XII en Inglaterra por Mark G. Thomas (quien fue crítico por apropiación indebida de pruebas) e Ian Barnes. Este estudio "explora" la ascendencia de seis individuos antiguos recién descubiertos y, como siempre, comienza con una trama PCA donde los individuos antiguos se proyectan sobre individuos modernos conocidos para identificar su ascendencia (recuerde, superposición = ascendencia).

Algunos elementos emergen inmediatamente de esta trama. Primero, los judíos Ashkenazi se agrupan con los europeos del sur (es decir, son genéticamente indistinguibles de ellos); por lo tanto, toda la premisa de este artículo es incorrecta. Estas personas bien podrían haber sido italianos. En segundo lugar, aunque tres de los primeros individuos son hermanos, no se agrupan, lo que ya debería plantear dudas sobre la validez de este enfoque. En tercer lugar, hay muy pocas poblaciones no judías en la parte inferior de la trama, lo que se hizo para a) evitar que los judíos modernos se superpusieran con los no judíos modernos yb) los individuos antiguos se superpusieran con los africanos. Finalmente, no hay otras poblaciones antiguas que se unan con sus respectivas poblaciones modernas para convencernos de que esta herramienta realmente funciona.

Podemos ver que aunque este gráfico se presenta como una exploración de hipótesis, los experimentadores lo construyeron para dar los resultados deseados, lo que, lamentablemente, casi nunca sucedió. Sin embargo, los autores concluyeron que "estos hallazgos son consistentes con las personas de Chapelfield que tienen ascendencia judía", citando un artículo irrelevante para agregar credibilidad a sus hallazgos. A pesar de estos problemas, y aunque en ningún momento estas muestras se superpusieron con los judíos Ashkenazi, se concluyó que eran de ascendencia Ashkenazi, y el artículo apareció en La naturaleza (una revista con fines de lucro) con mi breve reseña en algún lugar dentro. En esta área, la verdad es tan importante como los calcetines que te quitaste ayer después de un día largo y caluroso.

Gráfico PCA de individuos antiguos desconocidos (negro) y poblaciones modernas conocidas (color) (proporcionado por el autor)

Gráfico PCA de individuos antiguos desconocidos (negro) y poblaciones modernas conocidas (color) (proporcionado por el autor)

ACP es una ilustración de dataísmo en genética de poblaciones. El dataísmo describe una ideología formada por el surgimiento de Big Data, donde la medición de datos es el logro final. Los defensores del dataísmo creen que con suficientes datos y poder de cómputo, se revelarán los misterios del mundo. Los entusiastas del dataísmo rara vez preguntan si los resultados de PCA son correctos, sino cómo interpretar correctamente los resultados. Como tal, el agrupamiento se interpreta como identidad debido a la ascendencia común y su ausencia como deriva genética. En la ciencia basada en PCA, casi todas las respuestas son igualmente aceptables y la verdad está en los ojos del espectador. Aunque el PCA no explica nada, ilustra Seinfeldpunto de Es realmente difícil hacer amigos cuando eres viejo, especialmente si eres científico.

Comentario independiente sobre el papel.

“Las técnicas que ofrecen tal flexibilidad fomentan la mala ciencia y son particularmente peligrosas en un mundo donde la presión para publicar es intensa. Si un investigador ejecuta PCA varias veces, la tentación siempre será seleccionar el resultado que hace la mejor historia”, agregó el profesor William Amos, profesor de genética evolutiva en la Universidad de Cambridge, que no participó en el estudio.

Imagen de Portada: Genetista contemplando su conjunto de datos de ADN. La fuente: Grispb /Adobe Stock

Por Eran Elhaik

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir
Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para mostrarte publicidad relacionada con sus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Configurar y más información
Privacidad