¿Se puede Hackear la información Genética?
La investigación encuentra que el crecimiento de las pruebas de ADN en el hogar ha abierto una oportunidad para la piratería genética .
Los servicios en línea como GEDMatch, MyHeritage y FamilyTreeDNA se han convertido en lugares populares para que las personas carguen su información genética, investiguen su genealogía y encuentren parientes perdidos. También han sido utilizados por la policía para encontrar sospechosos criminales a través de una coincidencia de ADN con familiares.
Ahora, los investigadores advierten que estos servicios «directos al consumidor» podrían ser vulnerables a una especie de piratería genética. Al cargar secuencias de ADN seleccionadas, dicen, puede ser posible, por ejemplo, extraer los genomas de la mayoría de las personas en una base de datos o identificar personas con variantes genéticas asociadas con rasgos específicos como la enfermedad de Alzheimer.
Un documento preimpreso que describe el problema está disponible en bioarXiv . El profesor de coautores Graham Coop y el investigador postdoctoral Michael «Doc» Edge de la Universidad de California, Departamento de Evolución y Ecología de Davis, notificaron a las compañías de bases de datos el problema a mediados de julio para darles tiempo para poner en marcha las contramedidas.
«Las personas están dando más información de la que creen», cuando suben a estos sitios de acceso público, dice Coop. Y a diferencia de la información de la tarjeta de crédito, no puede simplemente cancelar su antiguo genoma y obtener uno nuevo.
Los problemas no afectan a las empresas de secuenciación de ADN con fines de lucro como 23andMe, dice Coop. Debe enviar su ADN como muestra de saliva para obtener acceso a sus datos genéticos. Sin embargo, las bases de datos públicas permiten que cualquiera cargue secuencias de ADN y busque otros usuarios con secuencias coincidentes.
Estos sitios funcionan mediante el uso de software para comparar secuencias de ADN cargadas por los usuarios con secuencias que ya están en su base de datos. Tu genoma es un mosaico de piezas heredadas de tus antepasados. Las piezas más grandes, o azulejos en el mosaico, provienen de antepasados recientes. A medida que pasan las generaciones, las secuencias coincidentes se cortan en pedazos más pequeños. Entonces, si comparte grandes fragmentos de secuencia de ADN con otra persona, es probable que comparta un antepasado reciente.
Tres métodos de pirateo genético
Coop y Edge encontraron tres enfoques que producen mucha más información de una base de datos de ADN que solo algunos primos perdidos. (Sus pruebas utilizaron una colección pública de secuencias de ADN humano disponibles para la investigación, no las bases de datos de aficionados). A estos métodos los denominan embaldosado IBS (idéntico por secuencia), sondeo IBS y cebo IBS.
- En el mosaico del SII , un atacante carga varios genomas encontrados en bases de datos de investigación públicas y realiza un seguimiento de cuáles coinciden con otros genomas en la base de datos y dónde. Si pueden encontrar suficientes fichas coincidentes, pueden juntar la mayor parte del genoma de alguien.
- El sondeo del SII se puede utilizar para buscar personas que porten una variante genética específica, por ejemplo, un gen relacionado con la enfermedad de Alzheimer. Para hacer esto, el atacante crea un genoma falso con una secuencia de ADN que probablemente no coincida con nadie, excepto por una pequeña sección que coincidirá con el gen de interés. Es probable que las coincidencias de la base de datos sean personas con esta variante genética.
- Finalmente, el cebo del SII se basa en engañar a una clase de algoritmos utilizados para identificar parientes. (Sin embargo, no todas las bases de datos usan este tipo de algoritmo). Coop y Edge calculan que con tan solo 100 secuencias de ADN cargadas, un atacante podría usar este método para obtener la mayor parte de la información genómica en una base de datos.