Wissenschaftliche Demonstration mit maschinellem Lernen enthüllt „extreme“ DNA-Sequenzen mit maßgeschneiderten Aktivitäten – ScienceDaily


Künstliche Intelligenz ist in unseren Newsfeeds explodiert, wobei ChatGPT und verwandte KI-Technologien in den Fokus breiter öffentlicher Aufmerksamkeit gerückt sind. Über die beliebten Chatbots hinaus finden Biologen Möglichkeiten, KI zu nutzen, um die Kernfunktionen unserer Gene zu erforschen.

Zuvor haben Forscher der University of California San Diego, die DNA-Sequenzen untersuchen, die Gene einschalten, mithilfe künstlicher Intelligenz ein rätselhaftes Puzzleteil identifiziert, das mit der Genaktivierung zusammenhängt, einem grundlegenden Prozess, der an Wachstum, Entwicklung und Krankheit beteiligt ist. Mithilfe von maschinellem Lernen, einer Art künstlicher Intelligenz, entdeckten Professor James T. Kadonaga von der School of Biological Sciences und seine Kollegen die Downstream-Core-Promoter-Region (DPR), einen „Gateway“-DNA-Aktivierungscode, der an der Operation von bis zu einem Drittel beteiligt ist unsere Gene.

Aufbauend auf dieser Entdeckung haben Kadonaga und die Forscher Long Vo ngoc und Torrey E. Rhyne nun maschinelles Lernen genutzt, um „synthetische extreme“ DNA-Sequenzen mit speziell entwickelten Funktionen bei der Genaktivierung zu identifizieren. Veröffentlichung in der Zeitschrift Gene & Entwicklungtesteten die Forscher Millionen verschiedener DNA-Sequenzen durch maschinelles Lernen (KI), indem sie das DPR-Genaktivierungselement beim Menschen mit dem von Fruchtfliegen verglichen (Drosophila). Durch den Einsatz von KI konnten sie seltene, maßgeschneiderte DPR-Sequenzen finden, die beim Menschen aktiv sind, nicht aber bei Fruchtfliegen und umgekehrt. Allgemeiner könnte dieser Ansatz nun zur Identifizierung synthetischer DNA-Sequenzen mit Aktivitäten verwendet werden, die in der Biotechnologie und Medizin nützlich sein könnten.

„In Zukunft könnte diese Strategie verwendet werden, um synthetische extreme DNA-Sequenzen mit praktischen und nützlichen Anwendungen zu identifizieren. Anstatt Menschen (Bedingung X) mit Fruchtfliegen (Bedingung Y) zu vergleichen, könnten wir die Fähigkeit von Medikament A (Bedingung X) testen.“ nicht Medikament B (Zustand Y), um ein Gen zu aktivieren“, sagte Kadonaga, ein angesehener Professor in der Abteilung für Molekularbiologie. „Mit dieser Methode könnten auch maßgeschneiderte DNA-Sequenzen gefunden werden, die ein Gen in Gewebe 1 (Zustand X), aber nicht in Gewebe 2 (Zustand Y) aktivieren. Es gibt unzählige praktische Anwendungen dieses KI-basierten Ansatzes. Das synthetische Extrem.“ DNA-Sequenzen könnten sehr selten sein, vielleicht eine von einer Million – wenn sie existieren, könnten sie mithilfe von KI gefunden werden.“

Maschinelles Lernen ist ein Zweig der KI, bei dem Computersysteme sich kontinuierlich verbessern und auf der Grundlage von Daten und Erfahrungen lernen. In der neuen Forschung verwendeten Kadonaga, Vo ngoc (ein ehemaliger Postdoktorand der UC San Diego, jetzt bei Velia Therapeutics) und Rhyne (wissenschaftlicher Mitarbeiter) eine Methode namens Support Vector Regression, um Modelle für maschinelles Lernen mit 200.000 etablierten DNA-Sequenzen zu „trainieren“. basierend auf Daten aus realen Laborexperimenten. Dies waren die Ziele, die als Beispiele für das maschinelle Lernsystem vorgestellt wurden. Anschließend „fütterten“ sie 50 Millionen Test-DNA-Sequenzen in die maschinellen Lernsysteme für Menschen und Fruchtfliegen und forderten sie auf, die Sequenzen zu vergleichen und einzigartige Sequenzen innerhalb der beiden riesigen Datensätze zu identifizieren.

Während die maschinellen Lernsysteme zeigten, dass sich die Sequenzen von Menschen und Fruchtfliegen weitgehend überschnitten, konzentrierten sich die Forscher auf die Kernfrage, ob die KI-Modelle seltene Fälle identifizieren könnten, in denen die Genaktivierung beim Menschen hoch aktiv ist, bei Fruchtfliegen jedoch nicht. Die Antwort war ein klares „Ja“. Den Modellen des maschinellen Lernens gelang es, menschenspezifische (und fruchtfliegenspezifische) DNA-Sequenzen zu identifizieren. Wichtig ist, dass die von der KI vorhergesagten Funktionen der Extremsequenzen in Kadonagas Labor mithilfe herkömmlicher (Nasslabor-)Testmethoden überprüft wurden.

„Bevor wir mit dieser Arbeit begannen, wussten wir nicht, ob die KI-Modelle „intelligent“ genug waren, um die Aktivitäten von 50 Millionen Sequenzen vorherzusagen, insbesondere von „extremen“ Ausreißersequenzen mit ungewöhnlichen Aktivitäten. Es ist also sehr beeindruckend und ziemlich bemerkenswert, dass die „KI-Modelle könnten die Aktivitäten der seltenen extremen Sequenzen vorhersagen, die eins zu einer Million sind“, sagte Kadonaga und fügte hinzu, dass es praktisch unmöglich sei, die vergleichbaren 100 Millionen Nasslaborexperimente durchzuführen, die die maschinelle Lerntechnologie seit jedem Nasslabor analysiert habe Das Experiment würde fast drei Wochen dauern.

Die vom maschinellen Lernsystem identifizierten seltenen Sequenzen dienen als erfolgreiche Demonstration und bereiten die Bühne für andere Anwendungen des maschinellen Lernens und anderer KI-Technologien in der Biologie.

„Im Alltag finden Menschen neue Anwendungen für KI-Tools wie ChatGPT. Hier haben wir den Einsatz von KI für die Gestaltung maßgeschneiderter DNA-Elemente bei der Genaktivierung demonstriert. Diese Methode sollte praktische Anwendungen in der Biotechnologie und biomedizinischen Forschung haben, „, sagte Kadonaga. „Im weiteren Sinne stehen Biologen wahrscheinlich ganz am Anfang, die Leistungsfähigkeit der KI-Technologie zu nutzen.“

Weitere Artikel