In den katalytischen Wissenschaften sind wir, wie in allen wissenschaftlichen Bereichen, mit einer schnell zunehmenden Menge und Komplexität von Forschungsdaten konfrontiert, die eine Herausforderung für die Analyse und Wiederverwendung darstellen. Ein Team um Prof. Jürgen Pleiss vom Institut für Biochemie und Technische Biochemie der Universität Stuttgart hat EnzymeML als Datenaustauschformat in einem kürzlich erschienenen Fachartikel in „Nature Methods“ vorgestellt. EnzyemML dient als Format, um die Ergebnisse eines enzymatischen Experiments umfassend zu berichten und speichert die Daten strukturiert und macht sie nachvollziehbar und wiederverwendbar.
Während durch immer mehr Forscher und steigende Forschungsausgaben weltweit immer mehr Daten generiert werden, sind diese Daten durch unsere wissenschaftliche Praxis der Vermittlung wissenschaftlicher Ergebnisse kaum noch zu bewältigen. Selbst die manuelle Verwaltung der eigenen Daten ist zeitaufwändig und fehleranfällig, aber der Zugriff auf und die erneute Analyse von Daten anderer Forschungsgruppen ist fast unmöglich. Fehlende Standards, unvollständige Metadaten und fehlende Originaldaten machen es nahezu unmöglich, veröffentlichte Ergebnisse zu reproduzieren. Immer mehr Forscher haben das Gefühl, in einem Datentsunami zu ertrinken.
Dies gilt auch für Untersuchungen zur katalytischen Aktivität, Selektivität und Stabilität von Enzymen und enzymatischen Netzwerken, einem für die industrielle Biotechnologie und Biomedizin gleichermaßen wichtigen Forschungsgebiet. Erschwerend kommt hinzu, dass die Datenlage zu enzymatischen Experimenten besonders komplex ist, da eine enzymatische Reaktion von vielen Faktoren abhängt, wie der Proteinsequenz des Enzyms, dem rekombinanten Wirtsorganismus, den Reaktionsbedingungen und nicht enzymatisch Nebenreaktionen. Darüber hinaus beeinflussen andere Effekte wie Inaktivierung oder Hemmung des Enzyms oder Verdunstung des Mediums die Ergebnisse.
Das neue, standardisierte Datenaustauschformat „EnzymeML“, vorgestellt von 23 Autoren aus 14 verschiedenen Forschungseinrichtungen in der Fachzeitschrift Naturmethoden macht diesbezüglich Hoffnung. EnzymeML kann die Ergebnisse eines enzymatischen Experiments vollständig aufzeichnen, von den Reaktionsbedingungen bis zu den gemessenen Daten, sowie das zur Analyse der experimentellen Daten verwendete kinetische Modell und die geschätzten kinetischen Parameter. Das Format bietet somit einen nahtlosen Kommunikationskanal zwischen experimentellen Plattformen, elektronischen Laborbüchern, Enzymkinetik-Modellierungswerkzeugen, Veröffentlichungsplattformen und enzymatischen Reaktionsdatenbanken. „Wir demonstrieren die Machbarkeit und Nützlichkeit der EnzymeML-Toolbox anhand von sechs Szenarien, in denen Daten und Metadaten aus verschiedenen enzymatischen Reaktionen gesammelt, analysiert und für die zukünftige Verwendung in öffentliche Datenbanken hochgeladen werden“, erklärt Erstautorin Simone Lauterbach.
EnzymeML-Dokumente sind strukturiert und standardisiert, daher sind die in einem EnzymeML-Dokument codierten experimentellen Ergebnisse interoperabel und von anderen Gruppen wiederverwendbar. Da ein EnzymeML-Dokument maschinenlesbar ist, kann es in einem automatisierten Arbeitsablauf zum Speichern, Visualisieren und Analysieren von Daten sowie zum erneuten Analysieren zuvor veröffentlichter Daten verwendet werden, ohne Einschränkungen hinsichtlich der Größe jedes Datensatzes oder der Anzahl der Experimente .
„Die Digitalisierung der Biokatalyse steigert die Effizienz von Datenmanagement, Visualisierung und Analyse“, betont Prof. Jürgen Pleiss, korrespondierender Autor und Projektkoordinator. Darüber hinaus verbessert die Digitalisierung die Reproduzierbarkeit von Experimenten und Datenanalysen und fördert so das Vertrauen in wissenschaftliche Ergebnisse. „Die EnzymeML-Toolbox nutzt die schnell wachsenden enzymatischen Daten optimal aus und ist ein nützliches Werkzeug, mit dem Forscher auf der Welle der Forschungsdaten surfen können.“
EnzymeML wird auch in Forschungsprojekten innerhalb des Sonderforschungsbereichs „Molecular Heterogeneous Catalysts in Confined Geometries“ (SBF 1333) und des Exzellenzclusters „Data-Integrated Simulation Science“ (SimTech) der Universität Stuttgart eingesetzt und ist dort ebenfalls eingebunden die deutschen Nationalen Forschungsdateninfrastrukturen NFDI4Cat und NFDI4Chem.