Interview mit Professor Rattei

Nightshift

Grand Admiral Special
Mitglied seit
19.08.2002
Beiträge
4.447
Renomée
81
Standort
Tief im Weeeeeesss-teheheheeen ;-)
  • SIMAP Race
  • Spinhenge ESL
  • Docking@Home
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
Moin Leude!

Im Zuge einer Projektarbeit zum Thema verteiltes Rechnen und verteilte Netze, mit dem Schwerpunkt BOINC, habe ich ein Email-Interview mit dem Leiter des SIMAP-Projektes, Herrn Prof. Rattei, führen können und wollte euch das nicht vorenthalten.
Vielleicht gibt's das ja doch noch die eine oder andere interessante Information bzw. neues interessante Detail, dass ihr noch nicht kennt.

Also dann, viel Spaß!




Herr Prof. Dr. Thomas Rattei war von 2001 bis 2010 wissenschaftlicher Mitarbeiter und Habilitand an der TU München.

Seit 2010 ist er Professor für "In silico genomics" an der Universität Wien und Leiter des Departments für Computational Systems Biologie.


Herr Professor Rattei, stellen Sie doch ihren Lehrstuhl kurz vor.

Das Department befasst sich mit Lehre und Forschung in der Bioinformatik.
Dies umfasst ganz allgemein die Entwicklung neuer wissenschaftlicher Methoden, deren Anwendung auf biologische Probleme und die Interpretation der Ergebnisse.
Unser Spezialgebiete sind dabei die Genomik und die Bioinformatik von Systemen, in denen verschiedene Arten molekular wechselwirken (z.B. mikrobielle Gemeinschaften oder Krankheitserreger mit dem Wirt).
Meine Aufgaben sind die Koordination unseres Teams, die Lehre in den Studiengängen der Biologie und des wissenschaftlichen Rechnens, aber auch die Mitarbeit in Verwaltungsaufgaben der Universität. Ich sorge dafür, dass sich sowohl unsere wissenschaftliche als auch fachliche Arbeit stets weiterentwickelt und gute Qualität hat. Zudem ist mir ein gutes Klima im Team sehr wichtig - wir unterstützen uns alle gegenseitig.


SIMAP wird als Datenbank beschrieben, welche die Ähnlichkeiten aller aktuell bekannten Proteinsequenzen (inkl. Domänen) in einer symmetrischen Matrix abspeichert. Was macht die Kenntnis von Ähnlichkeiten zwischen Proteinsequenzen möglich?

Vor mehr als zehn Jahren wurde gezeigt, dass zwischen der Ähnlichkeit von Proteinfunktion und Proteinsequenz ein direkter Zusammenhang besteht. Die Ähnlichkeit von Proteinfunktionen interessiert uns in der Biologie sehr - wenn wir beispielsweise von einem Protein wissen was es in einer Maus oder Fliege macht, könnte die Funktion eines ähnlichen Proteins im Menschen die gleiche sein. Da wir heute viele Millionen verschiedener Proteinsequenzen kennen, ist es so aufwändig aber auch sehr wichtig die Ähnlichkeiten zwischen ihnen zu kennen und zu nutzen.


Welche Vorteile bietet eine Datenbank wie SIMAP und wer greift auf SIMAP zu? Wie viel Zugriffe erfolgen in etwa pro Monat?


SIMAP wird von vielen Wissenschaftlern genutzt. Dazu zählen vor allem biologische Datenbanken (STRING, eggNOG, TAIR, Gene3D, PEDANT, ...), aber auch Forschungsprojekte wie ein Projekt der City University New York, oder auch Forschungsarbeiten in unserer eigenen Arbeitsgruppe. Die Datenbank ist viel schneller als eine Neuberechnung der Ähnlichkeiten, daher lohnt sich ihre Nutzung vor allem für Projekte die mit vielen Proteinsequenzen arbeiten. Pro Monat hat SIMAP zwischen einigen 10.000 und einigen Millionen Zugriffe, das schwankt sehr. Die Anzahl der Zugriffe für den letzten Tag und die letzte Woche sind daher direkt und stets aktuell auf der SIMAP-Webseite zu sehen.


Gibt es konkrete Ergebnisse auf Basis der SIMAP-Datenbank, auch in Form von Papern oder Dissertationen?

SIMAP selbst wurde in vier Publikationen (aufeinander aufbauend) publiziert. Diese sind mittlerweile durch mehr als 100 andere Publikationen zitiert worden, welche alle die SIMAP Datenbank nutzen bzw. sich mit ihr befasst haben. Bei besonders aufwändigen Projekten mit SIMAP können wir auch Co-Autoren sein, wie im aktuellen Paper über die neuen eggNOG Datenbank.


Wie ist SIMAP entstanden und wie ist seitdem die Entwicklung von Datenbank und Projekt verlaufen?

SIMAP ist vor ca. 10 Jahren entstanden, als Idee die vielen überflüssigen Neuberechnungen von Ähnlichkeiten immer der gleichen, längst bekannten Proteine durch eine inkrementell erweiterbare Datenbank zu ersetzen. Der erste Prototyp wurde von Roland Arnold, damals Studierender der Bioinformatik, implementiert. Seit 2004 gibt es die Datenbank in der heutigen Form, als Java-Implementierung. 2005 wurde sie online allen Usern zur Verfügung gestellt.


Wann kam der Gedanke, die Rechenleistung über Distributed Computing, und BOINC im speziellen, zu realisieren?

Der Gedanke kam recht früh, und zwar im Zusammenhang mit den vielen (tagsüber laufenden und doch oft ungenutzten) Computern an der TU München. Wir wollten zunächst nur diese brachliegende Rechenleistung in einem internen BOINC-Projekt für die Berechnung von SIMAP-Updates nutzbar machen. Durch den Kontakt mit BOINC-Nutzern wurde daraus aber sehr schnell ein öffentliches Projekt - das erste BOINC-Projekt in Deutschland überhaupt.


Wie steht es um Aufwand vs. Nutzen?

Der Aufwand in technischer Hinsicht ist eher gering - die benötigten Server können wir recht einfach bereitstellen und warten. Wesentlich ist eher der zeitliche Aufwand für den Betrieb des Projektes (technisch und administrativ, aber auch der ständige Kontakt zu den Usern), der liegt trotz langjähriger Erfahrung bei 1-2 Tagen pro Monat. Wir teilen uns die Aufgaben in einem kleinen Team gut auf. Der Nutzen ist klar höher als der Aufwand, denn auch für eine andere Computing-Lösung wäre ja ein zeitlicher Aufwand erforderlich - wenn auch ein geringerer.


Stichwort technischer Aufwand: Was war am Anfang, und ist mittlerweile, zur Realisierung des Projektes notwendig? Musste die Netzwerklösung speziell angepasst werden und wenn ja inwieweit?

Anfangs haben wir mit einem dedizierten Server gearbeitet, der von einem Datenbankserver unterstützt wurde. Heute sind ein Fileserver mit großen Storage-Array, ein BOINC-Server (virtualisiert auf einem VM-Server) und ein Datenbankserver nötig. Die Netzwerkinfrastruktur selbst ist ein normales Gbit-LAN, mit schneller Verbindung ins Internet über das Netzwerk der Universität Wien.


Haben Sie eine Vorstellung wie SIMAP ohne BOINC aussehen könnte?

Wenn es BOINCSIMAP nicht gäbe, müssten wir die SIMAP-Updates auf einem Großcomputer berechnen, wie z.B. dem Vienna Scientific Cluster. Dabei würden wir einen beachtlichen Teil seiner Rechenleistung benötigen, ohne jedoch die spezielle (und teure) Netzwerkinfrastruktur zur Parallelisierung zu nutzen. SIMAP zu berechnen wäre also auf einem solchen Großrechner unwirtschaftlich, weil es seine Hardware nur teilweise ausnutzt.


Gibt es auch Nachteile die Sie in der Nutzung von BOINC sehen?

Dies ist die Zeit, die wir bis zur Validierung der Ergebnisse warten müssen. Wir können ja nicht erwarten, dass alle Computer aller Teilnehmer stets SIMAP-Workunits rechnen. Daher gibt es eine Wartefrist, bis zu der Ergebnisse hochgeladen werden können. Wir müssen uns also bei SIMAP-Updates immer darauf einstellen, dass es bis zur kompletten Bearbeitung aller Workunits 2-3 Wochen dauert.


SIMAP stellt seit einiger Zeit regelmäßig zu Monatsbeginn neue Sequenzen zur Berechnung zur Verfügung. Wie verläuft das typischer Weise von Projektseite aus? Gab es da einen Launch der Ihnen besonders in Erinnerung geblieben ist?


Projektseitig sind die Updates weitgehend automatisiert und laufen immer am Ende eines Monats ab. Alle nötigen Proteindatenbanken werden auf einem unserer Server wöchentlich aus dem Internet gespiegelt, so dass sie als lokale Kopie zur Verfügung stehen. Beim Update werden sie komplett mit SIMAP verglichen, und alle neuen Proteine werden in SIMAP eingetragen.
Insgesamt dauert dieser Vorgang 1-2 Tage. Danach werden die Workunits erzeugt, oft mehr als eine Million. Den genauen Start der Berechnung in BOINC kündigen wir per News und auf der Projektseite an.
Besonders in Erinnerung geblieben sind mir die Monate der Berechnung von Umweltgenomen. Das dauerte viel länger als angenommen, weil diese Genome so viele neuartige Proteinsequenzen enthielten wie niemand das erwartet hatte. Daher arbeitete SIMAP für längere Zeit dauerhaft an diesen Updates, was ein Stresstest für die gesamte Infrastruktur darstellte und insbesondere unsere Festplattenkapazitäten an ihr Limit brachte. Diese sind aber nun erweitert, so dass ein weiteres "Mammut"-Update problemlos verkraftbar wäre.


BOINC steht ja nicht nur für Rechenleistung die anonym plötzlich irgendwoher zur Verfügung steht, im Gegenteil steckt dahinter eine große und aktive Community. Wie sind da ihre Kontakte und ihre Erfahrungen?

Wir stehen über die Projektseite und über das Forum ja ständig mit der Community in Verbindung. Im "Normalbetrieb" sind Postings selten, aber bei Problemen, Änderungen oder anderen Diskussionen werden die Foren sehr aktiv. Wir haben am Beginn des Projekts den Fehler gemacht, mitunter zu langsam zu reagieren. Schließlich ist niemand aus dem BOINCSIMAP-Team dafür eingestellt und wir haben auch andere Aufgaben oder sind auf Reisen.
Aber wir haben gelernt dass wir uns im BOINCSIMAP-Team stets so abstimmen müssen, dass einer für die community erreichbar ist. An jedem Tag des Jahres. Das funktioniert seit Jahren gut und der Kontakt zur Community ist daher meist sehr positiv und angenehm.


Stichwort "Race". Das hat, bei dem Gedanken an die Serverhardware, wahrscheinlich schon einigen Projektbetreibern den Angstschweiß auf die Stirn getrieben. Wie sieht das bei Ihnen aus?

Nein, Angstschweiß hatten wir nie. Stattdessen haben wir diese Möglichkeit genutzt, unsere Hardware unter großer Last zu beobachten und systematisch weiter zu verbessern. So war für uns das letzte "Race" zu Beginn des Jahres toll, weil die Hardware bei uns ganz "unbeeindruckt" blieb und wir einen doppelt so hohen Durchsatz an Workunits hatten als sonst.


Wie ist die Perspektive für SIMAP?

SIMAP wird an der Universität Wien kontinuierlich weiter betrieben und wird dabei auch weiterhin gern auf BOINC setzen. Ein großes Dankeschön an dieser Stelle an alle BOINCSIMAP-User für die tolle Unterstützung bisher - wir hoffen dass wir auch weiterhin darauf bauen können!


________________________________________

Vielen Dank an dieser Stelle noch einmal an Herrn Professor Rattei, für die ausführlichen und präzisen Antworten in diesem Interview.
 
Wenn man das so liest, macht es gleich noch mehr Spaß, daran mit zu arbeiten.
Ein tolles Projekt.
 
Ich seh's wie der Kater.

Ein sinnvolles Projekt aus dem deutschen Sprachraum. Beim SIMAP Projekt arbeiten die Uni Wien, die TU München und das Münchner Helmholtz-Zentrum übrigens auch nach dem Wechsel des Teams nach Wien weiterhin zusammen.

Dazu ist der Kontakt über das Forum echt sehr lobenswert. Hier bekommt man immer zeitnah und freundlich, bereitwillig Antwort von den Betreibern. O-Ton von Herrn Rattei:
Und keine Frage ist für uns banal ;)

Deshalb war, ist und bleibt SIMAP seit 2006 mein Hauptprojekt, egal wieviele Credits vielleicht wo anders vergeben werden. Wenn SIMAP ruft, bin ich da ;)

@ Nightshift: schöner Beitrag!

Gruß,
Ritschie
 
Zuletzt bearbeitet:
Freut mich, das et euch freut. ;-)

Hat auch ziemlich gut funktioniert, der gute Mann antwortet wirklich sehr schnell auf Emails. :-)

Also insofern - lasst uns ab morgen wieder schön rocken! ;D
 
Also auf ihr Rocker. ;D
Ab morgenfrüh, d.h. 1. Februar geht es wieder los.
 
Zurück
Oben Unten