Freie Software in Clustersystemen mit BioBrew
Copyright © 2004 by the Author(s)
Dieser Beitrag ist lizensiert unter der GNU Free Documentation License.
Zusammenfassung
Dieser Vortrag soll einen Überblick verschaffen, wie moderne Clustersysteme mittels Linux betrieben werden, was für Techniken eingesetzt werden, welche Branchen Clustersysteme nutzen, was beim Aufbau und Betrieb von Clustersystemen zu beachten ist, und welche spezifischen Programmanpassungen nötig, oder auch nicht nötig sind, um seine eigenen Applikationen clusterfähig zu machen.
Desweiteren werde ich im Bereich Bioinformatik spezielle Software und Cluster Distributionen (Linux) vorstellen, die für Cluster im Bereich Bioinformatik geschaffen wurden.
Dieser Vortrag ist für Interessierte Administratoren oder Naturwissenschaftler gedacht, die sich einen aktuellen Überblick über Computing Cluster wünschen, aber auch fuer alle anderen, die sich über Cluster Informieren wollen.
Stichworte: Beowolf, Mosix, BioBrew, Blast
Copyright (c) 2004 Robert Depenbrock
Permission is granted to copy, distribute and/or modify this document
under the terms of the GNU Free Documentation License, Version 1.2
or any later version published by the Free Software Foundation;
with no Invariant Sections, no Front-Cover Texts, and no Back-Cover
Texts. A copy of the license is included in the section entitled "GNU
Free Documentation License".
Freie Software in Bioinformatik Clustersystemen
High Performance Computing findet man heutzutage in vielen Bereichen.
Bei den Life Sciences, Staatlicher Forschung,Öl und Gas, sowie Geologie,Medien, und Automotive und
Maschinenbau.
Anwendungsgebiete:
Life Sciences:
Bioinformatik
Sequenz Analyse
Expression Analyse
Staatlicher Forschung:
Simulation
Visualisierung
Behoerden (Strafverfolgung,Staatsschutz)
Öl-Gas, Geologie
Auswertung Seismischer Aktivitäten
Geologische Datenverarbeitung
Medien
Rendering
Post-Produktion
Streaming
Automotive-Maschinenbau
Simulation
Design
Ökonomische Kostenanalyse
Jeder dieser Anwendungsgebiete hat wesentliche Gemeinsamkeiten, die den einsatz in Clustern fördern.
Rechenkraft für den täglichen Bedarf
Grosse Datensätze
Grosser Durchsatz erforderlich
Produktions orientiert
Warum braucht Life Science (Bioinformatik) High Performance Computing?
Fakt ist, der Bereich Bioinformatik ist der am schnellsten wachsende Markt für Clustersysteme.
HPC ist benötigt um die grossen und komplexen miteinander unvereinbaren Datensätze zu analysieren, bearbeiten und abzufragen.
HPC muss bezahlbar sein, um die Gesamtkosten niedrig zu halten.
Die richtige HPC Lösung erhöht die Produktivität der Forscher.
HPC ist das Framework auf dem Bioinformatik aufbauen.
Anwendungsgebiete: Bioinformatik,Medikamentenforschung, Genomic und Proteomics.
Die Herausforderungen ist in der riesigen Datenmenge zu suchen, die im Internet verfügbar ist.
So gibt es unzählige Genetische Datenbanken im Internet die frei zugänglich sind, und die Gene angefangen von Bakterien über Mäusen bis hin zum Menschen frei jedermann zu verfügung stellen.
Desweiteren gibt es eine Unmenge von Daten im Bereich Literatur und Patentschriften die bearbeitet werden müssen.
Parrallel auszuführende Programme und Rechenintensive Applikationen sind z.B. Microarrays, Sequenzing Analysen mit hohem Durchsatz, sowie
Ergebnisse von chemischen Analysen.
Bei den Chemischen Analysen, erhält man eine sehr grosse Menge an Daten die verarbeitet werden müssen um sinnvolle Resultate zu bekommen.
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
Clustering Herrausforderungen
Die heutigen Herrausforderungen im Clustering Bereich sind:
Installation
Management
Wartung
Erfahrung
Support
Das groesste Problem ist, das es bis dato keine Standard Linux Clustering Distribution gibt. Die Meisten Cluster sind von Hand veränderte Installationen von SuSe Linux und RedHat Installationen, die sehr schlecht skalieren.
Computing Applikationen die im Internet verstreut sind werden auf einer Clusterumgebung eingefügt, ohne wirklich integriert zu werden.
Generell gibt es verschiedene Hardware Varianten die zu Clusterzwecken gebraucht wird.
Als Schulungssysteme kann man ältere Rechner und FastEthernet verwenden um einfache Clustersysteme zu erstellen an denen man sehr gut
die Probleme und herausforderungen von Clustersystemen erfahren kann.
Man kann Clustersysteme soweit Skalieren, das mit hilfe von speziellen Interconnect Karten von Myrinet oder Infiniband hoch skalierbare Clusternode szu einen Hochperformanten Clustersystem zusammengestellt werden können, die sich zwar stark von der Performanz unterscheiden, aber nicht von den Problemen hinsichtlich Parrallelisierung und Monitoring der einzelnen Clusternodes.
Beowulf (
http://www.scyld.com
) Clustersysteme gibt es nicht nur für Linux auf X86 Maschinen, sondern auch für Rechner Mit PowerPC Prozessoren von Apple (
http://www.yellowdoglinux.com/
). Apple selber gibt für PowerPC Prozessoren optimierte BLAST Binaries heraus, um Apple Cluster zu fördern.
Was für Möglichkeiten gibt es um so ein Chaos zu vermeiden?
Es gibt BioBrew Linux!
BioBrew Linux ist eine auf dem NPACI ROCKS Cluster++ Cluster Distribution zugeschnitten auf den Forscher der sich mehr mit Forschung und weniger mit Informatik auseinandersetzen möchte.
BioBrew enthält elementare OpenSource (Freie Software) Bioinformatik Tools.
BioBrew ist frei über das Internet erhältlich über:
http://bioinformatics.org/ftp/biobrew/
oder
http://ftp.bay13.net/pub/biobrew/
BioBrew hat eine globale Userbasis und wird ständig weiterentwickelt.
Was ist der Vorteil von BioBrew?
BioBrew ist die erste Clusterdistribution die folgende Vorteile besitzt:
Automatisierte Cluster Erstellung und Konfiguration
Cluster Managing und Monitoring
Unterstützung von 32Bit und 64 Bit Platformen.
Sehr gute Dokumentation
BioBrew enthält folgende HPC Software: (Framework,Infrastruktur)
Folgende Bioinformatik Software ist in BioBrew integriert.
In der aktuellen BioBrew Version 3.0 gibt es AMD Opteron und Itanium Support.
Nur für die X86 Architektur.
In der Zukubft wird es möglich sein, Grid Computing mit BioBrew Installationen einfach herzustellen.
BioBrew soll die Distribution werden die alles von haus aus mitbringt was man in der Bioinformatik für den typischen
Laboreinsatz benötigt.
BioBrew wird immer dafür ausgelegt sein, einfach einen Cluster zu erstellen, ohne sich viel mit der Informatik dazu auszukennen.
Wer mehr über BioBrew und der darin enthaltenen Applikationen erfahren will, kann folgende Links besuchen.
http://bioinformatics.org/
http://www.clusterworld.com/
http://www.apple.com/xserve/cluster/resources.html
http://www.ncbi.nlm.nih.gov/
http://www.top500.org/
IBT ist ein Benchmark für Clustersysteme, der einen Score mittels Bioinformatikapplikationen ermittelt.
http://www.bioteam.net/ibt/index.html
Dies ist nur ein kleiner Auszug in die Welt der Applikationen für die Bioinformatik.
Durch das Internet ist jeder in der lage, selbst in die weiten der Genetik und Biologie einzudringen.
Anhand einfacher Beispiele und Programme braucht man auch keinen Cluster um Erfolge zu erzielen, allerding sind
Clustersysteme eine günstige Variante, um High Performance Computing zu erfahren.
Copyright (C) 2000,2001,2002 Free Software Foundation, Inc.
59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
Everyone is permitted to copy and distribute verbatim copies
of this license document, but changing it is not allowed.