[ L T Net ] OPEN-EVENTS :: OPEN MUSIC :: MINICONTENT :: KNOPPIX LINUXTAG.org 
Cornerstone
// LinuxTag 2005
Besuchen Sie uns auch nächstes Jahr wieder auf dem LinuxTag 2005 im Karlsruher Messe- und Kongresszentrum. Für nähere Details und den genauen Termin besuchen Sie bitte die LinuxTag Homepage.
EUROPAS GRÖSSTE GNU/LINUX MESSE UND KONFERENZ
KONFERENZ-DVD 2004
 Hauptseite   Vorträge   Bücher   History   Software   Knoppix   Sponsoren   Abspann   Impressum 
Hauptseite // Vorträge // Freie Software in Clustersystemen mit BioBrew

Freie Software in Clustersystemen mit BioBrew

Robert Depenbrock

LinuxTag e.V.
Dieser Beitrag ist lizensiert unter der GNU Free Documentation License.

June 2004

Zusammenfassung

Dieser Vortrag soll einen Überblick verschaffen, wie moderne Clustersysteme mittels Linux betrieben werden, was für Techniken eingesetzt werden, welche Branchen Clustersysteme nutzen, was beim Aufbau und Betrieb von Clustersystemen zu beachten ist, und welche spezifischen Programmanpassungen nötig, oder auch nicht nötig sind, um seine eigenen Applikationen clusterfähig zu machen.

Desweiteren werde ich im Bereich Bioinformatik spezielle Software und Cluster Distributionen (Linux) vorstellen, die für Cluster im Bereich Bioinformatik geschaffen wurden.

Dieser Vortrag ist für Interessierte Administratoren oder Naturwissenschaftler gedacht, die sich einen aktuellen Überblick über Computing Cluster wünschen, aber auch fuer alle anderen, die sich über Cluster Informieren wollen.

Stichworte: Beowolf, Mosix, BioBrew, Blast



Copyright (c)  2004  Robert Depenbrock
      Permission is granted to copy, distribute and/or modify this document
      under the terms of the GNU Free Documentation License, Version 1.2
      or any later version published by the Free Software Foundation;
      with no Invariant Sections, no Front-Cover Texts, and no Back-Cover
      Texts.  A copy of the license is included in the section entitled "GNU  

Free Documentation License".

Freie Software in Bioinformatik Clustersystemen

High Performance Computing findet man heutzutage in vielen Bereichen.

Bei den Life Sciences, Staatlicher Forschung,Öl und Gas, sowie Geologie,Medien, und Automotive und

Maschinenbau.

Anwendungsgebiete:

Life Sciences:

Bioinformatik

Sequenz Analyse

Expression Analyse

Staatlicher Forschung:

Simulation

Visualisierung

Behoerden (Strafverfolgung,Staatsschutz)

Öl-Gas, Geologie

Auswertung Seismischer Aktivitäten

Geologische Datenverarbeitung

Medien

Rendering

Post-Produktion

Streaming

Automotive-Maschinenbau

Simulation

Design

Ökonomische Kostenanalyse

Jeder dieser Anwendungsgebiete hat wesentliche Gemeinsamkeiten, die den einsatz in Clustern fördern.

  1. Rechenkraft für den täglichen Bedarf

  2. Grosse Datensätze

  3. Grosser Durchsatz erforderlich

  4. Produktions orientiert

Warum braucht Life Science (Bioinformatik) High Performance Computing?

Fakt ist, der Bereich Bioinformatik ist der am schnellsten wachsende Markt für Clustersysteme.

HPC ist benötigt um die grossen und komplexen miteinander unvereinbaren Datensätze zu analysieren, bearbeiten und abzufragen.

HPC muss bezahlbar sein, um die Gesamtkosten niedrig zu halten.

Die richtige HPC Lösung erhöht die Produktivität der Forscher.

HPC ist das Framework auf dem Bioinformatik aufbauen.

Anwendungsgebiete: Bioinformatik,Medikamentenforschung, Genomic und Proteomics.

Die Herausforderungen ist in der riesigen Datenmenge zu suchen, die im Internet verfügbar ist.

So gibt es unzählige Genetische Datenbanken im Internet die frei zugänglich sind, und die Gene angefangen von Bakterien über Mäusen bis hin zum Menschen frei jedermann zu verfügung stellen.

Desweiteren gibt es eine Unmenge von Daten im Bereich Literatur und Patentschriften die bearbeitet werden müssen.

Parrallel auszuführende Programme und Rechenintensive Applikationen sind z.B. Microarrays, Sequenzing Analysen mit hohem Durchsatz, sowie

Ergebnisse von chemischen Analysen.

Bei den Chemischen Analysen, erhält man eine sehr grosse Menge an Daten die verarbeitet werden müssen um sinnvolle Resultate zu bekommen.

http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

Clustering Herrausforderungen

Die heutigen Herrausforderungen im Clustering Bereich sind:

Installation

Management

Wartung

Erfahrung

Support

Das groesste Problem ist, das es bis dato keine Standard Linux Clustering Distribution gibt. Die Meisten Cluster sind von Hand veränderte Installationen von SuSe Linux und RedHat Installationen, die sehr schlecht skalieren.

Computing Applikationen die im Internet verstreut sind werden auf einer Clusterumgebung eingefügt, ohne wirklich integriert zu werden.

Generell gibt es verschiedene Hardware Varianten die zu Clusterzwecken gebraucht wird.

Als Schulungssysteme kann man ältere Rechner und FastEthernet verwenden um einfache Clustersysteme zu erstellen an denen man sehr gut

die Probleme und herausforderungen von Clustersystemen erfahren kann.

Man kann Clustersysteme soweit Skalieren, das mit hilfe von speziellen Interconnect Karten von Myrinet oder Infiniband hoch skalierbare Clusternode szu einen Hochperformanten Clustersystem zusammengestellt werden können, die sich zwar stark von der Performanz unterscheiden, aber nicht von den Problemen hinsichtlich Parrallelisierung und Monitoring der einzelnen Clusternodes.

Beowulf ( http://www.scyld.com ) Clustersysteme gibt es nicht nur für Linux auf X86 Maschinen, sondern auch für Rechner Mit PowerPC Prozessoren von Apple ( http://www.yellowdoglinux.com/ ). Apple selber gibt für PowerPC Prozessoren optimierte BLAST Binaries heraus, um Apple Cluster zu fördern.

Was für Möglichkeiten gibt es um so ein Chaos zu vermeiden?

Es gibt BioBrew Linux!

BioBrew Linux ist eine auf dem NPACI ROCKS Cluster++ Cluster Distribution zugeschnitten auf den Forscher der sich mehr mit Forschung und weniger mit Informatik auseinandersetzen möchte.

BioBrew enthält elementare OpenSource (Freie Software) Bioinformatik Tools.

BioBrew ist frei über das Internet erhältlich über: http://bioinformatics.org/ftp/biobrew/ oder http://ftp.bay13.net/pub/biobrew/

BioBrew hat eine globale Userbasis und wird ständig weiterentwickelt.

Was ist der Vorteil von BioBrew?

BioBrew ist die erste Clusterdistribution die folgende Vorteile besitzt:

  1. Automatisierte Cluster Erstellung und Konfiguration

  2. Cluster Managing und Monitoring

  3. Unterstützung von 32Bit und 64 Bit Platformen.

  4. Sehr gute Dokumentation

BioBrew enthält folgende HPC Software: (Framework,Infrastruktur)

  1. Sun Grid Engine ( http://gridengine.sunsource.net/ )

  2. PVM ( http://www.netlib.org/pvm3/ )

  3. LAM-MPI und MPICH (Ethernet,Myrinet,Infiniband) ( http://www-unix.mcs.anl.gov/mpi/mpich/ )

  4. VMI (Virtual Machine Interface) ( http://vmi.ncsa.uiuc.edu/ )

  5. Modules

  6. Ganglia (Distributed monitoring system) ( http://ganglia.sourceforge.net/ )

  7. Oscar ( http://oscar.openclustergroup.org )

Folgende Bioinformatik Software ist in BioBrew integriert.

BioBrew 3.0

In der aktuellen BioBrew Version 3.0 gibt es AMD Opteron und Itanium Support.

Nur für die X86 Architektur.

Was ist geplant fuer 3.x ?

64Bit erweiterungen

Intel Tools und Compiler

Mehr Bioinformatik Anwendungen wie:

TIGR Assembler ( http://www.tigr.org/software/assembler/ )

MUMer ( http://www.tigr.org/software/mummer/ )

MIDAS ( http://www.tigr.org/software/tm4/midas.html )

MeV ( http://www.tigr.org/software/tm4/mev.html )

Updates von allen bisherigen Applikationen.

BioBrews Zukunft?

In der Zukubft wird es möglich sein, Grid Computing mit BioBrew Installationen einfach herzustellen.

BioBrew soll die Distribution werden die alles von haus aus mitbringt was man in der Bioinformatik für den typischen

Laboreinsatz benötigt.

BioBrew wird immer dafür ausgelegt sein, einfach einen Cluster zu erstellen, ohne sich viel mit der Informatik dazu auszukennen.

Wer mehr über BioBrew und der darin enthaltenen Applikationen erfahren will, kann folgende Links besuchen.

http://bioinformatics.org/

http://www.clusterworld.com/

http://www.apple.com/xserve/cluster/resources.html

http://www.ncbi.nlm.nih.gov/

http://www.top500.org/

IBT ist ein Benchmark für Clustersysteme, der einen Score mittels Bioinformatikapplikationen ermittelt.

http://www.bioteam.net/ibt/index.html

Dies ist nur ein kleiner Auszug in die Welt der Applikationen für die Bioinformatik.

Durch das Internet ist jeder in der lage, selbst in die weiten der Genetik und Biologie einzudringen.

Anhand einfacher Beispiele und Programme braucht man auch keinen Cluster um Erfolge zu erzielen, allerding sind

Clustersysteme eine günstige Variante, um High Performance Computing zu erfahren.


Copyright (C) 2000,2001,2002  Free Software Foundation, Inc.
59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
Everyone is permitted to copy and distribute verbatim copies      

of this license document, but changing it is not allowed.

 
Impressum // © 2004 LinuxTag e.V.