Seminar Big Data Applications

Beschreibung:

Wikipedia 2012: "Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen."

Im Seminar 'Big Data Applications'wird der Umgang mit groß-skalige Forschungs- bzw. Roh- und Messdaten anschaulich erarbeitet. Auf der einen Seite werden aus dem Umfeld des KIT Forschungsprojekte, die große Datenmengen erzeugen und deren Daten-Workflows, analysiert. Auf der anderen Seite werden Technologien und Methoden, um diese Datenmengen zu verarbeiten und langfristig zu erhalten, betrachtet. Typische Anwendungen werden den erzeugten "Mehrwert" illustrieren.

Vorläufige Themenliste:

  • Datenerfassung und Trigger am Beispiel der (Astro-)Teilchenphysik
  • Digitalisierungs- und Bereitstellungsprojekte in Deutschland: Kunst und Geisteswissenschaften
  • Schafft Replikation Sicherheit? Kosten vs. Nutzen
  • Bitstream Preservation: Verfahren und Algorithmen
  • Metadaten und Metadatenstandards: Welche Informationen sind wichtig?
  • Content Preservation und Data Curation mit Data Conservancy
  • Datensammlungen und Registries: Wie finde und benutze ich diese?
  • Fedora Repositories: Erstellung einer Datensammlung
  • Empfehlungen für die Langzeitarchivierung: Nestor, OAIS - TRAC, Data Seal of Approval
  • Persistent Identifier Systems: Wie erzeuge ich PIDs?
  • ESciDoc: Geeignet für Big Data?
  • Policies: Wie werden sie in iRODS implementiert?
  • Ist das Open Archival Information System (OAIS) für Big Data geeignet?
  • Datenintensives Computing am Beispiel des Synchrotrons ANKA