Jürgen Schmidhuber (* 17. Januar1963 in München) ist
ein Informatiker. Er arbeitet vor allem im Bereich Künstliche Intelligenz (KI) und deren Spezialgebiet der neuronalen Netzwerke.
Seit 1995 ist er wissenschaftlicher Direktor bei IDSIA, einem Schweizer Forschungsinstitut für KI.[1]
Bekannte internationale Medien bezeichneten ihn als „Vater fortgeschrittener KI“,[2] „Papa“ berühmter KI-Produkte,[3] „Vater der modernen KI“[4][5] und „Paten der KI“.[6]
Schmidhuber studierte ab 1983 Informatik und Mathematik an der Technischen Universität München, an der er 1987 sein Diplom erwarb und 1991 bei Wilfried Brauer in Informatik promoviert wurde. Das Thema war dynamische neuronale Netze und das fundamentale raumzeitliche Lernproblem.[7] Dynamische Neuronale Netze und insbesondere fast weight programmers, welche er 1991 vorschlug, enthalten Kernideen der heutigen Transformer-Architektur.[8]
Als Post-Doktorand war er 1991/92 an der University of Colorado Boulder. Im Jahre 1993 habilitierte sich Schmidhuber an der TU München (Net Architectures, Objective Functions, and Chain Rule). Er war Oberassistent und ab 1995 Privatdozent an der TU München, bevor er 1995 wissenschaftlicher Direktor von IDSIA in Lugano wurde.
Von 2003 bis 2021 war er Professor an der Scuola universitaria professionale della Svizzera italiana in Manno, von 2009 bis 2024 ordentlicher Professor an der Università della Svizzera italiana (USI), wo er immer noch außerordentlicher Professor ist.[1] Er war zudem 2004 bis 2009 als außerordentlicher Professor Leiter des Labors für kognitive Robotik an der TU München.[1] Seit Oktober 2021 arbeitet er als Direktor der KI-Initiative an der saudischenKAUST-Universität.[9]
Weiterhin ist er Mitgründer und Chefwissenschaftler der Firma NNAISENSE, deren Präsident er von 2014 bis 2017 war.[1]
Die in seiner Arbeitsgruppe entwickelten rekurrenten neuronalen Netze (RNN) lernen in effizienter Weise früher unlernbare Aufgaben wie die Erkennung gewisser kontextsensitiver Sprachen, Robotersteuerung in partiell sichtbaren Umgebungen, Musikkomposition, Aspekte der Sprachverarbeitung und das Erkennen von Handschriften. Er erhielt mit seinen neuronalen Netzwerken ab 2009 verschiedene Preise in visuellen Mustererkennungswettbewerben für Maschinenlernen und Künstliche Intelligenz. Sie wurden zum Beispiel in der KI-Forschung von Google angewandt, zum Beispiel auf das Go-Spiel (AlphaGo bei Deep Mind). Einer der Gründer von Google DeepMind studierte bei Schmidhuber in Lugano. Die RNN wurden insbesondere durch eine Idee von Schmidhubers Diplomanden an der TU München Sepp Hochreiter (Professor in Linz) 1991 verbessert, der Implementierung von Long short-term memory (LSTM) im neuronalen Netz, was diesem ermöglichte, weiter beim Lernen in die Vergangenheit zurückzublicken.[10] Schmidhuber bezeichnet seine RNN mit LSTM als Deep Learning Netzwerke.[11]
Seine möglicherweise ambitionierteste Arbeit ist die Gödelmaschine (2003) zur Lösung beliebiger formalisierbarer Probleme.
Mit Hilfe eines asymptotisch optimalen Theorembeweisers überschreibt die Gödelmaschine beliebige Teile ihrer Software (samt dem Theorembeweiser), sobald sie einen Beweis gefunden hat, dass dies ihre zukünftige Leistung verbessern wird. Die Gödelmaschine ist dabei ein theoretisches Konstrukt, keine real funktionierende Ingenieurs-Leistung.[12]
Schmidhuber publizierte auch Arbeiten zur Menge der möglichen berechenbaren Universen. Sein „Großer Programmierer“ implementiert Konrad Zuses Hypothese (1967) der digitalen Physik, gegen die bis heute keine physikalische Evidenz vorliegt. 1997 wies Schmidhuber darauf hin, dass das einfachste Programm alle Universen berechnet, nicht nur unseres. Ein Beitrag aus dem Jahre 2000 analysierte weiterhin die Menge aller Universen mit limit-berechenbaren Wahrscheinlichkeiten sowie die Grenzen formaler Beschreibbarkeit.
Diese Arbeiten führten ihn zu Verallgemeinerungen der Kolmogorov-Komplexität K(x) einer Bitkette x. K(x) ist die Länge des kürzesten Programms, das x berechnet und hält. Schmidhubers nicht-haltende, doch konvergierende Programme stellen noch kürzere, nämlich die kürzestmöglichen formalen Beschreibungen dar. Sie führen zu nicht-abzählbaren, doch limesberechenbaren Wahrscheinlichkeitsmaßen und zu sogenannten Super-Omegas, bei denen es sich um Verallgemeinerungen von Gregory Chaitins „Zahl aller mathematischen Weisheit“ Omega handelt. All dies hat Konsequenzen für das Problem der optimalen induktiven Inferenz, d. h., der optimalen Zukunftsvorhersage aus bisher beobachteten Daten.
2013 erhielt Schmidhuber den Helmholtz Award der International Neural Networks Society, 2016 den IEEE CIS Neural Networks Pioneer Award für „bahnbrechende Beiträge zum Deep Learning und zu neuronalen Netzen“.[1]
Sein Labor erhielt 2016 den NVIDIA Pioneers of AI Research Award.
Als Konsequenz aus der aus seiner Sicht unabwendbar fortschreitenden Automatisierung und dem damit einhergehenden Wegfall von Erwerbsarbeitsplätzen sieht Schmidhuber die Notwendigkeit eines bedingungslosen Grundeinkommens: „Roboterbesitzer werden Steuern zahlen müssen, um die Mitglieder unserer Gesellschaft zu ernähren, die keine existenziell notwendigen Jobs mehr ausüben. Wer dies nicht bis zu einem gewissen Grad unterstützt, beschwört geradezu die Revolution Mensch gegen Maschine herauf.“ (Jürgen Schmidhuber: Wir müssen Roboter erziehen wie Kinder. Interview durch Vinzenz Greiner, 15. Januar 2017.)[13]
Schriften (Auswahl)
mit Sepp Hochreiter: Long short-term memory, Neural Computation, Band 9, 1997, S. 1735–1780
mit F. A. Gers, F. Cummins: Learning to forget: Continual prediction with LSTM, Neural Computation, Band 12, 2000, S. 2451–2471
mit A. Graves, S. Fernández, F. Gomez: Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks, Proceedings of the 23rd International Conference on Machine Learning, 2006, S. 369–376
mit D. Ciregan, U. Meier, J. Masci: Multi-column deep neural network for traffic sign classification, Neural Networks, Band 32, 2012, S. 333–338
mit D. Ciregan, U. Meier: Multi-column deep neural networks for image classification, IEEE Conference on computer vision and pattern recognition, 2012, S. 3642–3649
Deep learning in neural networks: An overview. In: Neural Networks. 61, 2015, S. 85, arxiv:1404.7828 [cs.NE].
mit K. Greff, R. K. Srivastava, J. Koutnik, B. R. Steunebrink: LSTM: A search space odyssey, IEEE Transactions on neural networks and learning systems, Band 28, 2016, S. 2222–2232
↑Schmidhuber, Jürgen, and A. I. Blog. "Before 1991, no network learned by gradient descent to quickly compute the changes of the fast weight storage of another network or of itself. Such Fast Weight Programmers (FWPs) were published in 1991-93 [FWP0-2](Sec. 1, 2, 3, 4). They embody the principles found in certain types of what is now called attention [ATT](Sec. 4) and Transformers [TR1-6](Sec. 2, 3, 4, 5)." https://people.idsia.ch/~juergen/fast-weight-programmer-1991-transformer.html
↑Interview mit Alexander Armbruster, Wieso Saudi-Arabien, Herr Schmidhuber?, In: Frankfurter Allgemeine Zeitung vom 13. Dezember 2021