Hyperparamètre

Dans l'apprentissage automatique, un hyperparamètre est un paramètre dont la valeur est utilisée pour contrôler le processus d'apprentissage. En revanche, les valeurs des autres paramètres (généralement la pondération de nœuds) sont obtenues par apprentissage.

Les hyperparamètres peuvent être classifiés comme étant des hyperparamètres de modèle, qui ne peuvent pas être déduits en ajustant la machine à l'ensemble d'entraînement parce qu'ils s'appliquent à la tâche de la sélection du modèle, ou des hyperparamètres d'algorithmes, qui en principe n'ont aucune influence sur la performance du modèle mais affectent la rapidité et la qualité du processus d'apprentissage. Un exemple d'hyperparamètre de modèle est la topologie et la taille d'un réseau de neurones. Des exemples d'hyperparamètres d'algorithme sont la vitesse d'apprentissage et la taille des lots.

Les différents hyperparamètres varient en fonction de la nature des algorithmes d'apprentissage, par exemple certains algorithmes d'apprentissage automatique simples (comme la régression des moindres carrés ) n'en nécessitent aucun. Compte tenu de ces hyperparamètres, l'algorithme d'apprentissage apprend les paramètres à partir des données. Par exemple, la régression LASSO est un algorithme qui ajoute un hyperparamètre de régularisation à la régression des moindres carrés , qui doit être défini avant d'estimer les paramètres via l'algorithme d'apprentissage.

Considérations

Le temps requis pour entraîner et tester un algorithme d'apprentissage automatique peut dépendre du choix de ses hyperparamètres[1]. Un hyperparamètre est généralement de type continu ou entier, conduisant à des problèmes d'optimisation de type mixte. L'existence de certains hyperparamètres est conditionnée à la valeur d'autres, par exemple la taille de chaque couche cachée dans un réseau de neurone peut être conditionnée par le nombre de couches ce celui-ci les deux ayant de l'influence l'un sur l'autre.

Difficulté à apprendre les paramètres

Parfois, les hyperparamètres ne peuvent pas être appris en utilisant des méthodes bien connues basées sur le gradient qui sont couramment utilisées pour apprendre les paramètres. Ces hyperparamètres sont les paramètres décrivant une représentation du modèle qui ne peut pas être appris par des méthodes d'optimisation classiques mais qui affectent néanmoins la fonction d'objectif.

Un exemple serait l'hyperparamètre de tolérance aux erreurs dans les machines à vecteurs de support.

Paramètres non entraînables

Parfois, les hyperparamètres ne peuvent pas être appris à partir des données d'entraînement car ils augmentent de manière agressive la capacité d'un modèle et peuvent pousser la fonction de perte à un mauvais minimum - surajustement et captation du bruit, dans les données - par opposition à cartographier correctement la richesse de la structure dans les données. Par exemple, si nous traitons le degré d'une équation polynomiale ajustant un modèle de régression comme un paramètre entraînable, cela augmenterait simplement le degré jusqu'à ce que le modèle corresponde parfaitement aux données, donnant une petite erreur d'apprentissage - mais de mauvaises performances de généralisation.

La plupart des variations de performances peuvent être attribuées à quelques hyperparamètres[2],[1],[3]. L'optimisation d'un algorithme, d'un hyperparamètre ou d'hyperparamètres en interaction est une mesure des performances pouvant être obtenues en le réglant[4]. Pour un LSTM, alors que le taux d'apprentissage suivi de la taille du réseau sont ses hyperparamètres les plus cruciaux [5] , le batching et le momentum n'ont aucun effet significatif sur ses performances[6].

Bien que certaines recherches aient préconisé l'utilisation de tailles de mini-lots par milliers, d'autres travaux ont trouvé les meilleures performances avec des tailles de mini-lots comprises entre 2 et 32[7].

Une stochasticité inhérente à l'apprentissage implique directement que la performance empirique des hyperparamètres n'est pas nécessairement sa vraie performance[1]. Les méthodes qui ne sont pas robustes à de simples changements d'hyperparamètres, à des germes aléatoires ou même à différentes implémentations du même algorithme ne peuvent pas être intégrées dans des systèmes de contrôle critiques sans simplification et robustesse significatives[8].

Les algorithmes d'apprentissage par renforcement, en particulier, nécessitent de mesurer leurs performances sur un grand nombre de germes aléatoires, ainsi que de mesurer leur sensibilité aux choix des hyperparamètres[8]. Leur évaluation avec un petit nombre de graines aléatoires ne saisit pas correctement les performances en raison de la forte variance. Certaines méthodes d'apprentissage par renforcement, par exemple DDPG (Deep Deterministic Policy Gradient), sont plus sensibles aux choix des hyperparamètres que d'autres.

Optimisation

L'optimisation des hyperparamètres trouve un tuple d'hyperparamètres qui produit un modèle optimal qui minimise une fonction d'objectif prédéfinie sur des données de test données[1]. La fonction d'objectif prend un tuple d'hyperparamètres et renvoie le coût associé.

L'optimisation des hyperparamètres se fait en définissant une grille de recherche qui contient plusieurs configurations d'hyperparamètres à tester. La grille de recherche peut être établie de trois manières :

- en construisant une grille exhaustive explorant toutes les combinaisons possibles des valeurs à tester (analyse parfois dite "full factorielle"), usuellement à l'aide d'un outil du type GridSearchCV. Étudier 5 hyperparamètres à 5 niveaux chacun revient à explorer 5^5=3125 combinaisons possibles, cette "explosion combinatoire" peut donc rendre l'optimisation quasiment impossible en pratique par manque de moyens de calcul

- en construisant une grille aléatoire en explorant un nombre plus restreint de combinaisons, fixé à l'avance, usuellement à l'aide d'un outil du type RandomizedSearchCV. Cette approche est plus parcimonieuse que l'approche précédente et plus "créative" car elle permet d'explorer des combinaisons nouvelles à chaque fois plutôt que des combinaisons pré-établies en un temps réduit

- en construisant progressivement et "intelligemment" la grille. Les deux approches précédentes sont "aveugles" et vont calculer chaque combinaison demandée, y compris celles qui sont infructueuses. Une grille "intelligente" se concentre sur les combinaisons "prometteuses", en réalisant d'abord une première grille aléatoire de petite taille, puis en essayant de "comprendre" comment l'erreur diminue ou non en fonction des hyperparamètres testés, pour se focaliser sur les zones où l'erreur est la plus faible. Chaque combinaison d'hyperparamètres étant potentiellement lourde à évaluer en temps de calcul (puisqu'il s'agit d'entraîner une IA à chaque fois), l'erreur est estimée indirectement, non pas en examinant réellement l'erreur des combinaisons, mais en examinant une approximation de l'erreur des combinaisons (une fois une approximation prometteuse trouvée, la combinaison est effectivement testée directement). L'outil de recherche "intelligente" modélise l'erreur par machine learning. Il y a deux donc modèles IA imbriqués dans cette approche, le premier est le modèle que l'on cherche à construire et à optimiser, le second est un modèle construit uniquement pour optimiser le premier. Construire une IA étant un processus potentiellement lourd, le second modèle IA est généralement un modèle très simple, très rapide à entraîner, pour ne pas ajouter de la complexité à la complexité (usuellement une random forest ou un gradient boosting "légers" ou un processus gaussien simple). Des packages Python comme Scikit-Optimize ou HyperOpt permettent de réaliser ce type de recherche bayésienne "intelligente". Cette approche est séduisante sur le papier et peut effectivement parfois donner de bons résultats (erreur plus faible et/ou trouvée plus rapidement qu'avec une grille exhaustive ou aléatoire[9]), mais reste encore un domaine de recherche à perfectionner (il n'est pas rare, en pratique, que cette approche se révèle finalement plus longue et moins précise qu'une grille exhaustive ou aléatoire[10],[11]).

Reproductibilité

Outre le réglage des hyperparamètres, l'apprentissage automatique implique de stocker et d'organiser les paramètres et les résultats, et de s'assurer qu'ils sont reproductibles. En l'absence d'une infrastructure robuste à cet effet, le code utilisé durant la recherche évolue souvent rapidement et compromet des aspects essentiels de la méthode scientifique comme la comptabilité et la reproductibilité . Les plateformes de collaboration en ligne pour l'apprentissage automatique vont plus loin en permettant aux scientifiques de partager, d'organiser et de discuter automatiquement de leurs expériences, des données et des algorithmes utilisés. La reproductibilité peut être particulièrement problématique pour les modèles d'apprentissage profond[12].

Prestations de service

Nom Interfaces
Comet.ml [13] Python [14]
OpenML [15],[16],[17] REST, Python, Java, R [18]
Weights & Biases [19] Python [20]

Logiciel

Nom Interfaces Stockage
Détermined AI REST, Python PostgreSQL
OpenML Docker [15],[21],[16],[17] REST, Python, Java, R [18] MySQL
Sacred [22],[23] Python [24] fichier, MongoDB, TinyDB, SQL

Articles connexes

Références

  1. a b c et d Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).
  2. Leyton-Brown, Hoos et Hutter, « An Efficient Approach for Assessing Hyperparameter Importance », proceedings.mlr.press,‎ , p. 754–762 (lire en ligne)
  3. article|titre=van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).
  4. Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).
  5. Greff, Srivastava, Koutník et Steunebrink, « LSTM: A Search Space Odyssey », IEEE Transactions on Neural Networks and Learning Systems, vol. 28, no 10,‎ , p. 2222–2232 (PMID 27411231, DOI 10.1109/TNNLS.2016.2582924, arXiv 1503.04069)
  6. Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).
  7. Revisiting Small Batch Training for Deep Neural Networks (2018).
  8. a et b Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).
  9. (en) Perrone, V., « Learning search spaces for Bayesian optimization: Another view of hyperparameter transfer learning », Proceedings of NeurIPS,‎ (lire en ligne)
  10. (en) Recht, B. (Berkeley University), « The News on Auto-tuning », sur ArgMin,
  11. (en) Macqueron, C., « Machine Learning : The Hunt for Performance », sur Research Gate,
  12. Villa et Zimmerman, « Reproducibility in ML: why it matters and how to achieve it », Determined AI Blog, (consulté le )
  13. « Comet.ml – Machine Learning Experiment Management »
  14. Inc, « comet-ml: Supercharging Machine Learning », sur PyPI
  15. a et b Jan N. Van Rijn, Bernd Bischl, Luis Torgo, Bo Gao, Umaashankar, Fischer, Winter, Wiswedel et Berthold, Van Rijn, Jan N., et al. "OpenML: A collaborative science platform." Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, Heidelberg, 2013., vol. 7908, coll. « Lecture Notes in Computer Science », , 645–649 p. (ISBN 978-3-642-38708-1, DOI 10.1007/978-3-642-40994-3_46), « OpenML: A Collaborative Science Platform »
  16. a et b « Vanschoren, Joaquin, Jan N. van Rijn, and Bernd Bischl. "Taking machine learning research online with OpenML." Proceedings of the 4th International Conference on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications-Volume 41. JMLR. org, 2015. »
  17. a et b « van Rijn, J. N. Massively collaborative machine learning. Diss. 2016. »,
  18. a et b « OpenML », GitHub
  19. « Weights & Biases for Experiment Tracking and Collaboration »
  20. « Monitor your Machine Learning models with PyEnv »
  21. Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).
  22. Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research.
  23. Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research."
  24. Greff, « sacred: Facilitates automated and reproducible experimental research », sur PyPI,

Read other articles:

The following is a list of chancellors of the University of Cambridge from c.1215 to the present day.[1] Chancellors were elected annually until 1514, and thereafter were elected for life.[2] Tenure Chancellor Notes c.1215–c.1232 Richard of Wetheringsett c.1246 Hugh de Hotton 1256 Reginald Gerninghall 1257 Stephen Hepworth 1259 William de Ludham 1260 Richard de Gedney 1261 Richard Dryfield 1267 John de Asgarby 1270–1275 John Hooke 1276 Roger de Fulbourn 1283 Andrew de ...

 

El pan de azúcar era la forma tradicional en la que se producía y vendía el azúcar refinado hasta finales del siglo XIX, cuando fueron introducidos el azúcar granulado y los terrones de azúcar. Un cono alargado, con la parte superior redondeada, era el producto final de un proceso que convertía, en azúcar blanco refinado, el azúcar moreno rico en melaza, que era importado en bruto desde las regiones de cultivo de caña de azúcar como la cuenca del Caribe y Brasil. En algunos pa...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Alessia Cestaro – berita · surat kabar · buku · cendekiawan · JSTOR Alessia CestaroLahirAlessia Cestaro30 November 1989 (umur 34)Ujung Pandang (sekarang Makassar), Sulawesi Selatan, IndonesiaPekerja...

2003 Indian filmChigurida KanasuDVD coverDirected byT. S. NagabharanaWritten byDr. Shivaram KaranthScreenplay byT. S. Nagabharana Jayant KaikiniProduced byParvathamma RajkumarStarringShiva RajkumarAnant Nag AvinashVidhya VenkateshRekha UnnikrishnanCinematographyB. C. GowrishankarEdited byS. ManoharMusic byV. ManoharDistributed bySri Vajreshwari FilmsRelease date 2 October 2003 (2003-10-02) Running time154 minutesCountryIndiaLanguageKannada Chigurida Kanasu (transl. Sprout...

 

المبادرة المصرية للحقوق الشخصية البلد مصر[1]  المقر الرئيسي القاهرة  تاريخ التأسيس 2002  المؤسس حسام بهجت[1]  الموقع الرسمي الموقع الرسمي[2]  الإحداثيات 30°02′40″N 31°14′09″E / 30.044432371037°N 31.235708081448°E / 30.044432371037; 31.235708081448[1]  تعديل مصدري - تعدي...

 

Blastic NK cell lymphoma معلومات عامة من أنواع لوكيميا نخاعية حادة،  وورم نقوي  [لغات أخرى]‏،  ولمفوما تائية الخلايا،  ومرض جلدي نادر  [لغات أخرى]‏  تعديل مصدري - تعديل   لمفوما الخلايا القاتلة الطبيعية الأرومية هو نوع من اللمفوما. وهو حالة جلدية تتميز بلويح...

Палата представників СШАангл. The United States House of Representatives     Загальна інформація: Юрисдикція:  США Тип: двопалатний парламент Палати: нижня палата Дата заснування: 1 квітня 1789 Адреса: Адреса: Капітолій. Вашингтон, округ Колумбія. Офіційний вебсайт: www.house.gov Вікісховище м...

 

Former organized incorporated territory of the U.S. Territory of NevadaOrganized incorporated territory of the United States1861–1864 Flag (1863–1864)The Nevada Territory in 1861, with the Utah and New Mexico TerritoriesCapitalGenoa (1861)Carson City (1861–1864)History • TypeOrganized incorporated territory History • Organic act March 2 1861• Statehood October 31 1864 Preceded by Succeeded by Utah Territory Nevada The Territory of Nevada (N.T.)[1]&...

 

This article is about the 1949 film. For other media titled Stray Dog, see Stray dog (disambiguation). 1949 film directed by Akira Kurosawa Stray DogTheatrical release posterDirected byAkira KurosawaScreenplay by Akira Kurosawa Ryūzō Kikushima Produced bySōjirō MotokiStarring Toshiro Mifune Takashi Shimura Keiko Awaji Noriko Sengoku Noriko Honma Eiko Miyoshi [ja] Hajime Izu [ja] Ichiro Sugai Minoru Chiaki Eijirō Tōno Teruko Kishi [ja] Iida Chōko R...

Uttarakhand men's football team Football clubUttarakhandFull nameUttarakhand football teamFounded2004; 19 years ago (2004)GroundIndira Gandhi International Sports StadiumCapacity25,000OwnerUttarakhand State Football AssociationHead coachJatin Singh BishtLeagueSantosh Trophy2023–24Group Stage Home colours Away colours Current season The Uttarakhand football team is an Indian football team representing Uttarakhand in the Santosh Trophy.[1] Current squad The following...

 

Vice-regal post of French North America from 1663 to 1760 For the list of Governors General of New France from 1663 to 1760, see List of Governors General of Canada. This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Governor General of New France – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when ...

 

Artikel ini perlu diwikifikasi agar memenuhi standar kualitas Wikipedia. Anda dapat memberikan bantuan berupa penambahan pranala dalam, atau dengan merapikan tata letak dari artikel ini. Untuk keterangan lebih lanjut, klik [tampil] di bagian kanan. Mengganti markah HTML dengan markah wiki bila dimungkinkan. Tambahkan pranala wiki. Bila dirasa perlu, buatlah pautan ke artikel wiki lainnya dengan cara menambahkan [[ dan ]] pada kata yang bersangkutan (lihat WP:LINK untuk keterangan lebih lanjut...

Broadcasting company in Busan, South Korea KNNTypeBroadcast radioand televisionCountrySouth KoreaAvailabilityBusan and South Gyeongsang Province areaRevenue ₩7.5+ billionOwnerNexen Tire (39.32%)Tae Young (6.30%)Sungwoo Hi-Tech (5.55%)Key peopleLee Oh-sang (CEO)Launch dateApril 1994 (demo broadcast)September 7, 1994 (test broadcast)May 14, 1995 (official broadcast, television)September 9, 1997 (radio)December 31, 2003 (digital television)Picture format1080i (HDTV)Affiliation(s)SBS Network(bo...

 

Indian singer and music director This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources in this article. Unsourced material may be challenged and removed.Find sources: Hemant Kumar – news · newspapers · books · scholar · J...

 

福島県道246号折木筒木原久之浜線(ふくしまけんどう246ごう おりきどうぎはらひさのはません)は、福島県双葉郡広野町からいわき市に至る一般県道である。 路線概要 起点:双葉郡広野町大字折木字大平 終点:いわき市久之浜町久之浜字北田 総延長:11.449 km[1] 実延長:8.272 km 路線認定年月日:1959年8月31日[2] 重用区間 福島県道35号いわき浪江線(双葉郡...

Russian engineer This article uses bare URLs, which are uninformative and vulnerable to link rot. Please consider converting them to full citations to ensure the article remains verifiable and maintains a consistent citation style. Several templates and tools are available to assist in formatting, such as reFill (documentation) and Citation bot (documentation). (October 2022) (Learn how and when to remove this template message) Fyodor Pirotsky, picture taken in 1898 Fyodor Apollonovich Pirots...

 

استشارة تقنية المعلومات (يطلق عليها أيضا اسم خدمات وأعمال استشارة الحاسب، استشارة حاسوبية، استشارة تقنية أو استشارية تقنية المعلومات) هو مجال يركز على تقديم المشورة للأعمال حول أفضل الطرق التي يستخدمون بها تقنية المعلومات بحيث يصلون إلى أهداف أعمالهم. وبالإضافة إلى تقدي...

 

Fikha EffendiLahir13 Juni 1985 (umur 38)PekerjaanAktrispresenterTahun aktif2008—sekarangSuami/istriArya Aditya Ramadhya ​ ​(m. 2017)​ Fikha Effendi (lahir 13 Juni 1985) adalah seorang aktris dan presenter berkebangsaan Indonesia.[1] Fikha merupakan istri dari anggota grup musik Maliq & D'Essentials, Arya Aditya Ramadhya. Karier Fikha mengawali kariernya di dunia akting dengan berperan sebagai tunawicara dalam film Tapi Bukan Aku pada ...

Upcoming Kannada language film by A. P. Arjun MartinTeaser posterDirected byA. P. ArjunStory byArjun SarjaProduced byUday K. MehtaStarring Dhruva Sarja Vaibhavi Shandilya Anveshi Jain Sukrutha Wagle Achyuth Kumar Nikitin Dheer CinematographySatya HegdeEdited byK. M. PrakashMusic byScore:Ravi BasrurSongs: Mani SharmaProductioncompaniesVasavi Enterprises Uday K Mehta ProductionsRelease date 22 December 2023 (2023-12-22) CountryIndiaLanguageKannada Martin is an upcoming Indian Kan...

 

Railway station in Osaka, Japan Some of this article's listed sources may not be reliable. Please help this article by looking for better, more reliable sources. Unreliable citations may be challenged or deleted. (December 2018) (Learn how and when to remove this template message) Ajikawaguchi Station安治川口駅Ajigawaguchi Station (August 2013)General informationLocation6-1-101 Shimaya, Konohana Ward, Osaka CityOsaka PrefectureJapanOperated by JR WestPlatforms1 island platformTracks2Cons...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!