Обучение с подкреплением

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или её модель. Также нужно иметь в виду, что некоторые правила подкрепления базируются на неявных учителях, например, в случае искусственной нейронной среды, на одновременной активности формальных нейронов, из-за чего их можно отнести к обучению без учителя.

Среда обычно описывается в форме марковского процесса принятия решений (МППР), поскольку многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования[1]. Основное отличие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знание точной математической модели МППР и нацелены на большие МППР, где точные методы становятся неосуществимыми.

Среда и агент

Агент воздействует на среду, а среда воздействует на агента. О такой системе говорят, что она имеет обратную связь. Такую систему нужно рассматривать как единое целое, и поэтому линия раздела между средой и агентом достаточно условна. Конечно, с анатомической или физической точек зрения между средой и агентом (организмом) существует вполне определённая граница, но если эту систему рассматривать с функциональной точки зрения, то разделение становится нечётким. Например, резец в руке скульптора можно считать либо частью сложного биофизического механизма, придающего форму куску мрамора, либо частью материала, которым пытается управлять нервная система.

Впервые такого рода обучение с обратной связью было предложено и изучено в 1961 году в работе Михаила Львовича Цетлина, известного советского математика[2].

М. Л. Цетлин тогда поместил конечный автомат определённой конструкции во внешнюю среду, которая с вероятностями, зависящими от совершаемого автоматом действия, наказывала или поощряла автомат. В соответствии с реакцией среды автомат самостоятельно изменял своё внутреннее состояние, что приводило к постепенному снижению числа наказаний, то есть обучению.

Для анализа поведения этого автомата был впервые использован аппарат цепей Маркова, разработанный А. А. Марковым, который позволил получить точные и доказательные результаты.

Этот материал был опубликован в одном из наиболее престижных и влиятельных научных советских изданий — «Доклады Академии наук СССР». М. Л. Цетлин называл эту проблему изучением поведения автомата в случайной среде.

Статья М. Л. Цетлина вызвала волну публикаций, в которых предлагались всевозможные усовершенствования конструкций конечных автоматов, интенсивно использовавшиеся в многочисленных приложениях.

М. Л. Цетлин ввёл в оборот новый термин — целесообразное поведение автомата в случайной среде. Его ученик, В. Л. Стефанюк, рассмотрел в 1963 году задачу о коллективном поведении, определив новый термин — «коллективное поведение автоматов» и детально исследовав поведение пары автоматов, введённых М. Л. Цетлиным в его первой публикации о целесообразном поведении автоматов.

В. Л. Стефанюком была изготовлена действующая обучающаяся модель на полупроводниковых элементах и вакуумных радиолампах, в которой было реализовано коллективное поведение двух таких автоматов. Эта модель была защищена в 1962 году в качестве выпускной работы на Физическом факультете Московского государственного университета.

Мысль о коллективном поведении была использована В. Л. Стефанюком при публикации им в 1967 г. модели коллективного поведения радиостанций и разработке им оригинальной системы мобильной связи, представленной им в нескольких статьях и в кандидатской диссертации, защищенной в 1968 году.

М. Л. Цетлиным была сформулирована задача об играх автоматов, которая моделировала несколько важных проблем биологии и социологии. Несколько позже М. Л. Цетлин и С. Л. Гинзбург описали конструкцию так называемого ε-автомата, который часто используется в современных публикациях по обучению с подкреплением.

Конструкция ε-автомата представляет собой стохастический автомат, работающий в детерминированной среде, которая выдает платежи этому автомату в зависимости от совершаемого им действия. Для математического анализа поведения одиночного ε-автомата и коллективного поведения таких автоматов В. Л. Стефанюк разработал ряд новых асимптотических методов, в которых показано, что основную роль в поведении ε-автоматов играют равновесные состояния. Этими методами В. Л. Стефанюком были получены законченные результаты о поведении ε-автоматов в ряде ситуаций коллективного поведения, относящихся к экономике и медицине.

Многочисленные советские публикации о целесообразном поведении автоматов, представленные в виде докладов на национальных и международных конференциях, через много лет навели авторов обучения с подкреплением на мысль о выделении этого типа обучения в отдельный класс.

Что касается коллективного поведения автоматов, то что-то подобное вылилось у зарубежных авторов в концепцию многоагентных систем, которая изучалась в терминах искусственного интеллекта и программирования. Однако математические методы анализа и доказательства в многоагентных системах практически не использовались, в отличие от работ М. Л. Цетлина и В. Л. Стефанюка по целесообразному поведению автомата, а также по коллективному поведению и играм нескольких автоматов.

Система подкрепления и её виды

Розенблатт пытался классифицировать различные алгоритмы обучения, называя их системами подкрепления.[3] Он даёт следующее определение:

Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона.

Кроме классического метода обучения перцептрона — метода коррекции ошибки, который можно отнести к обучению с учителем, Розенблатт также ввёл понятие об обучении без учителя, предложив несколько способов обучения:

  • Альфа-системой подкрепления называется система подкрепления, при которой веса всех активных связей , которые ведут к элементу , изменяются на одинаковую величину r, а веса неактивных связей за это время не изменяются.
  • Гамма-системой подкрепления называется такое правило изменения весовых коэффициентов некоторого элемента, при котором веса всех активных связей сначала изменяются на равную величину, а затем из их всех весов связей вычитается другая величина, равная полному изменению весов всех активных связей, делённому на число всех связей. Эта система обладает свойством консервативности относительно весов, так как у неё полная сумма весов всех связей не может ни возрастать, ни убывать.

Реализации

  • BURLAP (Brown-UMBC Reinforcement Learning and Planning) — библиотека одно- и многоагентных алгоритмов планирования и обучения с подкреплением, язык Java, лицензия LGPL
  • MMLF (Maja Machine Learning Framework) — библиотека алгоритмов обучения с подкреплением и набор тестовых сред для их проверки, язык Python, лицензия GPL
  • OpenAI Gym — платформа для разработки и сравнения алгоритмов обучения с подкреплением от OpenAI, язык Python, лицензия MIT
  • PyBrain — библиотека алгоритмов машинного обучения, язык Python, лицензия BSD
  • RLPy — библиотека для проведения экспериментов по обучению с подкреплением, язык Python, 3-х пунктовая лицензия BSD
  • Teachingbox — инструментарий для разработки алгоритмов обучения с подкреплением, язык Java, лицензия GPL

См. также

Примечания

  1. van Otterlo, M. Reinforcement learning and markov decision processes / van Otterlo, M., Wiering, M.. — 2012. — Vol. 12. — P. 3–42. — ISBN 978-3-642-27644-6. — doi:10.1007/978-3-642-27645-3_1.
  2. Гельфанд И. М., Пятецкий-Шапиро И. И., Цетлин М. Л. О некоторых классах игр и игр автоматов // Докл. АН СССР, 1963, том 152, номер 4, С. 845—848.
  3. Розенблатт, Ф., с. 85—88.

Литература

  • Саттон Ричард С., Барто Эндрю Г. Обучение с подкреплением = Reinforcement Learning. — 2-е издание. — М.: ДМК пресс, 2020. — 552 с. — ISBN 978-5-97060-097-9.
  • Розенблатт, Ф. Принципы нейродинамики: Перцептроны и теория механизмов мозга = Principles of Neurodynamic: Perceptrons and the Theory of Brain Mechanisms. — М.: Мир, 1965. — 480 с.
  • Саттон Ричард С., Барто Эндрю Г. Обучение с подкреплением = Reinforcement Learning. — М.: БИНОМ. Лаборатория знаний, 2017. — 399 с. — ISBN 978-5-94774-351-7.

Ссылки

Read other articles:

艦歴 発注: 1961年7月20日 起工: 1962年3月5日 進水: 1963年3月15日 就役: 1964年7月28日 退役: 1992年11月20日 除籍: 1992年11月20日 その後: 原子力艦再利用プログラム 性能諸元 排水量: 全長 425 ft (129.5 m) 全幅 33 ft (10.1 m) 吃水 予備浮力 機関 原子力ギアード・タービン推進GE S5W原子炉 1基 最大速: 兵員: 兵装: 21インチ魚雷発射管4基トライデント・ミサイル16発 モットー: ジェームズ・マ...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (أكتوبر 2022) أطروحة التاريخ التركي أطروحة تركية قومية متطرفة [1] وعنصرية وتاريخية زائفة، [2] تفترض أن الأتراك انتقلوا من موطن أجدادهم في آسيا الوسطى وهاجروا إلى ال

 

1998 box set by Iron MaidenEddie's HeadBox set by Iron MaidenReleased1 December 1998LabelRaw Power RecordsIron Maiden box sets chronology The First Ten Years(1990) Eddie's Head(1998) Eddie's Archive(2002) Professional ratingsReview scoresSourceRatingAllMusic[1] Eddie's Head is a box set by Iron Maiden, in the shape of the head of their mascot, Eddie and containing their first 12 albums remastered, from Iron Maiden to Live at Donington, each with bonus multimedia material, plus...

خليج صغيرمعلومات عامةصنف فرعي من shoreline indentation (en) مساحة ماء تصنيف للتصنيفات التي تحمل هذا الاسم Catégorie:Catégorie d'une baie (fr) تعديل - تعديل مصدري - تعديل ويكي بياناتخليج نيويورك العلوي و نهر هدسون في المقدمة؛ النهر الشرقي على اليسار، فوق المركز مباشرة. الخليج الصغير أو الجَون[1][...

 

ANA Wings IATA ICAO Kode panggil EH AKX ALFA WING Didirikan1 Oktober 2010Pusat operasiBandar Udara HanedaBandar Udara Internasional NaritaBandar Udara Internasional OsakaBandar Udara Internasional Chubu CentrairBandar Udara Chitose BaruBandar Udara FukuokaProgram penumpang setiaANA Mileage ClubLounge bandaraClub ANA lounageAliansiStar AllianceArmada36Tujuan32Perusahaan indukAll Nippon AirwaysKantor pusat3-3-2 Haneda Airport, Ōta-ku, TokyoTokoh utamaAkihiko Hasegawa (CEO)Situs webhttp://www.a...

 

ATG12 التراكيب المتوفرة بنك بيانات البروتينOrtholog search: PDBe RCSB قائمة رموز معرفات بنك بيانات البروتين 4GDK, 4GDL, 4NAW المعرفات الأسماء المستعارة ATG12, APG12, APG12L, FBR93, HAPG12, autophagy related 12 معرفات خارجية الوراثة المندلية البشرية عبر الإنترنت 609608 MGI: MGI:1914776 HomoloGene: 37953 GeneCards: 9140 علم الوجود الجيني الوظي...

Lake LabergeLake Laberge in August 2010; picture taken from campgroundLake LabergeLocationYukonCoordinates61°10′N 135°10′W / 61.167°N 135.167°W / 61.167; -135.167Primary inflowsYukon RiverPrimary outflowsYukon RiverCatchment area68,744,433 m2 (739,958,920 sq ft)Basin countriesCanadaMax. width5 km (3.1 mi)Average depth54 m (177 ft)Max. depth146 m (479 ft) Crossing Lake Laberge by canoe Lake Laberge is a widening ...

 

Lloyds Bank International LimitedTypePrivate limited companyIndustryBanking and financial servicesFounded2013 (1911)HeadquartersSaint Helier, Jersey, Channel IslandsProductsRetail and Commercial bankingParentLloyds Banking GroupWebsiteinternational.lloydsbank.com Lloyds Bank International is a wholly owned subsidiary of Lloyds Bank Corporate Markets in the United Kingdom, which is in turn part of Lloyds Banking Group, one of the largest banking groups in Europe. Lloyds Bank's overseas expansi...

 

三菱ふそう・6S系エンジンは、三菱ふそうトラック・バスが製造する車両に搭載される水冷4ストローク直列6気筒DOHC24バルブディーゼルエンジンである。 概要 従来、三菱ふそうの大型トラックや高速・観光バスにおいては6R10が搭載されていた。6S10は2017年9月以降のポスト・ポスト新長期規制の適用に際して6R20との二本立てにより対応を行うことになり開発された機種で...

Para la localidad en Moldavia, véase Alexandru Ioan Cuza (Cahul). Alexandru Juan Cuza Domnitor de RumaníaPríncipe de Valaquia y Moldavia Reinado 1859-1866Información personalNombre completo Alexandru Juan CuzaTratamiento Su Alteza RealNacimiento 20 de marzo de 1820Bârlad, Moldavia,  Imperio otomano (actual Rumania Rumania)Fallecimiento 15 de mayo de 1873Heidelberg,  Imperio alemán (actual Alemania Alemania)Sepultura Catedral Trei Ierarhi, Iaşi Rumania RumaniaReligión Cr...

 

非常尊敬的贾斯廷·特鲁多Justin TrudeauPC MP 阁下第23任加拿大总理现任就任日期2015年11月4日君主伊丽莎白二世查理斯三世总督大卫·约翰斯顿朱莉·帕耶特瑪麗·西蒙副职方慧蘭(2019年至今)前任哈珀政府间事务及青少年事务部长(英语:Minister of Intergovernmental Affairs)任期2015年11月4日—2018年7月18日总理本人前任丹尼斯·莱贝尔(英语:Denis Lebel)继任多米尼克·勒布朗克(...

 

2012 studio album by BiohazardReborn in DefianceStudio album by BiohazardReleasedJanuary 20, 2012StudioFirewater Studios (Los Angeles, California) Ocean Studios (Burbank, California) GenreHardcore punkrapcoreLabelNuclear BlastProducerToby WrightBiohazard chronology Means to an End(2005) Reborn in Defiance(2012) Professional ratingsReview scoresSourceRatingSputnikMusic[1]Thrash Hits[2] Reborn in Defiance is the ninth studio album by American band Biohazard. It is the fi...

Species group of fruit flies This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introducing citations to additional sources.Find sources: Drosophila polychaeta species group – news · newspapers · books · scholar · JSTOR (June 2021) Drosophila polychaeta species group Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Arthropoda Class: Inse...

 

В Википедии есть статьи о других людях с фамилией Крушельницкая. Анна Амвросиевна Крушельницкаяукр. Ганна Амвросіївна Крушельницька Основная информация Дата рождения 18 августа 1887(1887-08-18) Место рождения Белая, Австро-Венгрия Дата смерти 13 мая 1965(1965-05-13) (77 лет) Мест...

 

Esta página cita fontes, mas que não cobrem todo o conteúdo. Ajude a inserir referências. Conteúdo não verificável pode ser removido.—Encontre fontes: ABW  • CAPES  • Google (N • L • A) (Março de 2022) Embarque da família real portuguesa no cais de Belém, em 29 de novembro de 1807. A transferência da corte portuguesa para o Brasil foi o episódio da história de Portugal e da história do Brasil em que a família real ...

1767 painting by Jean-Honoré Fragonard The SwingArtistJean-Honoré FragonardYearAbout 1767–8MediumOil on canvasDimensions81 cm × 64.2 cm (31+7⁄8 in × 25+1⁄4 in)LocationThe Wallace Collection, London, United Kingdom The Swing (French: L'Escarpolette), also known as The Happy Accidents of the Swing (French: Les Hasards heureux de l'escarpolette, the original title), is an 18th-century oil painting by Jean-Honoré Fragonard in the Wallac...

 

Public house in Birmingham, EnglandRed LionThe building in August 2013General informationStatusDisusedTypePublic houseAddress270, Soho Road, HandsworthTown or cityBirminghamCountryEnglandCoordinates52°30′15″N 1°56′17″W / 52.504173°N 1.937968°W / 52.504173; -1.937968Completed1901 (1901)ClientHolt BreweryDesignationsGrade II listed The Red Lion is a disused public house on Soho Road, in the Handsworth district of Birmingham, England. A pub has stood on t...

 

Decision support tool This article is about decision trees in decision analysis. For the use of the term in machine learning, see Decision tree learning. Traditionally, decision trees have been created manually. Information mapping Topics and fields Business decision mapping Data visualization Graphic communication Infographics Information design Knowledge visualization Mental model Morphological analysis Ontology (computer science) Schema (psychology) Visual analytics Visual language Node–...

Ferrari Ferrari Modulo 512 S Modulo Präsentationsjahr: 1970 Fahrzeugmesse: Genfer Auto-Salon Klasse: Sportwagen Karosseriebauform: Coupé Motor: Ottomotor:5,0 Liter (410 kW) Länge: 4480 mm Breite: 2040 mm Höhe: 935 mm Radstand: 2405 mm Leergewicht: 900 kg Serienmodell: keines Der Ferrari 512 S Modulo ist eine Designstudie, die das italienische Karosseriebauunternehmen Pininfarina gestaltete. Öffentlich vorgestellt wurde sie 1970 auf dem Genfer Auto-Salon. Inhaltsverzeichnis 1 Design 2 Tec...

 

Indian ophthalmologist HarshThe President, Shri Pranab Mukherjee presenting the Padma Shri Award to Dr. Harsh Kumar, at a Civil Investiture Ceremony, at Rashtrapati Bhavan, in New Delhi on March 30, 2015BornIndiaOccupationOphthalmologistKnown forGlaucoma managementAwardsPadma ShriA. C. Aggarwal TrophyBodh Raj Sabharwal Medal Harsh Kumar is ophthalmologist,[1] who is reported to have described nine laser surgical procedures for glaucoma and anterior segment of which one procedure ...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!