U oblasti veštačke inteligencije (VI), istraživanje usklađivanja VI ima za cilj da usmeri sisteme veštačke inteligencije ka ciljevima, preferencijama i etičkim principima neke osobe ili grupe. Sistem veštačke inteligencije se smatra usklađenim ako unapredi svoje predviđene ciljeve. Neusklađeni sistem veštačke inteligencije može da teži nekim ciljevima, ali ne i predviđenim.[1]
Dizajnerima veštačke inteligencije je često izazov da usklade sistem veštačke inteligencije, jer im je teško da preciziraju čitav spektar željenih i neželjenih ponašanja. Stoga, dizajneri veštačke inteligencije često koriste jednostavnije proksi ciljeve, kao što je dobijanje ljudskog odobrenja. Ali taj pristup može da stvori praznine u zakonu, da previdi neophodna ograničenja ili da nagradi sistem veštačke inteligencije samo zato što izgleda usklađen.[1][2]
Neusklađeni sistemi veštačke inteligencije mogu da pokvare funkcionisanje i prouzrokuju štetu. Sistemi veštačke inteligencije mogu pronaći praznine koje im omogućavaju da efikasno ostvare svoje proksi ciljeve, ali na nenamerne, ponekad štetne načine (nagrada hakovanja).[1][3][4] Oni takođe mogu razviti neželjene instrumentalne strategije, kao što su traženje moći ili opstanak jer im takve strategije pomažu da postignu svoje konačne zadate ciljeve.[1][5][6] Štaviše, oni mogu razviti nepoželjne ciljeve koje je teško otkriti pre nego što se sistem primeni i naiđe na nove situacije i distribucije podataka.[7][8]
Danas ovi problemi utiču na postojeće komercijalne sisteme kao što su jezički modeli,[9][10][11] roboti,[12] autonomna vozila,[13] i mašine za preporuke društvenih medija.[9][6][14] Neki istraživači veštačke inteligencije tvrde da će sposobniji budući sistemi biti teže pogođeni, pošto su ovi problemi delimično rezultat toga što su sistemi veoma sposobni.[15][3][2]
Mnogi od najcitiranijih naučnika VI,[16][17][18] uključujući Džefrija Hintona, Jošuu Bendžiha i Stjuarta Rasela, tvrde da se VI približava ljudskim (AGI) i nadljudskim kognitivnim sposobnostima (ASI) i da bi mogla da ugrozi ljudsku civilizaciju ako je neusklađena.[19][6] O ovim rizicima se i dalje raspravlja.[20]
Usklađivanje veštačke inteligencije je podoblast bezbednosti veštačke inteligencije, studija o tome kako izgraditi bezbedne VI sisteme.[21] Ostale podoblasti VI bezbednosti uključuju robusnost, praćenje i kontrolu sposobnosti.[22] Istraživački izazovi u usklađivanju obuhvataju uvođenje kompleksnih vrednosti u veštačku inteligenciju, razvoj poštene veštačke inteligencije, skalabilan nadzor, reviziju i tumačenje VI modela i sprečavanje pojavljivanja VI ponašanja kao što je traženje moći.[22] Istraživanje usklađivanja ima veze sa istraživanjem interpretabilnosti,[23][24] (konkurentnom) robusnošću,[21] otkrivanjem anomalija, kalibrisanom nesigurnošću,[23] formalnom verifikacijom,[25] učenjem o preferencijama,[26][27][28] bezbednono-kritičkom inženjerstvu,[29] teoriji igara,[30] algoritamskoj pravičnosti,[21][31] i društvenim naukama.[32]