Straipsnyje aptariamos baigtinio Markovo sprendimo priėmimo proceso taikymo prielaidos virtualioms mokymosi sistemoms intelektualizuoti parodant, jog virtualioje mokymosi sistemoje veikiančių agentų būsenų aibė, agentų priimami sprendimai ir perėjimai iš vienos būsenos į kitą gali būti modeliuojami taikant Markovo sprendimo priėmimo procesų ir sustiprinto mokymosi (Reinforcement-Learning) teorijos rezultatus. Intelektuali mokymosi sistema suprantama kaip gebanti parinkti optimalų mokymosi kelią besimokančiajam ir koreguoti savo veiksmus atsižvelgdama į laikui bėgant įgytą patyrimą. Sustiprinto mokymosi problemai, optimalios vertės funkcijos V* (x) radimui, spręsti galima taikyti įvairius algoritmus. Vienas jų – tai Q-mokymosi (Q-learning) algoritmas, leidžiantis surasti optimalią Q* (x, a) funkciją. Stochastinės aproksimacijos teoremos sąlygų įvykdymas Q-mokymosi algoritme užtikrina algoritmo konvergavimą į optimalią Q* (x, a), o tai reiškia ir į optimalią vertės funkciją V* (x).
Šis kūrinys yra platinamas pagal Kūrybinių bendrijų Priskyrimas 4.0 tarptautinę licenciją.