Лабораторна Value-iteration algorithm

Варіанти

В усіх варіантах потрібно додати ймовірності для виконання “основної дії” та “інших дій” з можливістю змінити їх через інтерфейс. Ви можете використовувати систему команд “вгору”, “ліворуч”, “праворуч”, “вниз” або “вперед”, “поворот праворуч”, “поворот ліворуч” на власний вибір.

  1. Вихід з лабіринта в якому крім пустих клітинок, та стінок є ще вогняні ями (при потраплянні у них гра закінчується) і зелені клітинки “відпочинку” які дають невеликий бонус (менше ніж винагорода за вихід). Імплементувати розрахунок функції корисності та виходу з такого лабіринту.
  2. Вихід з лабіринта в якому крім пустих клітинок, та стінок є телепорти, які з’єднані у пари - вхід в одну точку спричиняє вихід агента у іншій точці - плата за використання телепорта має задаватись користувачем. Імплементувати розрахунок функції корисності та виходу з такого лабіринту.
  3. Вихід з лабіринта в якому крім пустих клітинок, та стінок є ще льодові катки для яких всі ймовірності виконання дій рівні (тобто виконуючи діє вгору ви з ймовірністю 0.25 можете потрапити вгору).
  4. Виштовхування ящика. Створити “лабіринт” з зовнішніми стінками та одним виходом. В лабіринти випадково створюються агенти - черепашка та ящик. Потрібно виштовхати ящик у клітинку виходу (станом для функції корисності буде набір: координати черепашки + напрямок черепашки + координати ящика).