📝 Резюме · 🧾 Транскрипт (формат) · 📄 Оригинал (1.7 KB)

Анонс книги: «Алгоритмы обучения с подкреплением на Python»

Краткое содержание

Короткий книжный анонс в канале Python_libr. Книга рассчитана на читателей, желающих освоить алгоритмы обучения с подкреплением (reinforcement learning, RL) и научиться использовать их для создания самообучающихся агентов. В первой части разбираются базовые элементы RL, области применения и необходимый инструментарий. Вторая и третья части посвящены самим алгоритмам: сочетанию Q-обучения с нейросетями для сложных задач, методам градиента стратегии (policy gradient) — TRPO и PPO, повышающим производительность и устойчивость, а также детерминированным алгоритмам DDPG и TD3. Описывается подражательное обучение (imitation learning), алгоритмы исследования на базе верхней доверительной границы UCB/UCB1 и мета-алгоритм ESBAS.

Небольшой иллюстративный пример типичного «hello world» для DQN на Python:

import gymnasium as gym
import torch
import torch.nn as nn

env = gym.make("CartPole-v1")
q_net = nn.Sequential(nn.Linear(4, 64), nn.ReLU(), nn.Linear(64, 2))
# далее — epsilon-greedy action selection, replay buffer, target network, Bellman update

Значимость

Релевантный для русскоязычных Python-разработчиков обзор современного RL-тулкита: перечень TRPO/PPO/DDPG/TD3/UCB/ESBAS покрывает как базовые, так и production-level методы, включая устойчивые policy-gradient-подходы, которые сегодня остаются стандартом в библиотеках вроде Stable-Baselines3 и RLlib.

🧾 Транскрипт (формат)

📓 Алгоритмы обучения с подкреплением на Python

Источник: https://t.me/Python_libr/3420

📓 Алгоритмы обучения с подкреплением на Python.

• Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов.

• В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и мета-алгоритмом ESBAS.

#RU