Анонс книги: «Алгоритмы обучения с подкреплением на Python»
Источник: https://t.me/Python_libr/3420
Краткое содержание
Короткий книжный анонс в канале Python_libr. Книга рассчитана на читателей, желающих освоить алгоритмы обучения с подкреплением (reinforcement learning, RL) и научиться использовать их для создания самообучающихся агентов. В первой части разбираются базовые элементы RL, области применения и необходимый инструментарий. Вторая и третья части посвящены самим алгоритмам: сочетанию Q-обучения с нейросетями для сложных задач, методам градиента стратегии (policy gradient) — TRPO и PPO, повышающим производительность и устойчивость, а также детерминированным алгоритмам DDPG и TD3. Описывается подражательное обучение (imitation learning), алгоритмы исследования на базе верхней доверительной границы UCB/UCB1 и мета-алгоритм ESBAS.
Небольшой иллюстративный пример типичного «hello world» для DQN на Python:
import gymnasium as gym
import torch
import torch.nn as nn
env = gym.make("CartPole-v1")
q_net = nn.Sequential(nn.Linear(4, 64), nn.ReLU(), nn.Linear(64, 2))
# далее — epsilon-greedy action selection, replay buffer, target network, Bellman update
Значимость
Релевантный для русскоязычных Python-разработчиков обзор современного RL-тулкита: перечень TRPO/PPO/DDPG/TD3/UCB/ESBAS покрывает как базовые, так и production-level методы, включая устойчивые policy-gradient-подходы, которые сегодня остаются стандартом в библиотеках вроде Stable-Baselines3 и RLlib.
🧾 Транскрипт (формат)
📓 Алгоритмы обучения с подкреплением на Python
Источник: https://t.me/Python_libr/3420
📓 Алгоритмы обучения с подкреплением на Python.
• Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов.
• В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и мета-алгоритмом ESBAS.
#RU