policy-optimization

Star

Here are 17 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

Star

Multi-Agent Constrained Policy Optimisation (MACPO; MAPPO-L).

multi-agent-reinforcement-learning policy-optimization safe-reinforcement-learning

Updated Apr 17, 2024
Python

elsheikh21 / car-racing-ppo

Star

Implementation of a Deep Reinforcement Learning algorithm, Proximal Policy Optimization (SOTA), on a continuous action space openai gym (Box2D/Car Racing v0)

deep-reinforcement-learning openai-gym proximal-policy-optimization ppo policy-optimization

Updated Apr 2, 2019
Python

cxxgtxy / POP3D

Star

Policy Optimization with Penalized Point Probability Distance: an Alternative to Proximal Policy Optimization

reinforcement-learning deep-learning proximal-policy-optimization policy-optimization

Updated Nov 8, 2018
Python

manantomar / Mirror-Descent-Policy-Optimization

Star

Mirror Descent Policy Optimization

reinforcement-learning deep-learning deep-reinforcement-learning deep-learning-algorithms sac trpo deep-rl ppo deep-learning-ai policy-optimization stable-baselines model-free-rl mirror-descent mdpo

Updated Oct 31, 2020
Python

MahanFathi / Model-Based-RL

Star

Model-based Policy Gradients

reinforcement-learning openai-gym pytorch computation-graph gym policy-gradient finite-difference backpropagation computational-graphs mujoco model-based ilqg ilqr ilqg-mujoco mujoco-py policy-gradients policy-optimization direct-policy-search mujoco-dynamics

Updated Mar 12, 2020
Python

CLAIRE-Labo / no-representation-no-trust

Star

Codebase to fully reproduce the results of "No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO" (Moalla et al. 2024). Uses TorchRL and provides extensive tools for studying representation dynamics in policy optimization.

reinforcement-learning deep-learning policy-optimization

Updated Nov 20, 2024
Python

liziniu / policy_optimization

Star

Code for Paper (Policy Optimization in RLHF: The Impact of Out-of-preference Data)

bandit stochastic-approximation policy-optimization large-language-models rlhf

Updated Dec 19, 2023
Python

sarmueller / gibo

Star

This repository contains the code for the paper "Local policy search with Bayesian optimization".

reinforcement-learning pytorch gym policy-gradient gradient-descent bayesian-optimization active-learning mujoco policy-optimization

Updated Oct 27, 2022
Jupyter Notebook

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

Star

reinforcement-learning deep-reinforcement-learning openai-gym pytorch policy-gradient proximal-policy-optimization ppo atari-pong policy-optimization

Updated Feb 28, 2023
Jupyter Notebook

shaheennabi / Reinforcement-or-Deep-Reinforcement-Learning-Practices-and-Mini-Projects

Sponsor

Star

Reinforcement Learning (RL)! This repository is your hands-on guide to implementing RL algorithms, from Markov Decision Processes (MDPs) to advanced methods like PPO and DDPG. Build smart agents, learn the math behind policies, and experiment with real-world applications!

agent research reinforcement-learning monte-carlo policy-gradient markov-decision-processes temporal-differencing-learning proximal-policy-optimization model-based-rl actor-critic-algorithm policy-optimization model-free-rl

Updated Oct 5, 2025

proceduralia / randomist

Star

Code for Policy Optimization as Online Learning with Mediator Feedback

thompson-sampling exploration mcmc multi-armed-bandits policy-optimization

Updated Dec 27, 2020
Python

grassking100 / reinforcement_learning

Star

An implementation of the reinforcement learning for CartPole-v0 by policy optimization

reinforcement-learning deep-learning pytorch cartpole-v0 policy-optimization

Updated Dec 17, 2021
Python

najeh-halawani / RL-Basics-QLearning-SARSA-PPO

Star

A collection of Jupyter notebooks implementing core reinforcement learning algorithms: Q-Learning, SARSA, and PPO.

q-learning sarsa gymnasium ppo policy-optimization reinforement-learning

Updated Jun 21, 2025
Jupyter Notebook

Rohityalavarthy / grpo-codegen

Star

Implementation of a GRPO (Gradient Regularized Policy Optimization) training and evaluation pipeline. Includes utilities for dataset preparation, model training, and evaluation on structured tasks. Designed for experimenting with policy optimization techniques in reinforcement learning and generative AI settings.

machine-learning reinforcement-learning deep-learning policy-optimization gpt2 llm

Updated Oct 3, 2025
Python

gibo-neurips-2021 / GIBO

Star

This repository contains the code for the NeurIPS 2021 submission "Local policy search with Bayesian optimization".

reinforcement-learning gym policy-gradient bayesian-optimization active-learning mujoco policy-optimization

Updated May 28, 2021
Jupyter Notebook

MehdiShahbazi / REINFORCE-Cart-Pole-Gymnasium

Star

This repo implements the REINFORCE algorithm for solving the Cart Pole V1 environment of the Gymnasium library using Python 3.8 and PyTorch 2.0.1.

Updated Mar 19, 2024
Python

kantkrishan0206-crypto / AlignGPT

Star

“This project implements a mini LLM alignment pipeline using Reinforcement Learning from Human Feedback (RLHF). It includes training a reward model from human-annotated preference data, fine-tuning the language model via policy optimization, and performing ablation studies to evaluate robustness, fairness, and alignment trade-offs.”

python nlp machine-learning deep-learning transformers pytorch alignment language-models tokenization ai-safety fine-tuning preference-learning ppo policy-optimization dpo human-feedback rlhf reward-model

Updated Oct 5, 2025
Python

Improve this page

Add a description, image, and links to the policy-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the policy-optimization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

policy-optimization

Here are 17 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

elsheikh21 / car-racing-ppo

cxxgtxy / POP3D

manantomar / Mirror-Descent-Policy-Optimization

MahanFathi / Model-Based-RL

CLAIRE-Labo / no-representation-no-trust

liziniu / policy_optimization

sarmueller / gibo

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

shaheennabi / Reinforcement-or-Deep-Reinforcement-Learning-Practices-and-Mini-Projects

proceduralia / randomist

grassking100 / reinforcement_learning

najeh-halawani / RL-Basics-QLearning-SARSA-PPO

Rohityalavarthy / grpo-codegen

gibo-neurips-2021 / GIBO

MehdiShahbazi / REINFORCE-Cart-Pole-Gymnasium

kantkrishan0206-crypto / AlignGPT

Improve this page

Add this topic to your repo