2 1

Dongyoon Hahm

Hahmdong

https://hahmdy.github.io

HahmDY

AI & ML interests

AI Safety

Recent Activity

upvoted a paper about 22 hours ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

submitted a paper about 22 hours ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

authored a paper 1 day ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

View all activity

Organizations

None yet

Collections 1

Papers 1

arxiv:2605.27355

models 479

datasets 0

None public yet

Dongyoon Hahm

AI & ML interests

Recent Activity

Organizations

Collections 1

Hahmdong/webrl-llama

Hahmdong/webrl-qwen

Hahmdong/webrl-glm

Hahmdong/webrl-gemma

Hahmdong/webrl-llama

Hahmdong/webrl-qwen

Hahmdong/webrl-glm

Hahmdong/webrl-gemma

Papers 1

models 479

Hahmdong/RMOOD-llama3.2-3b-it-skywork-doubledatarm-biased150-to-good50

Hahmdong/RMOOD-llama3.2-3b-it-skywork-doubledatarm-biased100-to-good100

Hahmdong/RMOOD-llama3.2-3b-it-skywork-doubledatarm-biased50-to-good150

Hahmdong/RMOOD-llama3.2-3b-it-skywork-rm-clean

Hahmdong/RMOOD-llama3.2-3b-it-skywork-rm-clean-length-0.9

Hahmdong/RMOOD-qwen3-4b-it-skywork-doubledatarm-good50-to-biased150

Hahmdong/RMOOD-qwen3-4b-it-skywork-doubledatarm-biased150-to-good50

Hahmdong/RMOOD-qwen3-4b-it-skywork-doubledatarm-biased100-to-good100

Hahmdong/RMOOD-qwen3-4b-it-skywork-doubledatarm-biased50-to-good150

Hahmdong/RMOOD-qwen3-4b-it-skywork-rm-clean-length-0.9

datasets 0

Dongyoon Hahm

AI & ML interests

Recent Activity

Organizations

Collections 1

Papers 1

models 479 Sort: Recently updated

datasets 0

models 479