FAR AI

non-profit

https://far.ai/

FARAIResearch

AlignmentResearch

Activity Feed Request to join this org

AI & ML interests

Frontier alignment research to ensure the safe development and deployment of advanced AI systems.

Recent Activity

skar0 updated a model 1 day ago

AlignmentResearch/gemma-2-9b-it-orthogonalized

skar0 published a model 1 day ago

AlignmentResearch/gemma-2-9b-it-orthogonalized

skar0 updated a dataset 1 day ago

AlignmentResearch/BoNStrongREJECT

View all activity

AlignmentResearch's activity

skar0

updated a model 1 day ago

AlignmentResearch/gemma-2-9b-it-orthogonalized

Updated 1 day ago • 3

skar0

published a model 1 day ago

AlignmentResearch/gemma-2-9b-it-orthogonalized

Updated 1 day ago • 3

skar0

updated a dataset 1 day ago

AlignmentResearch/BoNStrongREJECT

Viewer • Updated 1 day ago • 100k • 12

skar0

published a dataset 1 day ago

AlignmentResearch/BoNStrongREJECT

Viewer • Updated 1 day ago • 100k • 12

skar0

updated a model 1 day ago

AlignmentResearch/Llama-3.1-8B-Instruct-orthogonalized

Updated 1 day ago • 6

skar0

published a model 1 day ago

AlignmentResearch/Llama-3.1-8B-Instruct-orthogonalized

Updated 1 day ago • 6

skar0

updated a dataset 6 days ago

AlignmentResearch/HarmBench

Viewer • Updated 6 days ago • 400 • 25

skar0

published a dataset 6 days ago

AlignmentResearch/HarmBench

Viewer • Updated 6 days ago • 400 • 25

skar0

updated 2 models 7 days ago

AlignmentResearch/robust_llm_oskar-059e_clf_jailbreak_inputs_Qwen2.5-7B-Instruct_s-0

Updated 7 days ago • 184

AlignmentResearch/robust_llm_oskar-066a_clf_jailbreak_completions_Qwen2.5-7B-Instruct_s-0

Updated 7 days ago • 158

skar0

published 2 models 7 days ago

AlignmentResearch/robust_llm_oskar-066a_clf_jailbreak_completions_Qwen2.5-7B-Instruct_s-0

Updated 7 days ago • 158

AlignmentResearch/robust_llm_oskar-059e_clf_jailbreak_inputs_Qwen2.5-7B-Instruct_s-0

Updated 7 days ago • 184

skar0

updated a dataset 7 days ago

AlignmentResearch/NestedCiphers

Viewer • Updated 7 days ago • 806k • 24

skar0

published a dataset 7 days ago

AlignmentResearch/NestedCiphers

Viewer • Updated 7 days ago • 806k • 24

skar0

updated a dataset 7 days ago

AlignmentResearch/AugmentedJailbreaks

Viewer • Updated 7 days ago • 20.8k • 677

agaralon

authored a paper about 2 months ago

Open Problems in Mechanistic Interpretability

Paper • 2501.16496 • Published Jan 27 • 19

AdamGleave

authored a paper about 1 year ago

Exploiting Novel GPT-4 APIs

Paper • 2312.14302 • Published Dec 21, 2023 • 14

ianmckenzie

authored a paper about 1 year ago

Inverse Scaling: When Bigger Isn't Better

Paper • 2306.09479 • Published Jun 15, 2023 • 9

AdamGleave

authored 2 papers over 1 year ago

Adversarial Policies Beat Superhuman Go AIs

Paper • 2211.00241 • Published Nov 1, 2022

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning

Paper • 2203.07475 • Published Mar 14, 2022

AI & ML interests

Recent Activity

Team members 12

AlignmentResearch's activity