kuririrn/qwen3-4b-agent-trajectory-lora-sft_multi_dpo_merged Text Generation • 4B • Updated 11 days ago
kuririrn/qwen3-4b-agent-trajectory-SFT_alfadm2-prmcons_alformat1 Text Generation • 4B • Updated 13 days ago
kuririrn/qwen3-4b-agent-trajectory-SFT_alfadm-prmcons_alformat3 Text Generation • 4B • Updated 13 days ago
kuririrn/qwen3-4b-agent-trajectory-SFT_alfadm-prmcons_alformat2 Text Generation • 4B • Updated 14 days ago
kuririrn/sft_alfworld_trajectory_dataset_v3to5_admissible_all Viewer • Updated 13 days ago • 1.86k • 26
kuririrn/sft_alfworld_trajectory_dataset_v3to5_admissible_success Viewer • Updated 13 days ago • 1.77k • 7
kuririrn/sft_alfworld_trajectory_dataset_v3to5_admissible_plus_v5extra500 Viewer • Updated 17 days ago • 2.36k • 10