Modality Training - Search News

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

VeOmni is a versatile framework for both single- and multi-modal pre-training and post-training. It empowers users to seamlessly scale models of any modality across various accelerators, offering both ...

IEEE

Post-pre-training for Modality Alignment in Vision-Language Foundation Models

Abstract: Contrastive language image pre-training (CLIP) is an essential component of building modern vision-language foundation models. While CLIP demonstrates remarkable zero-shot performance on ...

GitHub

Modality-Adaptive Decoding (MAD) is a training-free decoding method for MLLMs that adaptively weights modality-specific branches via self-assessed modality relevance ...

Cross-modal hallucination differs from conventional hallucination in that it arises in multimodal models where multiple modalities are provided as input. Instead of generating unsupported content ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

Post-pre-training for Modality Alignment in Vision-Language Foundation Models

Modality-Adaptive Decoding (MAD) is a training-free decoding method for MLLMs that adaptively weights modality-specific branches via self-assessed modality relevance ...

Trending now