#MegatronLM15.05.2025
Ultra-FineWeb: Триллионный датасет, улучшающий точность LLM на нескольких языках
Университет Цинхуа и ModelBest представили Ultra-FineWeb — триллионный многоязычный датасет, значительно повышающий точность крупных языковых моделей благодаря инновационной фильтрации данных.