Собираем Mini‑GPT на Tinygrad: практический разбор трансформера с нуля
'Пошаговый туториал по Tinygrad: от операций с тензорами и attention до обучения мини-GPT и работы ленивой оценки.'
Найдено записей: 11
'Пошаговый туториал по Tinygrad: от операций с тензорами и attention до обучения мини-GPT и работы ленивой оценки.'
'IBM анонсировала Granite 4.0 Nano — восемь компактных моделей (350M и ~1B) в гибридных и трансформерных вариантах для локального и edge-инференса с корпоративным управлением.'
'MapAnything — универсальная модель, которая напрямую предсказывает факторизованную метрическую 3D-геометрию из изображений и дополнительных сенсоров, демонстрирует SoTA результаты и доступна с открытым кодом.'
Google AI и Институт геномики UC Santa Cruz выпустили DeepPolisher — инструмент глубокого обучения, значительно снижающий ошибки в сборках геномов и повышающий точность эталонных человеческих геномов.
Falcon-H1 от TII — гибридная модель, объединяющая внимание и модели состояний, достигающая результатов, сопоставимых с ведущими LLM на 70 миллиардов параметров, с оптимизацией эффективности и масштабируемости.
Google DeepMind представила AlphaGenome — новую модель глубокого обучения, которая с высокой точностью предсказывает регуляторное влияние мутаций в ДНК по множеству биологических параметров, превосходя существующие решения.
BAAI представляет OmniGen2 — передовую унифицированную модель мультимодального ИИ, показывающую лучшие результаты в генерации изображений по тексту, редактировании и оценке контекстной согласованности среди открытых моделей.
Исследователи из Университета Фудань разработали Lorsa — механизм разреженного внимания, позволяющий выделять атомарные единицы внимания, скрытые в суперпозиции трансформеров, что улучшает интерпретируемость языковых моделей.
NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.
Alibaba представила Qwen2.5-Omni-3B — мультимодальную модель с 3 млрд параметров, которая снижает использование видеопамяти более чем на 50%, сохраняя производительность, близкую к 7 млрд модели, и подходит для потребительских GPU.
Исследователи из Mila и Университета Монреаля представили FoX — новую версию трансформера с обучаемыми forget gate, которая улучшает качество и эффективность моделирования длинных контекстов без потерь в скорости.