Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Освещение последних новостей разработчиков в области ИИ • Founder @AlphaSignalAI (250 тысяч пользователей)
ML Eng с 2017 года • Бывший Mila
Кто-то только что обошел нейронный процессор Apple, чтобы обучить модели.
Нейронный процессор внутри каждого Mac на базе M-серии был разработан для вывода.
Запускайте модели, не обучайте их. Нет публичного API, нет документации и, конечно, никакой обратной пропаганды.
Тем не менее, исследователь обратного проектирования разобрал частные API и создал цикл обучения трансформеров, который выполняет прямые и обратные проходы непосредственно на аппаратном обеспечении ANE.
Этот метод полностью обходит CoreML.
Вместо использования официальных инструментов Apple проект строит программы на MIL (Model Intermediate Language), компилирует их в памяти с использованием не задокументированных API `_ANEClient` и передает данные через буферы общей памяти IOSurface.
Весы встраиваются в скомпилированные программы как константы.
Каждый шаг обучения вызывает шесть пользовательских ядер: внимание вперед, прямой проход, затем четыре обратных прохода, которые вычисляют градиенты по отношению к входным данным.
Градиенты весов все еще выполняются на ЦП с использованием библиотек матриц Accelerate, но тяжелая работа (умножение матриц, softmax, функции активации) выполняется на ANE.
Это делает возможным три вещи, которые раньше были невозможны:
1. Обучение небольших моделей локально, не разряжая батарею
2. Тонкая настройка на устройстве без отправки данных на сервер или запуска GPU
3. Исследование того, что на самом деле может делать аппаратное обеспечение ANE, когда вы игнорируете защитные механизмы Apple
Если этот подход масштабируется, следующая волна ИИ на устройствах перестанет быть связанной с запуском замороженной модели кого-то другого.

Vali Neagu2 мар., 21:07
ДА! Кто-то обратил внимание на Neural Engine от Apple и обучил нейронную сеть на его основе.
Apple никогда не разрешала это. ANE предназначен только для вывода. Нет публичного API, нет документации.
Тем не менее, они его взломали.
Почему это важно:
• M4 ANE = 6.6 TFLOPS/W против 0.08 для A100 (в 80 раз более эффективно)
• "38 TOPS" - это ложь - реальная пропускная способность составляет 19 TFLOPS FP16
• Ваш Mac mini имеет этот чип, который в основном бездействует
Перевод: локальный AI вывод, который быстрее И использует почти ноль энергии.
Все еще ранние исследования, но дверь теперь открыта.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

632
Alibaba отправила четыре небольших модели Qwen 3.5 с приемом, заимствованным из их модели 397B: гибридное внимание Gated DeltaNet.
Три слоя линейного внимания на каждый слой полного внимания.
Линейные слои обрабатывают рутинные вычисления с постоянным использованием памяти. Полные слои внимания активируются только тогда, когда важна точность.
Это соотношение 3:1 поддерживает стабильное использование памяти, в то время как качество остается высоким, именно поэтому даже модель 0.8B поддерживает контекстное окно в 262 000 токенов.
Каждая модель обрабатывает текст, изображения и видео нативно.
Без адаптера, прикрепленного позже. Визуальный кодировщик использует 3D-свёртки для захвата движения в видео, а затем объединяет признаки из нескольких слоев, а не только из последнего.
Модель 9B обходит GPT-5-Nano на 13 пунктов по многомодальному пониманию, на 17 пунктов по визуальной математике и на 30 пунктов по разбору документов. Модель 0.8B работает на телефоне и обрабатывает видео. Модель 4B помещается в 8 ГБ видеопамяти и действует как многомодальный агент. Все четыре модели имеют лицензию Apache 2.0.
Если эта архитектура сохранится, пространство небольших моделей только что стало гонкой возможностей, а не гонкой размеров.
Год назад запуск многомодальной модели локально означал модель 13B+ и серьезный GPU.
Теперь модель 4B с контекстом 262K обрабатывает текст, изображения и видео на потребительском оборудовании.
Разрыв между крайними моделями и флагманскими моделями сокращается быстрее, чем разрыв между флагманами и людьми.

Qwen2 мар., 21:18
🚀 Представляем серию малых моделей Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Больше интеллекта, меньше вычислений.
Эти малые модели построены на той же основе Qwen3.5 — нативная мультимодальность, улучшенная архитектура, масштабируемое RL:
• 0.8B / 2B → крошечные, быстрые, отличные для устройств на краю
• 4B → удивительно сильная мультимодальная база для легковесных агентов
• 9B → компактные, но уже сокращают разрыв с гораздо большими моделями
И да — мы также выпускаем базовые модели.
Надеемся, это лучше поддержит исследования, эксперименты и инновации в реальной промышленности.
Hugging Face:
ModelScope:

215
Можно ли ограничить охват аккаунтов, которые многократно помечаются за дезинформацию?
Вы можете использовать Community Notes или Grok для отслеживания нарушений.
Я поддерживаю свободу слова, но когда аккаунт с 1M подписчиков намеренно распространяет ложную информацию, которая достигает 25M показов, это имеет реальные последствия.
@nikitabier
160
Топ
Рейтинг
Избранное
