AbstractDL

Indirizzo del canale:

Categorie: Tecnologie

Lingua: Italiano

Abbonati: 7.44K

Descrizione dal canale

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
Автор: @razzant
Нейро Конфуций: @neural_chat_bot
Рекламу не публикую

▲ Vote (1)

Ratings & Reviews

4.00

3 reviews

Reviews can be left only by registered users. All reviews are moderated by admins.

5 stars

4 stars

3 stars

2 stars

1 stars

Gli ultimi messaggi

2023-07-20 13:16:14

ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

Хабр | Hugging Face

990 views10:16

Aprire / Come

2023-07-18 21:04:48

LLaMa-2: лучшая опенсорсная языковая модель (by Meta)

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Из интересных наблюдений — RL не просто портит калибровку вероятностей (что первыми заметили openAI), а на самом деле корректирует температуру, балансируя между фактологической точностью и креативностью, в зависимости от промпта.

Статья, GitHub, HuggingFace

1.3K viewsedited 18:04

Aprire / Come

2023-07-18 09:27:45

FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub

1.8K views06:27

Aprire / Come

2023-07-12 15:42:34

Kandinsky 2.2

Благодаря более крупному картиночному энкодеру (CLIP-ViT-G) у нас получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в открытом доступе!

Хабр, GitHub, бот, сайт

1.0K views12:42

Aprire / Come

2023-07-11 12:36:53

ChatGPT Fails on Simple Questions (by Skoltech & Me)

Есть такой старенький бенчмарк с простыми вопросами по википедии (так и называется Simple Questions), и, оказывается, ChatGPT с ним справляется очень плохо, даже хуже, чем GPT-3. А лучший результат вообще достигается решением с эмбеддингами графов знаний (BERT + PTBG).

Похоже, всё дело в том, что RLHF вынуждает модель отказываться от ответа, если она в нём не уверена. А GPT-3 просто тычет пальцем в небо и часто угадывает.

Статья, GitHub

1.0K views09:36

Aprire / Come

2023-07-10 12:59:42

LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)

Тут придумали новый sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много

На самом деле, тут нет ничего хитрого или супер нового, всего-лишь dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.

Статья

1.9K views09:59

Aprire / Come

2023-07-04 20:48:09

Найдена причина всплесков в активациях трансформеров (by Qualcomm)

Как же тяжело квантовать трансформеры (fp32→int8). Столько всего придумали, лишь бы спастись от аутлаеров в активациях, которые принимают огромные значения, выходя за пределы машинной точности.

В статье Quantizable Transformers наконец нашли причину этих магических всплесков, которые даже начинали оправдывать "искрами сознания". Всю вину возложили на софтмакс этэншна — когда модель хочет занулить вклад каких-нибудь токенов (или патчей), голове внимания приходится выдавать огромные (по модулю) значения логитов, чтобы получить ~0 после софтмакса. Авторы попробовали добавить clipped softmax и gated attention, после чего все трансформеры стали не только легко квантоваться, но и даже чуть-чуть выиграли в точности.

Главная улика, которая навела авторов на софтмакс — аутлаеры всегда соответствовали "бесполезным" токенам или патчам (см. картинку). Статья очень легко читается и вообще похожа на детектив, всем рекомендую

Статья

4.5K views17:48

Aprire / Come

2023-06-29 15:16:08

Обнаружил что-то странное, чатгпт игнорирует всё, что похоже на спецтокены. Наверное, это защита от одного из векторов атаки на модель.

5.2K viewsedited 12:16

Aprire / Come

2023-06-28 20:51:21

The Little Book of Deep Learning

Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.

Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).

• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.

• Либо можно заказать бумажный вариант. #books

@ai_newz

3.8K views17:51

Aprire / Come

2023-06-27 21:45:26

LightGlue: Local Feature Matching at Light Speed (by Microsoft)

Появилась новая SOTA по качеству и скорости для сопоставления изображений.

Выравнивание происходит при помощи трансформера, который матчит эмбеддинги ключевых точек (SuperPoint, DISK). А высокая скорость достигается «ранним выходом» из модели — на лёгких изображениях инференс завершается на начальных слоях трансформера (очень похоже на CALM).

Код и веса выложены в открытый доступ.

Статья, GitHub

4.5K views18:45

Aprire / Come

AbstractDL

Ratings & Reviews

Gli ultimi messaggi

Canali correlati

Chat correlate

Canali correlati

Login