Get Mystery Box with random crypto!

AbstractDL

Logo del canale telegramma abstractdl - AbstractDL A
Logo del canale telegramma abstractdl - AbstractDL
Indirizzo del canale: @abstractdl
Categorie: Tecnologie
Lingua: Italiano
Abbonati: 7.44K
Descrizione dal canale

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
Автор: @razzant
Нейро Конфуций: @neural_chat_bot
Рекламу не публикую

Ratings & Reviews

4.00

3 reviews

Reviews can be left only by registered users. All reviews are moderated by admins.

5 stars

2

4 stars

0

3 stars

0

2 stars

1

1 stars

0


Gli ultimi messaggi

2023-07-20 13:16:14
ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

Хабр | Hugging Face
990 views10:16
Aprire / Come
2023-07-18 21:04:48
LLaMa-2: лучшая опенсорсная языковая модель (by Meta)

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Из интересных наблюдений — RL не просто портит калибровку вероятностей (что первыми заметили openAI), а на самом деле корректирует температуру, балансируя между фактологической точностью и креативностью, в зависимости от промпта.

Статья, GitHub, HuggingFace
1.3K viewsedited  18:04
Aprire / Come
2023-07-18 09:27:45
FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub
1.8K views06:27
Aprire / Come
2023-07-12 15:42:34
Kandinsky 2.2

Благодаря более крупному картиночному энкодеру (CLIP-ViT-G) у нас получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в открытом доступе!

Хабр, GitHub, бот, сайт
1.0K views12:42
Aprire / Come
2023-07-11 12:36:53
ChatGPT Fails on Simple Questions (by Skoltech & Me)

Есть такой старенький бенчмарк с простыми вопросами по википедии (так и называется Simple Questions), и, оказывается, ChatGPT с ним справляется очень плохо, даже хуже, чем GPT-3. А лучший результат вообще достигается решением с эмбеддингами графов знаний (BERT + PTBG).

Похоже, всё дело в том, что RLHF вынуждает модель отказываться от ответа, если она в нём не уверена. А GPT-3 просто тычет пальцем в небо и часто угадывает.

Статья, GitHub
1.0K views09:36
Aprire / Come
2023-07-10 12:59:42
LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)

Тут придумали новый sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много

На самом деле, тут нет ничего хитрого или супер нового, всего-лишь dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.

Статья
1.9K views09:59
Aprire / Come
2023-07-04 20:48:09
Найдена причина всплесков в активациях трансформеров (by Qualcomm)

Как же тяжело квантовать трансформеры (fp32→int8). Столько всего придумали, лишь бы спастись от аутлаеров в активациях, которые принимают огромные значения, выходя за пределы машинной точности.

В статье Quantizable Transformers наконец нашли причину этих магических всплесков, которые даже начинали оправдывать "искрами сознания". Всю вину возложили на софтмакс этэншна — когда модель хочет занулить вклад каких-нибудь токенов (или патчей), голове внимания приходится выдавать огромные (по модулю) значения логитов, чтобы получить ~0 после софтмакса. Авторы попробовали добавить clipped softmax и gated attention, после чего все трансформеры стали не только легко квантоваться, но и даже чуть-чуть выиграли в точности.

Главная улика, которая навела авторов на софтмакс — аутлаеры всегда соответствовали "бесполезным" токенам или патчам (см. картинку). Статья очень легко читается и вообще похожа на детектив, всем рекомендую

Статья
4.5K views17:48
Aprire / Come
2023-06-29 15:16:08
Обнаружил что-то странное, чатгпт игнорирует всё, что похоже на спецтокены. Наверное, это защита от одного из векторов атаки на модель.
5.2K viewsedited  12:16
Aprire / Come
2023-06-28 20:51:21
The Little Book of Deep Learning

Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.

Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).

• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.

• Либо можно заказать бумажный вариант. #books

@ai_newz
3.8K views17:51
Aprire / Come
2023-06-27 21:45:26
LightGlue: Local Feature Matching at Light Speed (by Microsoft)

Появилась новая SOTA по качеству и скорости для сопоставления изображений.

Выравнивание происходит при помощи трансформера, который матчит эмбеддинги ключевых точек (SuperPoint, DISK). А высокая скорость достигается «ранним выходом» из модели — на лёгких изображениях инференс завершается на начальных слоях трансформера (очень похоже на CALM).

Код и веса выложены в открытый доступ.

Статья, GitHub
4.5K views18:45
Aprire / Come