Get Mystery Box with random crypto!

AbstractDL

Logo del canale telegramma abstractdl - AbstractDL A
Logo del canale telegramma abstractdl - AbstractDL
Indirizzo del canale: @abstractdl
Categorie: Tecnologie
Lingua: Italiano
Abbonati: 7.44K
Descrizione dal canale

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
Автор: @razzant
Нейро Конфуций: @neural_chat_bot
Рекламу не публикую

Ratings & Reviews

4.00

3 reviews

Reviews can be left only by registered users. All reviews are moderated by admins.

5 stars

2

4 stars

0

3 stars

0

2 stars

1

1 stars

0


Gli ultimi messaggi 2

2023-06-22 13:16:54
Direct Preference Optimization: Your Language Model is Secretly a Reward Model
arxiv.org/abs/2305.18290

Интересная статья, которая предлагает делать RLHF без RL. Используя пару математических трюков, можно показать что при модели Bradley-Terry человеческих предпочтений (которая похожа на то как моделируется reward в RLHF) можно вывести определённый лосс L который нам надо минимизировать.

Таким образом мы сводим RL задачу которая оптимизирует выученный (произвольный) reward к прямой задачи оптимизации на нашем датасете человеческих предпочтений. На практике это означает, что вам больше не надо страдать с PPO, не нужно генерировать текст во время обучения, и можно просто напрямую оптимизировать L. Экспериментальные результаты показывают что DPO работает так же как RLHF или лучше.
4.1K views10:16
Aprire / Come
2023-06-17 15:31:47
Understanding Optimization of Deep Learning

Крутой обзор всех аспектов и методов оптимизации нейронных сетей. Тут описано как бороться с возникающими проблемами, в чём отличия оптимизаторов, почему трансформеры капризнее резнетов (сильная кривизна лосса → большое значение константы Липшица) и ещё много всего интересного на 50 страниц.

P.S. На картинке показано как можно справиться с взрывающимися градиентами.

Статья
11.4K views12:31
Aprire / Come
2023-06-10 17:40:35
MEMIT: Где именно GPT хранит свои знания? (by MIT)

Оказалось, что память у трансформеров находится в feed-forward части, а точнее в последнем слое некоторых MLP. При этом все факты можно довольно легко изменять без вреда для остальных знаний и навыков модели.

Авторы придумали хитрый способ как определить место внутри модели, связанное с отдельной ассоциацией. Для этого они берут текст нужного факта, зашумляют эмбеддинги его токенов и смотрят какой фрагмент модели наиболее подвержен влиянию такого искажения — всегда оказывается, что это один из feed-forward слоёв.

А для подмены факта необходимо внести небольшие изменения в выходную матрицу найденного MLP (rank-one modification), основываясь на желаемом аутпуте для этого слоя. Такой подход работает надёжнее, чем файнтюнинг, ведь если долго учить GPT тексту «Лувр находится в Париже» — то она может начать говорить, что и Статуя Свободы, и Кремль, и вообще всё остальное тоже находится в Париже.

Авторы смогли запихнуть десятки тысяч фактов из Wikidata внутрь GPT-J и подготовили демо, где можно наблюдать за внутренним «развитием» ассоциаций в модели от слоя к слою.

Статья, GitHub, демо, colab
9.0K viewsedited  14:40
Aprire / Come
2023-06-04 17:55:22
Skoltech

Три года назад я закончил Сколтех, и поступить туда — было лучшим решением в моей жизни. Настолько захватывающее и современное обучение стало для меня шоком, особенно после МГУ.

Так что, если кто-то из подписчиков думает про IT магистратуру — обязательно посмотрите в сторону Skoltech, дедлайн 10 июля.
6.6K views14:55
Aprire / Come
2023-05-26 09:53:58
QLoRA: Зафайнтюнить 30B модель в колабе? Легко!

Гениальная и удивительно простая идея лежит в основе этого подхода. Если мы тюним только LoRA адаптеры, а основная модель заморожена, то почему-бы не заквантовать её до предела?

Квантуется модель в новый 4-bit NormalFloat, который отлично подходит для normally distributed активаций. При этом все операции с LoRA остаются в bf16. Самое удивительное — такой подход не отстаёт от полного 16-bit файнтюнига базовой модели — авторы проверили на 1000(!) разных LM.

Всё это уже интегрировано в HuggingFace, а как бонус — авторы обучили нового SOTA чатбота (Guanaco + OASST1 + QLoRA).

Статья, GitHub, colab, модель
8.5K views06:53
Aprire / Come
2023-05-22 14:13:51
TinyStories: The Smallest GPT with Coherent English (by Microsoft)

Как думаете, с какого размера у LM появляется возможность писать связный текст? Оказалось, что и 2.5M параметров достаточно!

Главное препятствие для полноценного понимания языка у трансформеров — огромное количество редких слов (длинный хвост распределения). Но если составить обучающий датасет из 1.5к наиболее частотных корней (словарный запас 5-летнего ребёнка), то даже однослойную GPT можно будет обучить так, что она обойдёт GPT2-XL!

Этот чудесный датасет, написанный руками GPT-4, отлично подходит для валидации новых архитектур, на нём даже скейлинг Шиншиллы подтверждается. Так что если хотите изобрести свою «SuperGPT» архитектуру, то рекомендую экспериментировать на этом сете. Его размер всего 3 Гб.

P.S. Из интересных выводов — лучше масштабировать GPT в глубину, чем в ширину.

Статья, датасет, модель
10.4K views11:13
Aprire / Come
2023-05-16 19:09:50
DarkBERT: A Language Model for the Dark Side of the Internet

Пока в EU пытаются зарегулировать AI вусмерть — в Южной Корее учат DarkBERT.

Ничего особенного, просто берт, обученный на дарквебе (наркоторговля, оружие, etc.). Якобы, такая модель нужна чтобы лучше классифицировать нелегальный контент и специфичный язык пользователей тёмной стороны интернета

P.S. Саму модель пока не выложили, поэтому можно проходить мимо.

Статья
7.7K views16:09
Aprire / Come
2023-05-13 09:19:04
СhatGPT+ теперь имеет доступ в интернет!

Нужно зайти в настройки и включить beta features. Я проверил, всё уже работает!

P.S. А у кого-то сегодня даже плагины появились (не у меня).

Релиз
8.2K viewsedited  06:19
Aprire / Come
2023-05-10 20:36:49
К слову, на Google I/O только что анонсировали обновление Bard — теперь он базируется на PALM-2, понимает картинки и использует графы знаний.

Статья, YouTube
7.2K viewsedited  17:36
Aprire / Come
2023-05-10 14:57:40
Wikipedia-based Image Text Datasets (by Google)

Представлены два крупнейших чистых мультимодальных датасета: WIT и WikiWeb2M — они содержат полные страницы википедии со всеми картинками, структурированным текстом и метадатой (37M изображений и 1.8М страниц).

Они идеально подходят для обучения таких штук как Flamingo или Fromage, а также отлично сочетаются с графами знаний.

Статья, WIT, WikiWeb2M
6.5K views11:57
Aprire / Come