AbstractDL

Indirizzo del canale:

Categorie: Tecnologie

Lingua: Italiano

Abbonati: 7.44K

Descrizione dal canale

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
Автор: @razzant
Нейро Конфуций: @neural_chat_bot
Рекламу не публикую

▲ Vote (1)

Ratings & Reviews

4.00

3 reviews

Reviews can be left only by registered users. All reviews are moderated by admins.

5 stars

4 stars

3 stars

2 stars

1 stars

Gli ultimi messaggi 3

2023-05-04 10:44:41

Deep learning models might be secretly (almost) linear

Линейные модели обычно сильно ограничены в своих возможностях, поэтому в нейронки всегда добавляются слои активации (ReLU и тп).

Забавно, но существует много свидетельств, что нейронные сети на самом деле почти линейные (по инпуту и по весам). В этом блогпосте собрано 17 таких примеров со ссылками. Вот несколько самых интересных из них:

1. Веса моделей обученных от одной инициализации можно складывать (да, прям W1 + W2) и всё будет работать (тык, тык)
2. Ластик концептов позволяет удалять целые понятия из моделей одним линейным оператором (тык)
3. Работает линейная алгебра внутренних репрезентаций (тык)
4. Unsupervised linear probing (тык)
5. GPT микроскоп (colab)
6. LoRa адаптеры линейно стыкуются (тык)

Похоже, что глубоким моделям достаточно совсем чуть-чуть нелинейности в поведении для получения потрясающих результатов.

Блогпост

9.4K viewsedited 07:44

Aprire / Come

2023-05-03 21:49:30

Нейро Конфуций стал понимать картинки! Ещё я сделал его ответы чуть более конкретными и добавил работу в групповых чатах

5.2K views18:49

Aprire / Come

2023-05-02 09:25:29

Emergent Abilities of LLM — это всего лишь иллюзия (by Stanford)

Последнее время много говорят про эмерджентность гигантских языковых моделей — мол, некоторые их свойства (проблески сознания ) начинают резко проявляться на большом масштабе (~30B параметров). Но тут обнаружили, что это всего лишь следствие выбора сильно нелинейных метрик для тестирования (Multiple Choice Grade, String Accuracy). И если их поменять на более «плавные» аналоги (Brier Score, Edit Distance) — то вся эмерджентность куда-то пропадает и перформанс LLM масштабируется без резких скачков.

Авторы демонстрируют эту псевдо-эмерджентность на всём семействе моделей instructGPT/GPT-3 и даже на классических автоэнкодерах для MNIST. Похоже, что всё-таки никакого магического числа параметров для языковых моделей не существует, и все их свойства меняются постепенно и крайне предсказуемо.

Статья

8.5K views06:25

Aprire / Come

2023-04-28 17:27:58

Очень красивая шпаргалка по всем языковым моделям (от word2vec до ChatGPT)

Статья, GitHub

7.3K views14:27

Aprire / Come

2023-04-27 13:12:41

DeepFloyd IF: новая text-2-image модель

StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.

Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.

Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL

— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост

— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.

Код выложили, веса ждем тут. И ждем подробной статьи от авторов.

@ai_newz

4.3K views10:12

Aprire / Come

AbstractDL

Ratings & Reviews

Gli ultimi messaggi 3

Canali correlati

Chat correlate

Canali correlati

Login