LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Micr | AbstractDL

LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)

Тут придумали новый sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много

На самом деле, тут нет ничего хитрого или супер нового, всего-лишь dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.

Статья

AbstractDL

👨‍🚀 7.44K
Tecnologie

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️. Автор: @razzant . Нейро Конфуций: @neural_chat_bot. Рекламу не публикую...

Join
▲ Vote (1)

LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Micr | AbstractDL

Login