Get Mystery Box with random crypto!

LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Micr | AbstractDL

LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)

Тут придумали новый sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много

На самом деле, тут нет ничего хитрого или супер нового, всего-лишь dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.

Статья