LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)
Тут придумали новый
sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много
На самом деле, тут нет ничего хитрого или супер нового, всего-лишь
dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.
Статья