UA24 — Новини України

Державна архівна служба України передає для тренування національної мовної моделі "Сяйво" 10 терабайтів історичних матеріалів, державних документів та наукових текстів, що дорівнює 70 тис. книжок, йдеться у повідомленні міністерства цифрової трансформації. "Для тренування національної мовної моделі ми збираємо дані, щоб мовна модель була натренована на унікальному масиві інформації", – цитуються в релізі слова в.о. міністра цифрової трансформації Олександра Борнякова. Зі слів голови Держархіву Анатолія Хромова, до кінця 2026 року кількість цифрових копій держархівів збільшаться зі 150 млн до понад 200 млн. "Це унікальний випадок, коли Укрдержархів вперше надає свої дані для розвитку цифрових сервісів в Україні", – наводяться у релізі слова Хромова. В Мінцифрі додали, що наразі свої матеріали надають також понад 50 партнерів, серед яких медіа, університети та бібліотеки. Згодом буде оприлюднено повний перелік інституцій, які надали свої матеріали для тренування національної моделі, йдеться у повідомленні. Наприкінці березня 22,6 тис. українців проголосували за обрання назви "Сяйво" для національної мовної моделі. На початку січня повідомлялось, що запустити бета-тестування національної LLM заплановано навесні 2026 року. Тоді, за словами екс-першого віцепрем’єр-міністра цифрової трансформації Михайла Федорова, у січні мало бути сформовано першу базу текстів для тренування LLM, покращено токенізатор, який розділяє слова на елементи, для швидкої та продуктивної обробки мови, а також власні бенчмарки для оцінки якості. У грудні 2025 року повідомлялось, що Мінцифри разом з найбільшим українським оператором мобільного зв’язку "Київстар" обрали модель Gemma 3 від Google (відкрита ШІ-модель) для тренування української LLM. У своєму релізі "Київстар" тоді нагадав, що модель Gemma вже продемонструвала результати як базова модель для MamayLM та Lapa LLM – перших українських LLM, а також для INSAIT BgGPT – сучасної LLM для болгарської мови.

Укрдержархів передав для тренування національної LLM "Сяйво" 10 терабайтів даних