Сервер для обчислень Генеративного ШІ

    Турбозаряд для розпізнавання змісту архівних документів

    Проблема

    Всі Архівні фонди України скануються і зберігаються в форматі зображень, аудіо та відео файлів, в кращому випадку, з невеликим описом змісту (анотацією). В той час саме цінне - це зміст

    Всі Архівні фонди України скануються і зберігаються в форматі зображень, аудіо та відео файлів, в кращому випадку, з невеликим описом змісту (анотацією). В той час саме цінне - це зміст

    Щоб можна було швидко і якісно аналізувати та шукати інформацію в фондах по змісту - ці зображення, аудіо та відео необхідно перевести в цифровий формат зрозумілий сучасним застосунком, побудованим на основі векторних баз даних, які дозволяють великим мовним моделям (LLM) вільно працювати з цією інформацією.

    Щоб можна було швидко і якісно аналізувати та шукати інформацію в фондах по змісту - ці зображення, аудіо та відео необхідно перевести в цифровий формат зрозумілий сучасним застосунком, побудованим на основі векторних баз даних, які дозволяють великим мовним моделям (LLM) вільно працювати з цією інформацією.

    Мета проєкту

    Створити потужний сервер для інференсних обчислень генеративного штучного інтелекту, який стане постійним інструментом для автоматичного розпізнавання змісту зображень, аудіо, відео та обробки архівних документів державних архівів України із застосуванням великих мовних моделей (LLM).

    Основні задачі сервера

    Автоматичне розпізнавання
    Безупинний процес автоматичного розпізнавання змісту зображень, аудіо, відео вже існуючих в цифровому вигляді фондів та майбутніх оцифрованих фондів.
    Програмні потужності
    Забезпечення програмних потужностей для інференсних обчислень на базі вузькоспеціалізованих моделей штучного інтелекту.

    Чому це важливо?

    Збереження спадщини
    Перетворення архівів у зручний цифровий формат для інтеграції з сучасними інтерфейсами
    Доступність
    Спрощення пошуку та аналізу документів для дослідників, журналістів, громадськості
    Інновації
    Використання LLM відкриває нові можливості для аналізу, перекладу, класифікації

    Поточний прогрес

    Відскановано
    150 млн аркушів
    Динаміка сканування
    30+ млн аркушів/рік
    Залишилось сканувати
    приблизно 800 млн аркушів
    Підготовлено до роботи з LLM
    0% з 150 млн аркушів
    Очікуваний час завершення сканування: 26+ роківОсновна проблема: зміст документів залишається недоступним для пошуку та аналізу

    Технічні деталі

    Щляхом тестування виявлено, що найпростіший сервер з одною картою GPU NVIDIA L4 (приблизно 2 тисячі євро за штуку) в ідеальних умовах зможе розпізнавати 149,300 зображень на рік... одна така карта зможе допомогти з найбільш критично важливими документами для досліджень, проте вже наявні 150 млн вона буде розпізнавати приблизно 1 тисячу років.Щоб вийти на 30 мільйонів аркушів на рік, потрібно: 30,000,000 ÷ 149,300 = 201 карта GPU NVIDIA L4. Це означає інвестиції приблизно 400,000 євро тільки в GPU, не враховуючи серверне обладнання, електроенергію та обслуговування.

    Таймлайн

    1
    Збір інформації та планування
    Завершено
    2
    Заключення партнерств
    В процесі
    3
    Розробка та тестування ПЗ
    12 місяців
    4
    Організація роботи сервера
    6-12 місяців
    5
    Підтримка та покращення
    24 місяці

    Очікуваний результат

    Сучасна інфраструктурадля цифрової трансформації архівів
    Прискорення обробкипошуку та аналізу архівних матеріалів
    Відкритість спадщинидоступність української історичної спадщини

    Діяти треба зараз

    Звʼяжіться з нами якщо ви:
    1
    можете профінансувати проєкт цілком або частково
    2
    можете надати обладнання
    3
    можете оптимізувати та/або зменшити кількість витрат
    4
    зможете розказати про це в своєму медіа
    Натисніть для відправки листа
    СторінкиГоловнаПро насҐалереяПроєктиПриєднатися
    ДокиКонфіденційністьУмови використанняБуклет
    ІншеДолучитисяСтати партнеромПроєкт сервера
    Контактиhello@ukraineincolor.com
    Всі права захищено © Україна в кольорі 2025