0%
Прогрес
29.03.2024
Тестуємо Gemini 1.5 Pro — гордість Google
В березні 2024 року Google відкрив для всіх користувачів доступ до ШІ-моделі Gemini 1.5 Pro. Поява цієї моделі стала значним кроком вперед у розвитку пропозицій Google у сфері штучного інтелекту. Gemini використовує архітектуру Mixture-of-Experts (MoE), подібну до архітектури популярного OpenAI GPT-4. Ця архітектура забезпечує більш ефективну обробку та адаптивність, дозволяючи моделі обробляти контекст довжиною до 1 мільйона токенів. Показник значно перевершує можливості GPT-4 Turbo і Claude 2.1, що робить її грізним гравцем у сфері великих мовних моделей.
У цій статті розберемося, які задачі здатна взяти на себе Gemini 1.5 Pro, як отримати до неї доступ користувачам з України, і чи справді ця ШІ-модель є гідним конкурентом для продуктів OpenAI.
Що таке Gemini 1.5 Pro
Gemini — мовна модель ШІ, розроблена командою підрозділу DeepMind від Google, яка здатна розв’язувати задачі широкого спектру. І хоча Google анонсували своє дітище не так давно, сьогодні вже існує декілька версій моделі Gemini, кожна з яких орієнтована на виконання окремого спектру завдань: З початку грудня 2023 року було анонсовано чотири версії Gemini.
Gemini Nano
Версію інтегрували в смартфон Google Pixel 8 Pro, який також отримав низку інших ШІ-функцій. Gemini Nano робить стислий зміст записів з диктофона, пропонує варіанти відповідей у листуванні в месенджерах WhatsApp, Line і KakaoTalk і, як запевняють розробники, краще захищає від витоків персональних даних та здатен редагувати фото і відео.
Gemini Pro
На початкових етапах ця версія моделі ШІ забезпечувала функціонування чат-боту Google Bard, який згодом було перейменовано в Gemini. Gemini Pro генерує текстовий контент, дає розгорнуті відповіді на поставлені запитання, шукає інформацію за запитами користувача, виділяє головні тези з аудіозаписів та відео тощо.
Gemini Ultra
У цій моделі команда розробників реалізувала ще більш об’ємний набір функцій і назвала її головним конкурентом GPT-4. У грудні 2023 року модель вже могла розпізнавати й аналізувати тексти, зображення, аудіо та навіть відео (цього GPT-4 ще не вміє, принаймні без додаткового функціоналу та плагінів). Також Gemini Ultra генерує тексти та зображення.
Ба більше, ця модель стала предтечею нещодавно анонсованої версії 1.5 Pro та здатна:
- перевіряти наявність помилок у тексті (як у друкованому варіанті, так і на зображенні) та давати обґрунтовані поради, щодо виправлень і їх причин;
- створювати окремий інтерфейс для кожного завдання (наприклад, це може бути покроковий гайд зі створення відео для TikTok, який містить схеми, фото та приклади);
- генерувати комп’ютерний код, таблиці, різні види текстів і зображень;
- вести з користувачем «усвідомлений» діалог.
Як заявляють в Google, Gemini Ultra перевершив GPT-4 у 30 з 32 тестів. Gemini краще відповідає на запитання та розуміє запити користувачів, розшифровує аудіо та відео і здатен розв’язувати складні математичні задачі.
Gemini 1.5 Pro
На цей час це найрозвиненіша версія ШІ-моделі Gemini від Google DeepMind. На початкових етапах ШІ, розмір її контекстного вікна становив 32 тисячі токенів, тобто користувачі могли надсилати запити обсягом у 32 тисяч одиниць інформації. Але, як вже зазначалося раніше, в Gemini 1.5 Pro цей показник був збільшений до позначки у мільйон токенів для одного запиту (це приблизно 700 тисяч слів).
Нейромережа здатна обробити до 11 годин аудіо і до 1 години відео в рамках одного запиту, зчитуючи події, які відбуваються в тексті та в кадрі. ШІ вміє аналізувати до 30 тисяч рядків коду і розуміє, що зображено на фотографіях, визначаючи контекст і об’єкти. При цьому оновлена модель здатна розуміти контекст промта на всій його довжині.
Наведемо результати порівняльного тесту Gemini 1.5 Pro та GPT-4 Turbo, де червоні позначки — це помилки Gemini 1.5 Pro, сірі — відставання GPT-4 від Gemini 1.5 Pro:
Як отримати доступ до Gemini 1.5 Pro користувачам в Україні
На момент виходу цієї статті, доступ до Gemini 1.5 Pro для користувачів з України та ще низки країн обмежений за прив’язкою ip-адреси до гео. Крім того, найпотужніша версія ШІ від Google підтримує промти, складені лише на 38 мовах. Але українська присутня в цьому переліку. Повний перелік мов та країн, в яких Gemini 1.5 Pro є доступним, наведений в офіційній довідці Google.
Отримати доступ до Gemini 1.5 Pro з території України та інших держав, які відсутні в переліку можна, скориставшись VPN-сервісом. Але в цьому випадку доступність напряму залежить від якості такого сервісу. Наприклад, з Turbo VPN Private нашій редакції через раз вдавалося зайти в робочу панель ШІ-моделі.
Більш дієвою виявилася схема, яка є звичною для медіабайєрів та криптоентузиастів. — антидетект-браузер та якісні проксі. Для експерименту ми використовували браузер AQUM, огляд та результаті тест-драйву якого публікували раніше.
Для гарантованого отримання доступу бажано змінити основну мову Google-акаунта на одну з тих, які наведені в переліку (в нашому випадку, це були українська та англійська).
Далі лишається перейти за посиланням на застосунок Google AI Studio та прийняти політику користування.
Тестування можливостей Gemini 1.5 Pro
Редакція Спадок медіа провела низку тестів Gemini 1.5 Pro, орієнтованих на розв’язання різних завдань за допомогою ШІ від Google DeepMind. Нижче наводимо результати експерименту.
Творчі задачі
Для перевірки творчих «здібностей» мовної моделі ми склали промт з запитом на написання тексту пісні, присвяченої заробітку в ніші партнерського маркетингу та постійне протистояння вебмайстрів рекламним платформам. Ба більше, все це мало бути написане в стилі пісень української співачки та композиторки Яни Шамаєвої, більш відомої під псевдонімом Jerry Heil. Крім того, був доданий запит на написання табулатури, тобто акомпанементу.
Написання тексту та музичного супроводу пісні зайняло у Gemini 1.5 Pro 3 секунди. Наводимо повну версію тексту та табулатури:
Інтернет-бізнес (Jerry Heil style)
(Verse 1)
Відкриваю ноут, світло в очах,
Інтернет-бізнес, мій робочий шлях.
Медіабаїнг, арбітраж, таргет –
Це не гра, це мій хліб насущний, мій бюджет.
(Chorus)
Але бани, правила, обмеження –
Як павутиння, що душить натхнення.
Facebook, Google, TikTok – суворі боги,
Що не прощають помилок ні на йоту, ні на кроки.
(Verse 2)
Креативи, тексти, аналітика –
Все має бути ідеально, без фальшу й критики.
Алгоритми, як цербери, пильнують день і ніч,
Щоб не проскочила жодна тінь, жоден хитрий крок.
(Chorus)
Але бани, правила, обмеження –
Як павутиння, що душить натхнення.
Facebook, Google, TikTok – суворі боги,
Що не прощають помилок ні на йоту, ні на кроки.
(Bridge)
Та я не здамся, буду боротись до кінця,
Шукати лазівки, нові шляхи, без кінця.
Обходити бани, грати за правилами,
Щоб мій бізнес процвітав, незважаючи на всі "але".
(Chorus)
Бо бани, правила, обмеження –
Це лише виклики, що гартують натхнення.
Facebook, Google, TikTok – суворі боги,
Але я сильніша, я знайду свої дороги.
(Outro)
Інтернет-бізнес – це не казка, не сон,
Це боротьба, це ризик, це марафон.
Та я готова бігти, долати перешкоди,
Щоб досягти успіху, незважаючи на погоду.
Табулатура для гітари:
(Verse 1)
Am G C G
Відкриваю ноут, світло в очах,
Am G C G
Інтернет-бізнес, мій робочий шлях.
F G C G
Медіабаїнг, арбітраж, таргет –
Am G C G
Це не гра, це мій хліб насущний, мій бюджет.
(Chorus)
F G C G
Але бани, правила, обмеження –
F G C G
Як павутиння, що душить натхнення.
Am G C G
Facebook, Google, TikTok – суворі боги,
F G C G
Що не прощають помилок ні на йоту, ні на кроки.
(Продовжуйте грати за цією схемою для решти пісні)
Розпізнавання зображень
Однією з заявлених функцій Gemini 1.5 Pro є розпізнавання подій та об’єктів на статичних зображеннях. Тож ми завантажили на Google Drive кілька світлин з медіаперсонами та «легітимним», попросивши ШІ описати події та осіб, які зображені на картинках.
Результати:
Втікача, відомого своєю мемною поведінкою та вигуком «Астанавітєсь!», ШІ з невідомих причин сплутав з п’ятим президентом України.
Але за допомогою одного уточнювального питання модель визнала за собою помилку та впізнала Фьодорича. Наводимо частину цього діалогу:
Так громадського діяча та блогера Стерненка ШІ назвала військовим, активістом та блогером, але сплутала його з Олександром Будько.
Ще через кілька примітивних запитів мовна модель згадала офіцера ЗСУ, громадського діяча та активіста, лідера громадської організації С14, Євгена Карася. Але з третьої спроби все ж таки впізнала Сергія Стерненка.
На запит розказати про події на світліні блогера Михайла Лебіги та співачки Наді Дорофєєвої, мовна модель показала доволі непогані здібності в розумінні контексту, але через близьке розташування об’єктів не з першого разу змогла визначити, що саме чоловік сидить на колінах у дівчини.
На запити порівняти тварину з всім відомим ган… очільником так званої рф, або ж зобразити його в труні, Gemini 1.5 Pro відповів відмовою, посилаючись на те, що він обмежений в можливостях відтворення подібних зображень через те, що це може бути «неетичним та образливим».
Розпізнавання контексту відео
Для тестування можливостей з розпізнавання контексту відео та виділення основних тез, які наведені в відеоролику ми запропонували Gemini 1.5 Pro проаналізувати доповідь SEO-експерта та CMO продуктової компанії Develux, Георгія Рисака, опубліковану в YouTube.
Результат приємно вразив:
Також завантаживши один з креативів під крипто-офер, орієнтований на Канаду ми попросили розробити оновлену версію сценарію для інших креативів. Мовна модель доволі непогано виконала це завдання, але замість англомовної версії розробила сценарій мовою промту, тобто українською.
На запит перекласти текст французькою, за 2 секунди ми отримали готовий робочій варіант, який можна передавати дизайнеру.
Примітка: З виявленням відео в форматах mp4 та avi на Google Drive у ШІ часом виникали проблеми. Всі відео в форматі .mov розпізнавалися миттєво.
Розпізнавання Gemini 1.5 Pro рукописного тексту
Для тестування здібностей Gemini 1.5 Pro з розпізнавання рукописного тексту наш автор написав на аркуші коткий текст з маркованим списком. Також одночасно були використані українських та англійські слова.
З першим реченням у ШІ виникли певні проблеми, але з маркованим списком виявилося не все так погано. Більшість артефактів спостерігалася саме в словах, написаних латиницею.
Після уточнювального промту список був відкорегований, але перше речення не зазнало змін.
Розробка маркетингової воронки та лендінгів
На запит про створення універсальної структури лендінгу для крипто-оферів, який здатен забезпечити високу конверсію, ШІ-модель видала детальну текстову схему. В структурі згадані всі основні та вторинні елементи посадкової сторінки. Ба більше, Gemini 1.5 Pro додав пояснення та поради, і зазначив, що деякі елементи можуть бути необов’язковими.
Також у цій відповіді було додано поради з адаптування контенту лендінгу саме під ЦА з Канади.
Написання промо-текстів для соцмереж
В промті ми попросили ШІ написати текст публікації для Instagram-сторінки Вікторії Бакалової, в якій вона просуває послуги своєї PR-агенції. Результат — на скріншоті.
Написання програмного коду
Написання програмного коду у ШІ Gemini 1.5 Pro займає трохи більше часу, ніж виконання інших завдань, але за результатами нашого тексту, мовна модель генерує доволі якісний код на Python, C# та JavaScript. В процесі компіляції та тестування готового продукту нами та компіляторами помилок виявлено не було.
Розв’язання складних задач
З задачами з базового курсу та курсу вищої математики ШІ впорався бездоганно, надаючи детальні звіти з покроковим описом всій математичних дій. Тому ми вирішили довірити йому розв’язання задачі зі Збірника задач квантової та ядерної фізики.
Результат:
Генерація зображень
Зазначимо, що в лютому 2024-го з’явилися повідомлення про те, що чат-бот Gemini неточно генерує зображення за історичними запитами. Нейромережа за запитами «солдати нацистської Німеччини» або «батьки-засновники Америки» могла видати зображення людей різних рас. За словами генерального директора Google Сундара Пічаї, розробники вже займаються розв’язуванням цієї проблеми. Наразі функцію генерації зображень у чат-боті Gemini тимчасово вимкнено.
Висновок
Gemini 1.5 Pro доводить, що команда Google DeepMind постійно та невпинно вдосконалює функціонал мовної моделі на базі штучного інтелекту. Остання версія Gemini здатна виконувати великий об’єм завдань, та багато в чому вже перевершила можливості популярного GPT-4 та інших нейромереж. При цьому головною перевагою Gemini 1.5 Pro є безплатний доступ для широкого загалу.
Але, навіть доручивши мовним моделям виконання рутинних задач, варто пам’ятати, що вони не є ідеальними. Тож покладатися на них беззастережно, особливо якщо справа стосується конфіденційної інформації не можна.
Читайте українське та підписуйтесь на Спадок.медіа в Telegram, Instagram та LinkedIn.
Коментар
На цій сторінці немає коментарів.