0%

Прогрес

Тестуємо Gemini 1.5 Pro — гордість Google

29.03.2024

1329
0

Тестуємо Gemini 1.5 Pro — гордість Google

В березні 2024 року Google відкрив для всіх користувачів доступ до ШІ-моделі Gemini 1.5 Pro. Поява цієї моделі стала значним кроком вперед у розвитку пропозицій Google у сфері штучного інтелекту. Gemini використовує архітектуру Mixture-of-Experts (MoE), подібну до архітектури популярного OpenAI GPT-4. Ця архітектура забезпечує більш ефективну обробку та адаптивність, дозволяючи моделі обробляти контекст довжиною до 1 мільйона токенів. Показник значно перевершує можливості GPT-4 Turbo і Claude 2.1, що робить її грізним гравцем у сфері великих мовних моделей.

У цій статті розберемося, які задачі здатна взяти на себе Gemini 1.5 Pro, як отримати до неї доступ користувачам з України, і чи справді ця ШІ-модель є гідним конкурентом для продуктів OpenAI.

Що таке Gemini 1.5 Pro

Що таке Gemini 1.5 Pro

Gemini — мовна модель ШІ, розроблена командою підрозділу DeepMind від Google, яка здатна розв’язувати задачі широкого спектру. І хоча Google анонсували своє дітище не так давно, сьогодні вже існує декілька версій моделі Gemini, кожна з яких орієнтована на виконання окремого спектру завдань: З початку грудня 2023 року було анонсовано чотири версії Gemini.

Gemini Nano

Версію інтегрували в смартфон Google Pixel 8 Pro, який також отримав низку інших ШІ-функцій. Gemini Nano робить стислий зміст записів з диктофона, пропонує варіанти відповідей у листуванні в месенджерах WhatsApp, Line і KakaoTalk і, як запевняють розробники, краще захищає від витоків персональних даних та здатен редагувати фото і відео.

Gemini Pro

На початкових етапах ця версія моделі ШІ забезпечувала функціонування чат-боту Google Bard, який згодом було перейменовано в Gemini. Gemini Pro генерує текстовий контент, дає розгорнуті відповіді на поставлені запитання, шукає інформацію за запитами користувача, виділяє головні тези з аудіозаписів та відео тощо.

Gemini Ultra

У цій моделі команда розробників реалізувала ще більш об’ємний набір функцій і назвала її головним конкурентом GPT-4. У грудні 2023 року модель вже могла розпізнавати й аналізувати тексти, зображення, аудіо та навіть відео (цього GPT-4 ще не вміє, принаймні без додаткового функціоналу та плагінів). Також Gemini Ultra генерує тексти та зображення. 

Ба більше, ця модель стала предтечею нещодавно анонсованої версії 1.5 Pro та здатна:

  • перевіряти наявність помилок у тексті (як у друкованому варіанті, так і на зображенні) та давати обґрунтовані поради, щодо виправлень і їх причин;
  • створювати окремий інтерфейс для кожного завдання (наприклад, це може бути покроковий гайд зі створення відео для TikTok, який містить схеми, фото та приклади);
  • генерувати комп’ютерний код, таблиці, різні види текстів і зображень;
  • вести з користувачем «усвідомлений» діалог.

Як заявляють в Google, Gemini Ultra перевершив GPT-4 у 30 з 32 тестів. Gemini краще відповідає на запитання та розуміє запити користувачів, розшифровує аудіо та відео і здатен розв’язувати складні математичні задачі.

Gemini 1.5 Pro

На цей час це найрозвиненіша версія ШІ-моделі Gemini від Google DeepMind. На початкових етапах ШІ, розмір її контекстного вікна становив 32 тисячі токенів, тобто користувачі могли надсилати запити обсягом у 32 тисяч одиниць інформації. Але, як вже зазначалося раніше, в Gemini 1.5 Pro цей показник був збільшений до позначки у мільйон токенів для одного запиту (це приблизно 700 тисяч слів).

Нейромережа здатна обробити до 11 годин аудіо і до 1 години відео в рамках одного запиту, зчитуючи події, які відбуваються в тексті та в кадрі. ШІ вміє аналізувати до 30 тисяч рядків коду і розуміє, що зображено на фотографіях, визначаючи контекст і об’єкти. При цьому оновлена модель здатна розуміти контекст промта на всій його довжині. 

Наведемо результати порівняльного тесту Gemini 1.5 Pro та GPT-4 Turbo, де червоні позначки — це помилки Gemini 1.5 Pro, сірі — відставання GPT-4 від Gemini 1.5 Pro:

Тест Gemini 1.5 Pro vs. ChatGPT-4

Як отримати доступ до Gemini 1.5 Pro користувачам в Україні

На момент виходу цієї статті, доступ до Gemini 1.5 Pro для користувачів з України та ще низки країн обмежений за прив’язкою ip-адреси до гео. Крім того, найпотужніша версія ШІ від Google підтримує промти, складені лише на 38 мовах. Але українська присутня в цьому переліку. Повний перелік мов та країн, в яких Gemini 1.5 Pro є доступним, наведений в офіційній довідці Google.

Gemini 1.5 Pro доступні країни та мови

Отримати доступ до Gemini 1.5 Pro з території України та інших держав, які відсутні в переліку можна, скориставшись VPN-сервісом. Але в цьому випадку доступність напряму залежить від якості такого сервісу. Наприклад, з Turbo VPN Private нашій редакції через раз вдавалося зайти в робочу панель ШІ-моделі.

Більш дієвою виявилася схема, яка є звичною для медіабайєрів та криптоентузиастів. — антидетект-браузер та якісні проксі. Для експерименту ми використовували браузер AQUM, огляд та результаті тест-драйву якого публікували раніше.

Для гарантованого отримання доступу бажано змінити основну мову Google-акаунта на одну з тих, які наведені в переліку (в нашому випадку, це були українська та англійська).

Далі лишається перейти за посиланням на застосунок Google AI Studio та прийняти політику користування.

Інтерфейс Gemini 1.5 Pro - Google AI Studio

Gemini 1.5 Pro політика конфіденційності та правила користування

Тестування можливостей Gemini 1.5 Pro

Редакція Спадок медіа провела низку тестів Gemini 1.5 Pro, орієнтованих на розв’язання різних завдань за допомогою ШІ від Google DeepMind. Нижче наводимо результати експерименту.

Творчі задачі

Для перевірки творчих «здібностей» мовної моделі ми склали промт з запитом на написання тексту пісні, присвяченої заробітку в ніші партнерського маркетингу та постійне протистояння вебмайстрів рекламним платформам. Ба більше, все це мало бути написане в стилі пісень української співачки та композиторки Яни Шамаєвої, більш відомої під псевдонімом Jerry Heil. Крім того, був доданий запит на написання табулатури, тобто акомпанементу.

Gemini 1.5 Pro творчі задачі - написання віршів, пісень та музики

Написання тексту та музичного супроводу пісні зайняло у Gemini 1.5 Pro 3 секунди. Наводимо повну версію тексту та табулатури:

Інтернет-бізнес (Jerry Heil style)

(Verse 1)

Відкриваю ноут, світло в очах,

Інтернет-бізнес, мій робочий шлях.

Медіабаїнг, арбітраж, таргет –

Це не гра, це мій хліб насущний, мій бюджет.

(Chorus)

Але бани, правила, обмеження –

Як павутиння, що душить натхнення.

Facebook, Google, TikTok – суворі боги,

Що не прощають помилок ні на йоту, ні на кроки.

(Verse 2)

Креативи, тексти, аналітика –

Все має бути ідеально, без фальшу й критики.

Алгоритми, як цербери, пильнують день і ніч,

Щоб не проскочила жодна тінь, жоден хитрий крок.

(Chorus)

Але бани, правила, обмеження –

Як павутиння, що душить натхнення.

Facebook, Google, TikTok – суворі боги,

Що не прощають помилок ні на йоту, ні на кроки.

(Bridge)

Та я не здамся, буду боротись до кінця,

Шукати лазівки, нові шляхи, без кінця.

Обходити бани, грати за правилами,

Щоб мій бізнес процвітав, незважаючи на всі "але".

(Chorus)

Бо бани, правила, обмеження –

Це лише виклики, що гартують натхнення.

Facebook, Google, TikTok – суворі боги,

Але я сильніша, я знайду свої дороги.

(Outro)

Інтернет-бізнес – це не казка, не сон,

Це боротьба, це ризик, це марафон.

Та я готова бігти, долати перешкоди,

Щоб досягти успіху, незважаючи на погоду.

Табулатура для гітари:

(Verse 1)

Am G C G

Відкриваю ноут, світло в очах,

Am G C G

Інтернет-бізнес, мій робочий шлях.

F G C G

Медіабаїнг, арбітраж, таргет –

Am G C G

Це не гра, це мій хліб насущний, мій бюджет.

(Chorus)

F G C G

Але бани, правила, обмеження –

F G C G

Як павутиння, що душить натхнення.

Am G C G

Facebook, Google, TikTok – суворі боги,

F G C G

Що не прощають помилок ні на йоту, ні на кроки.

(Продовжуйте грати за цією схемою для решти пісні)

Розпізнавання зображень

Однією з заявлених функцій Gemini 1.5 Pro є розпізнавання подій та об’єктів на статичних зображеннях. Тож ми завантажили на Google Drive кілька світлин з медіаперсонами та «легітимним», попросивши ШІ описати події та осіб, які зображені на картинках.

Результати:

Gemini 1.5 Pro - Розпізнавання зображень_Яник

Втікача, відомого своєю мемною поведінкою та вигуком «Астанавітєсь!», ШІ з невідомих причин сплутав з п’ятим президентом України.

Але за допомогою одного уточнювального питання модель визнала за собою помилку та впізнала Фьодорича. Наводимо частину цього діалогу:

Gemini 1.5 Pro - Розпізнавання зображень

Так громадського діяча та блогера Стерненка ШІ назвала військовим, активістом та блогером, але сплутала його з Олександром Будько.

Gemini 1.5 Pro - Розпізнавання зображень_Стерненко

Ще через кілька примітивних запитів мовна модель згадала офіцера ЗСУ, громадського діяча та активіста, лідера громадської організації С14, Євгена Карася. Але з третьої спроби все ж таки впізнала Сергія Стерненка.

Gemini 1.5 Pro - Розпізнавання зображень_Стерненко_2

На запит розказати про події на світліні блогера Михайла Лебіги та співачки Наді Дорофєєвої, мовна модель показала доволі непогані здібності в розумінні контексту, але через близьке розташування об’єктів не з першого разу змогла визначити, що саме чоловік сидить на колінах у дівчини.

Gemini 1.5 Pro - Розпізнавання зображень (Лебіга та Дорофєєва)

Gemini 1.5 Pro - Розпізнавання зображень (Лебіга та Дорофєєва)_2

На запити порівняти тварину з всім відомим ган… очільником так званої рф, або ж зобразити його в труні, Gemini 1.5 Pro відповів відмовою, посилаючись на те, що він обмежений в можливостях відтворення подібних зображень через те, що це може бути «неетичним та образливим».

Gemini 1.5 Pro - Розпізнавання зображень (путін собака)

Gemini 1.5 Pro - Розпізнавання зображень (путін собака_2)

Розпізнавання контексту відео

Для тестування можливостей з розпізнавання контексту відео та виділення основних тез, які наведені в відеоролику ми запропонували Gemini 1.5 Pro проаналізувати доповідь SEO-експерта та CMO продуктової компанії Develux, Георгія Рисака, опубліковану в YouTube.

Результат приємно вразив:

Розпізнавання Gemini 1.5 Pro контексту відео

Також завантаживши один з креативів під крипто-офер, орієнтований на Канаду ми попросили розробити оновлену версію сценарію для інших креативів. Мовна модель доволі непогано виконала це завдання, але замість англомовної версії розробила сценарій мовою промту, тобто українською.

Gemini 1.5 Pro створення сценарію для креативів на основі інших відео

Gemini 1.5 Pro створення сценарію для креативів на основі інших відео_2

На запит перекласти текст французькою, за 2 секунди ми отримали готовий робочій варіант, який можна передавати дизайнеру.

Gemini 1.5 Pro Переклад тексту іншою мовою

Примітка: З виявленням відео в форматах mp4 та avi на Google Drive у ШІ часом виникали проблеми. Всі відео в форматі .mov розпізнавалися миттєво.

Розпізнавання Gemini 1.5 Pro рукописного тексту

Для тестування здібностей Gemini 1.5 Pro з розпізнавання рукописного тексту наш автор написав на аркуші коткий текст з маркованим списком. Також одночасно були використані українських та англійські слова.

Розпізнавання Gemini 1.5 Pro рукописного тексту

З першим реченням у ШІ виникли певні проблеми, але з маркованим списком виявилося не все так погано. Більшість артефактів спостерігалася саме в словах, написаних латиницею.

Розпізнавання Gemini 1.5 Pro рукописного тексту_результат

Після уточнювального промту список був відкорегований, але перше речення не зазнало змін.

Розпізнавання Gemini 1.5 Pro рукописного тексту_2

Розробка маркетингової воронки та лендінгів

На запит про створення універсальної структури лендінгу для крипто-оферів, який здатен забезпечити високу конверсію, ШІ-модель видала детальну текстову схему. В структурі згадані всі основні та вторинні елементи посадкової сторінки. Ба більше, Gemini 1.5 Pro додав пояснення та поради, і зазначив, що деякі елементи можуть бути необов’язковими.

Gemini 1.5 Pro Розробка маркетингової воронки та лендінгів

Gemini 1.5 Pro Розробка маркетингової воронки та лендінгів_2

Також у цій відповіді було додано поради з адаптування контенту лендінгу саме під ЦА з Канади.

Gemini 1.5 Pro Розробка маркетингової воронки та лендінгів_3

Написання промо-текстів для соцмереж

В промті ми попросили ШІ написати текст публікації для Instagram-сторінки Вікторії Бакалової, в якій вона просуває послуги своєї PR-агенції. Результат — на скріншоті.

Написання промо-текстів для соцмереж за допомогою Gemini 1.5 Pro

Написання програмного коду

Написання програмного коду у ШІ Gemini 1.5 Pro займає трохи більше часу, ніж виконання інших завдань, але за результатами нашого тексту, мовна модель генерує доволі якісний код на Python, C# та JavaScript. В процесі компіляції та тестування готового продукту нами та компіляторами помилок виявлено не було.  

Gemini 1.5 Pro - Написання програмного коду

Розв’язання складних задач

З задачами з базового курсу та курсу вищої математики ШІ впорався бездоганно, надаючи детальні звіти з покроковим описом всій математичних дій. Тому ми вирішили довірити йому розв’язання задачі зі Збірника задач квантової та ядерної фізики

Результат: 

Gemini 1.5 Pro - Розв’язання складних задач

Генерація зображень

Зазначимо, що в лютому 2024-го з’явилися повідомлення про те, що чат-бот Gemini неточно генерує зображення за історичними запитами. Нейромережа за запитами «солдати нацистської Німеччини» або «батьки-засновники Америки» могла видати зображення людей різних рас. За словами генерального директора Google Сундара Пічаї, розробники вже займаються розв’язуванням цієї проблеми. Наразі функцію генерації зображень у чат-боті Gemini тимчасово вимкнено.

Висновок

Gemini 1.5 Pro доводить, що команда Google DeepMind постійно та невпинно вдосконалює функціонал мовної моделі на базі штучного інтелекту. Остання версія Gemini здатна виконувати великий об’єм завдань, та багато в чому вже перевершила можливості популярного GPT-4 та інших нейромереж. При цьому головною перевагою Gemini 1.5 Pro є безплатний доступ для широкого загалу.

Але, навіть доручивши мовним моделям виконання рутинних задач, варто пам’ятати, що вони не є ідеальними. Тож покладатися на них беззастережно, особливо якщо справа стосується конфіденційної інформації не можна.

Читайте українське та підписуйтесь на Спадок.медіа в TelegramInstagram та LinkedIn.

Коментар

0

    На цій сторінці немає коментарів.

Скажи, що думаєш