Przejdź do głównej sekcji

Co to jest, czyli seria pytań do AI z poziomu aplikacji mobilnej cz.1

Po jednym z obiadów postanowiłem sprawdzić 3 liderów branży AI i ich apki mobilne pod kątem rozpoznawania obrazu. Wszystkie 3 modele miały za zadanie odgadnąć na co patrzę. Testowym obiektem był garnek z resztką kaszy po obiedzie. Dodatkowo na garnku leżała szklana przykrywka. Co dodatkowo utrudniło zadanie.

Coopilot od MS

Coopilot od MS

Gemini Pro od Google

Gemini Pro od Google

ChatGPT od OpenAI

ChatGPT od OpenAI

Wnioski jakie nasuwają się same.

  • Coopilot pogubił się całkowicie. Jest to o tyle dziwne, że korzysta on z modelu GPT4 i DALL-E 3. Nie odgadł ani dania ani naczynia poprawnie.
  • Gemini Pro, wypadł nieco lepiej. Odgadnął poprawnie naczynie (garnek ) dodatkowo na kuchence 😉 natomiast nie poradził sobie z daniem w garnku.
  • ChatGPT, jako lider poradził sobie bez większego problemu, no może poza rozmiarem garnka, gdyż nazwał go garnuszkiem 😉 Natomiast poprawnie rozpoznał kaszę, dodał również że jest przypalona. Co akurat nie jest prawdą, zmylił go cień w prawej części garnka. Co i tak pokazuje ciekawy sposób myślenia o kompozycji na zdjęciu.