Co to jest, czyli seria pytań do AI z poziomu aplikacji mobilnej cz.1
Po jednym z obiadów postanowiłem sprawdzić 3 liderów branży AI i ich apki mobilne pod kątem rozpoznawania obrazu. Wszystkie 3 modele miały za zadanie odgadnąć na co patrzę. Testowym obiektem był garnek z resztką kaszy po obiedzie. Dodatkowo na garnku leżała szklana przykrywka. Co dodatkowo utrudniło zadanie.
Coopilot od MS
Gemini Pro od Google
ChatGPT od OpenAI
Wnioski jakie nasuwają się same.
- Coopilot pogubił się całkowicie. Jest to o tyle dziwne, że korzysta on z modelu GPT4 i DALL-E 3. Nie odgadł ani dania ani naczynia poprawnie.
- Gemini Pro, wypadł nieco lepiej. Odgadnął poprawnie naczynie (garnek ) dodatkowo na kuchence 😉 natomiast nie poradził sobie z daniem w garnku.
- ChatGPT, jako lider poradził sobie bez większego problemu, no może poza rozmiarem garnka, gdyż nazwał go garnuszkiem 😉 Natomiast poprawnie rozpoznał kaszę, dodał również że jest przypalona. Co akurat nie jest prawdą, zmylił go cień w prawej części garnka. Co i tak pokazuje ciekawy sposób myślenia o kompozycji na zdjęciu.