Co to jest, czyli seria pytań do AI z poziomu aplikacji mobilnej cz.1
Po jednym z obiadów postanowiłem sprawdzić 3 liderów branży AI i ich apki mobilne pod kątem rozpoznawania obrazu. Wszystkie 3 modele miały za zadanie odgadnąć na co patrzę. Testowym obiektem był garnek z resztką kaszy po obiedzie. Dodatkowo na garnku leżała szklana przykrywka. Co dodatkowo utrudniło zadanie.
Coopilot od MS
![Coopilot od MS](https://mastafu.info/wp-content/uploads/2024/03/Screenshot_20240314_214711_Copilot-461x1024.jpg)
Gemini Pro od Google
![Gemini Pro od Google](https://mastafu.info/wp-content/uploads/2024/03/Screenshot_20240314_214656_Google-461x1024.jpg)
ChatGPT od OpenAI
![ChatGPT od OpenAI](https://mastafu.info/wp-content/uploads/2024/03/Screenshot_20240314_214641_ChatGPT-461x1024.jpg)
Wnioski jakie nasuwają się same.
- Coopilot pogubił się całkowicie. Jest to o tyle dziwne, że korzysta on z modelu GPT4 i DALL-E 3. Nie odgadł ani dania ani naczynia poprawnie.
- Gemini Pro, wypadł nieco lepiej. Odgadnął poprawnie naczynie (garnek ) dodatkowo na kuchence 😉 natomiast nie poradził sobie z daniem w garnku.
- ChatGPT, jako lider poradził sobie bez większego problemu, no może poza rozmiarem garnka, gdyż nazwał go garnuszkiem 😉 Natomiast poprawnie rozpoznał kaszę, dodał również że jest przypalona. Co akurat nie jest prawdą, zmylił go cień w prawej części garnka. Co i tak pokazuje ciekawy sposób myślenia o kompozycji na zdjęciu.