Blog

Najstarszyblog o sztucznej inteligencji w Czechach

O sztucznej inteligencji piszemy od 2017 roku. 1000+ artykułów, tysiące stron przemyśleń, eksperymentów i refleksji. Bez szumu i reklam.

Rok:Wszystko 2026 25 2025 101 2024 83 2023 122 2022 110 2021 136 2020 124 2019 165 2018 105 2017 55

Źródło:Wszystko 1026 Blog 544 Facebook 445 LinkedIn 23

Kategoria:Edukacja 349 Modele językowe 178 Widzenie komputerowe i obraz 170 Media i wywiady 136 Wykłady i wydarzenia 135 Etyka i filozofia 124 Praktyczne zastosowania i biznes 116 Społeczeństwo i przyszłość AI 103 Uczenie się przez wzmacnianie i robotyka 73 Narzędzia i frameworki 60

Filtr tagów: GPT-5.5 × anuluj

▸Przeglądaj według tematu

Wyświetlono 2 z 2 artykułów

29 kwietnia 20264 min

Jedno pytanie kontra dziesięć dużych testów porównawczych: jak dobrze wypadł mini test IQ?

Kilka dni temu zadałem najnowszym modelom sztucznej inteligencji tylko jedno pytanie – nie był to punkt odniesienia, ani tablica wyników, tylko pojedyncza pułapka intelektualna. Po kilku dniach przychodzi czas na porównanie wyniku z dużymi publicznymi benchmarkami, które pojawiły się w międzyczasie. Prowadzi GPT-5.5, tuż za nim Claude Opus 4.7, największym odchyleniem jest Gemini 3.1 Pro, najniższym DeepSeek V4 Pro. Pytanie, które warto zadać każdemu modelowi – zanim zaczniesz mu ufać.

Czytaj

24 kwietnia 20263 min

Jedno pytanie zamiast dziesięciu benchmarków: mini test IQ dla najnowszych modeli AI

Wziąłem najnowsze najlepsze modele sztucznej inteligencji i zamiast niekończących się testów porównawczych zadałem im jedno „genialne” pytanie: odkryj ukrytą regułę, oblicz nowy przypadek, przyznaj się do niejednoznaczności, zaprojektuj test fałszowania i przeanalizuj własne rozwiązanie. Wynik? Dzisiejszy szczyt mieści się mniej więcej w przedziale 120–135+ IQ – ale różnica nie polega już na tym, co wiedzą modele, ale na tym, jak wyraźnie potrafią myśleć pod presją.

Czytaj

Tematy

Jedno pytanie kontra dziesięć dużych testów porównawczych: jak dobrze wypadł mini test IQ?

Jedno pytanie zamiast dziesięciu benchmarków: mini test IQ dla najnowszych modeli AI