Miért problémás az MI rendszerek és a szakorvosok teljesítményének összehasonlítása a megjelent publikációkban?

A Stanford egyetem kutatói 2017-ben “A bőrrákok bőrgyógyász szintű osztályozása mély neurális hálózatokkal” címmel publikálták az aktuális kutatási eredményeiket a Nature magazinban. 2021 áprilisában, az MIT által fejlesztett rendszer 90,3% szenzitivitást ért el a gyanús pigmentált elváltozások (SPLs - suspicious pigmented lesions) és a nem gyanús elváltozások, bőr, és összetett hátterek megkülönböztetésében. Ráadásul mindezt mobiltelefonos képek felhasználásával.

Azonban a cikkek publikálása óta nem lettek elérhetők azok az alkalmazások, melyek a cikkekben leírt mesterséges intelligenciát használták volna. Ennek számtalan ismeretlen oka lehet, a következőkben inkább azokkal a szempontokkal foglalkozunk, amik magukból a cikkekből is kiderülnek.

Az első szempont a bőrgyógyászok és a MI (mesterséges intelligencia) teljesítményének összehasonlítása. A Stanford kutatói képeket mutattak az MI-nek és a bőrgyógyászoknak, akik bekategorizálták a képeket a rajtuk látható léziók alapján, majd a kutatók kiszámolták a megfelelő teljesítmény mutatókat (pl. a pontosságát - accuracy) tudván, hogy valójában mi van a képen. Ez alapján az MI pontossága meghaladta a bőrgyógyászok szintjét.

Mi ezzel a gond, kérdezhetnénk. Először is, a bőrgyógyászok nem így dolgoznak, nem fotókat nézegetnek, hanem az előttük álló embert, ráadásul nem csupán szabad szemmel, hanem (a gyanúsabb elváltozásokat) a dermoszkópjukkal is. Emellett még a kórtörténetet, és ezer más szempontot is figyelembe vesznek. Tehát maga a mérés nem igazán életszerű, márpedig ha a valós életben szeretnénk használni egy MI alapú rendszert, akkor valós körülmények között kellene megmérni és összevetni a teljesítményét a bőrgyógyászokéval.

Továbbá: mit is tudunk a tesztelésnél használt képekről? Jóformán semmit. Márpedig, ha szélsőséges esetben a teszthalmazunk mondjuk 1000 melanoma képből áll, mely esetek egy része joggal megtévesztheti a bőrgyógyászokat (mondjuk a fele lehet akár valamilyen egyéb jóindulatú festéksejtes elváltozás), és ha az MI-nk úgy van programozva, hogy minden esetre fixen azt mondja, hogy az melanoma, akkor már kész is a 100%-os pontosságú MI, ami, feltéve ha az orvosok akár csak egyszer is rosszul diagosztizálnak, jobb lesz, mint maguk a szakorvosok. A cikkekben szereplő teszthalmazok nyilván közelről sem ilyenek, az viszont igaz, hogy a teszthalmaz alapvetően befolyásolja, mit is mérünk ki a végén az MI és az orvosok teljesítménye kapcsán.

Az MIT cikk mobiltelefonokkal készült képekre hivatkozik. Mindannyian láttunk már jobb és rosszabb minőségű, mobiltelefonnal készült képeket, és joggal merülhet fel a kérdés, hogy amikor a gyakorlatban akarjuk az adott MI rendszert használni, az hogy fog megbirkózni a valódi felhasználók képeivel, akkor is fogja-e hozni a 90,3% szenzitivitást és 89.9% specificitást.

Együttműködés a Semmelweis Egyetemmel: csak a való élet számít

A Semmelweis Egyetem Bőr-, Nemikórtani és Bőronkológiai Klinikájával 2018 elején kezdtük el az együttműködésünket. A célunk egy olyan, MI-vel támogatott rendszer kifejlesztése volt, amelynek használatával kevesebb súlyos esettel kell a jövőben foglalkozni a klinikán, illetve remélhetőleg kevesebb felesleges műtétet végeznek majd el. A rendszer mobil alkalmazásokból és egy, a klinikán készült képeket kezelő webes szolgáltatásból áll.

A jövőbeni posztokban az általunk kifejlesztett rendszer és a klinikán dolgozó szakorvosok diagnosztikai pontosságának mérését és összehasonlítását mutatjuk be. Az itt közölt eredmények előzetes jellegűek, az egyes esetek részletes, szakorvosi elemzéseket igényelnek a jövőben, melyekkel a méréseket kiegészítve egy közös cikkben fogjuk publikálni az eredményeinket.

A mérések alapját a 2020 szeptember 1 és december 31 közötti valós klinikai esetek alkotják, azaz felvettük az ebben az időszakban a normál protokoll szerinti klinikai diagnózisokat, majd összehasonlítottuk az MI teljesítményével, ahol az MI az elváltozásokról készült képek alapján dolgozott. Az orvosok nem tudtak az MI által meghatározott bőrelváltozás osztályokról, az MI futtatását egy nem szakorvos klinikai dolgozó váltotta ki azzal, hogy feltöltötte a képeket az általunk fejlesztett rendszerbe, a klinikai diagnózisokat a bőrgyógyászok MI-től függetlenül hozták meg.

A következő posztban részletesebb leírást adunk a mérés körülményeiről, illetve magas szinten bemutatjuk az általunk fejlesztett MI architektúráját.