Az emdee.ai dermoszkópos MI rendszerének teljesítménye – Harmadik rész

Sorozatunk első részében bemutattuk az MI rendszerek teljesítményértékelésének kihívásait, majd a második részben ismertettük az általunk követett mérési módszertant és az általunk fejlesztett MI felépítését. Ebben a részben bemutatjuk az MI teljesítményét célzó előzetes mérési eredményeket, és összehasonlítjuk azokat a klinikai szakorvosok diagnosztikus pontosságával.

A véges mérési eredményeket a szakorvosokkal együtt publikáljuk a jövőben, a szakorvosi elemzés eredményeként a most közölt számok még módosulhatnak.

Az esetek diagnózisának származtatása a képekből

Ahogy az előző részben is láthattuk, az MI egyedi képeken dolgozik, azonban diagnózist a bőrelváltozásokról kell felállítani, és egy bőrelváltozásról több fotó is készülhet. Tehát a bőrelváltozások diagnózisát a róla készült képek AI által meghatározott kategóriáiból származtatjuk.

Az alábbi képről esetre való származtatási stratégiákat valósítottuk meg:

Átlagolás: Az esethez tartozó képek MI által visszaadott eredményvektorait átlagoljuk, az esetdiagnózis a legmagasabb értékű vektorelemhez tartozó bőrelváltozás-osztály.
Maximum: Minden kép külön-külön besorolásra kerül az MI kimenete alapján, és a legmagasabb valószínűségi értékkel rendelkező bőrelváltozás osztály kerül lesz magának a bőrelváltozásnak az osztálya.
Halmaz: Összegyűjtjük a fotókról készült MI bőrelváltozás osztályokat, és ha a kórszövettani vizsgálat eredménye az MI kimenetek között szerepel, akkor úgy ítéljük meg, hogy az MI helyesen diagnosztizálta az elváltozást. Jegyezzük meg, hogy ez a stratégia eleve jobb pontosságot eredményez mint az előző kettő, mivel az értékelés eredménye egynél több elváltozásosztályt is tartalmazhat. Ezért ezzel a stratégiával valójában az a célunk, hogy megismerjük a jelenlegi MI maximális pontosságát.

A következő részben ezeknek a megközelítéseknek a pontosságát hasonlítjuk össze a klinikusok pontosságával.

Kísérleti eredmények

94 beteg elváltozásait részben dermoszkóppal fényképeztük le. A dermoszkópos felvételekkel rendelkező betegek száma 36 volt, a diagnózissal és dermoszkópos fotókkal ellátott esetek száma 48 (azaz egyes betegeknél több elváltozást távolítottak el és vizsgáltak ki), a dermoszkópos fényképek száma ezekben az esetekben 158. A szövettani vizsgálatok 17 különböző bőrelváltozás típust azonosítottak a vizsgált 48 esetnél, az MI azonban csak 16-ot képes azonosítani. Az MI által ismeretlen bőrelváltozás típus, amelyet azonban a maga szövettani vizsgálat azonosított, a „keratoderma máshová sorolt betegségekben” (BNO kód: L86).

A klinikai bőrgyógyászok az esetek 68,76%-ában helyesen diagnosztizáltak.

A mesterséges intelligencia pontossága az Átlagolás aggregációs stratégia használatával szintén 68,76%.

A Maximum aggregációs stratégiát használó mesterséges intelligencia pontossága szintén 68,76%.

Az AI pontossága a Halmaz aggregációs stratégia használatával 75%.

A bőrgyógyászok és a mesterséges intelligencia zavartsági mátrixainak (confusion matrix) összehasonlítása az átlagolás aggregációs stratégia kimenetével (balra: bőrgyógyászok, jobbra: MI):

B07 - Vírusos szemölcsök, BCC - Basalioma, C43 - Rosszindulatú melanoma, C44 - A bőr egyéb rosszindulatú daganata, D03 - Melanoma in situ, D04 - A bőr in situ rákja, D18 - Haemangioma és lymphangioma, D22 - Festéksejtes anyajegyek, D23 - A bőr egyéb jóindulatú daganata, L30 - Egyéb dermatitisek, L57 - Tartós, nem ionizáló sugárzás okozta bőrelváltozások, L72 - A bőr és bőralatti szövet folliculáris cystái, L82 - Seborrhoeás keratosis, L85 - Egyéb epidermális megvastagodások, L87 - Transepidermális eliminációs rendellenességek, L98 - A bőr és bőralatti szövet egyéb, m.n.o. rendellenességei, L86 - Keratoderma máshova osztályozott betegségekben

Noha az átlagolás stratégiát követve a mesterséges intelligencia és a klinikusok pontossága megegyezik, a bőrgyógyászok 3-al több rosszindulatú melanoma és 2-vel több nevus esetet diagnosztizáltak helyesen az MI-hez képest, azonban az MI 5-tel több basalioma esetet azonosított, mint a bőrgyógyászok.

Konklúziók

Előzetes eredményeink szerint ha Átlagolás vagy Maximum aggregációs stratégiát követünk, a dermoszkópos AI rendszerünk egyenrangú a klinikusokkal. Ezenkívül az esetek 75%-ában vannak olyan fényképek, amelyeket az MI megfelelően osztályozott, így az AI-kimenetek képenkénti figyelembevételével a klinikusok javíthatják diagnosztikai pontosságukat.

Végül eredményeink azt is jelzik, hogy a mesterséges intelligencia eset-pontossága tovább javítható a bőrelváltozásokról megfelelő dermoszkópos fotók készítésével.

Megjegyzés: A most közölt előzetes, nem hivatalos eredményeket megfelelő elemzés után a klinikai dolgozókkal együtt tervezzük publikálni a későbbiekben. A publikált eredmények lesznek hivatalosnak és pontosnak tekinthetők, és akár különbözhetnek is a jelent posztban ismertetett számoktól.