Ziekte van Parkinson

Initiatief: NVNG Aantal modules: 58

18F-FDG PET of 123I-IBZM SPECT bij Parkinson

Uitgangsvraag

Welke plaats hebben een 18F-FDG PET en 123I-IBZM SPECT scan in de differentiaaldiagnose van de ziekte van Parkinson (ZvP) en atypisch parkinsonisme?

Aanbeveling

Overweeg bij patiënten met klinische aanwijzingen voor een atypisch parkinsonisme, bij wie op basis van een MRI hersenen en/of 123I-FP-CIT SPECT scan nog geen diagnose kan worden gesteld, aanvullend nucleair geneeskundig onderzoek, bij voorkeur na doorverwijzing naar en klinische beoordeling in een expertisecentrum op het gebied van neurologische bewegingsstoornissen (zie het stroomschema ‘beeldvorming’ bij de aanverwante producten).

 

Geef een sterke voorkeur aan een 18F-FDG PET scan van de hersenen boven een 123I-IBZM SPECT scan.

 

Laat een 18F-FDG PET scan van de hersenen (mede)beoordelen door een nucleair geneeskundige met ervaring in de beeldvormende diagnostiek bij parkinsonismen.

Overwegingen

In totaal onderzochten zes studies de diagnostische accuratesse van de 18F-FDG PET scan en vijf studies de diagnostische accuratesse van de 123I-IBZM SPECT scan in de differentiaal diagnose bij patiënten met parkinsonisme. De uitkomstmaat van beide scans was de accuratesse ten aanzien van onderscheid tussen de ZvP en atypische parkinsonismen, waarbij middels 123I-IBZM SPECT geen onderscheid gemaakt kan worden tussen de verschillende atypische parkinsonismen onderling (MSA, PSP, CBD en DLB) en bij 18F-FDG PET scans daarentegen wel onderscheid tussen deze ziektebeelden gemaakt kan worden. De kwaliteit van de bewijskracht werd als laag tot zeer laag beoordeeld vanwege beperkingen in de studie opzet (mogelijke bias in referentietest) en de beperkte studieomvang (mogelijke imprecisie van de effectschatters). Tevens werd vanwege gebrek aan vergelijkend onderzoek van de 18F-FDG PET en 123I-IBZM SPECT scan (direct bewijs) de testaccuratesse als proxy gebruikt (indirect bewijs) om de diagnostische waarde van de individuele scantechnieken te vergelijken.

 

Een hoge specificiteit is hierbij van belang, waarbij een lagere sensitiviteit wordt geaccepteerd. Een lagere sensitiviteit kan tot gevolg hebben, dat bij patiënten atypisch parkinsonisme wordt gemist en dat zij ten onrechte zullen worden behandeld als zijnde patiënten met de ZvP. In dat geval wordt de patiënt echter geen behandeling onthouden, aangezien er tot nu toe geen specifieke therapeutische mogelijkheden bestaan voor atypisch parkinsonisme. De patiënt zal in dat geval worden behandeld met de standaard parkinson-medicatie, waarbij dient te worden opgemerkt dat circa 30 tot 40% van de patiënten met atypisch parkinsonisme (tijdelijk) gunstig zal reageren op levodopa. Daarentegen zou een lagere specificiteit resulteren in een hoger aantal patiënten met de ZvP die ten onrechte worden gediagnosticeerd met atypisch parkinsonisme. Atypisch parkinsonisme heeft echter een slechtere prognose dan de ZvP. Derhalve wordt de voorkeur gegeven aan een lagere sensitiviteit boven een lagere specificiteit (Tabel 1).

 

Tabel 1. Patiënt relevante consequenties diagnostiek

Uitkomstmaat

Gevolgen

Voor de patiënt relevante consequenties (gebaseerd op gevolgen)

TP

Pt terecht gediagnosticeerd met APD

Gevolg = starten behandeling

Proefbehandeling met levodopa vanwege ongeveer 30 tot 40% kans op respons; echter slechtere prognose en effect medicatie minder sterk en vaak tijdelijk

TN

Pt terecht niet gediagnosticeerd met APD

Gevolg =Pt blijft diagnose ZvP houden en wordt als dusdanig behandeld

Starten/continueren parkinsonmedicatie

 

FP

Pt onterecht gediagnosticeerd met APD

 

Gevolg = uitgestelde diagnose

Wel starten met levodopa, dus behandeling wordt niet gemist; krijgt echter ten onrechte slechtere prognose voorgeschoteld

 

FN

Pt onterecht niet gediagnosticeerd met APD

 

Gevolg =Pt blijft diagnose ZvP houden en wordt als dusdanig behandeld

Patiënt wordt behandeld met antiparkinsonmedicatie; wordt geen specifieke therapie onthouden; zal deze therapie ook krijgen als wel was gediagnosticeerd als atypisch parkinsonisme

Niet eenduidig te interpreteren testuitslag

Vervolgonderzoek en uitgestelde diagnose?

Heroverwegen klinische diagnose na enige tijd en eventueel onderzoek herhalen

 

De 123I-IBZM SPECT scan heeft een zeer variabele sensitiviteit, variërend van 53% (Sudmeyer, 2011) tot 91% (Vlaar, 2007, Schwarz, 1998) en een eveneens sterk variabele specificiteit variërend van 57% (Pifarre, 2010) tot 94% (Sudmeyer, 2011). Deze variatie in sensitiviteit en specificiteit kan wellicht worden verklaard door verschil in apparatuur, acquisitieprotocol en methodes om de tracerbinding te beoordelen. Beoordeling vond grotendeels plaats middels (semi)kwantitatieve analyse. Slechts één studie rapporteert de resultaten van visuele beoordeling waarbij de sensitiviteit en specificiteit matig waren (respectievelijk 68% en 57%) (Pifarre, 2010). De overige studies maken gebruik van (semi)kwantitatieve analyses, waarbij in het merendeel van de studies de sensitiviteit en specificiteit stijgen naar 80% tot 91%, respectievelijk 71% tot 94%. Alleen Sudmeyer (2011) rapporteert een lagere sensitiviteit van 53% bij semikwantitatieve analyse.

 

De 18F-FDG PET scan heeft een matig hoge sensitiviteit variërend van 76% tot 100% en een specificiteit van 83% tot 100%, waarbij geen grote verschillen werden gevonden in sensitiviteit en specificiteit tussen visuele evaluatie enerzijds en kwantitatieve analyses anderzijds. Hierbij dient te worden opgemerkt dat in deze studies de visuele beoordeling is verricht door zogenaamde expert readers, die zeer ervaren zijn in het beoordelen van 18F-FDG PET scans van de hersenen. Het is niet uit te sluiten dat deze accuratesse in de dagelijkse praktijk met minder ervaren beoordelaars lager uit zal vallen.

Uit de studie van Tang (2010) blijkt overigens dat de diagnostische accuratesse lager is bij patiënten met een kortere ziekteduur. Deze subgroep bevat mogelijk ook patiënten waarbij de klinische diagnose, die tijdens de studie werd gesteld, na verloop van tijd toch niet juist bleek te zijn.

 

Uit de geïncludeerde studies blijkt de sensitiviteit en specificiteit van 18F-FDG PET beter te zijn dan die van 123I-IBZM SPECT (op basis van indirecte vergelijking).

In één studie, welke vanwege te korte follow-up duur niet aan onze inclusie criteria (PICO) voldeed (Hellwig, 2012), werd een directe vergelijking gemaakt tussen 123I-IBZM SPECT scans en 18F-FDG PET scans in 95 patiënten met een klinische verdenking op atypisch parkinsonisme. De Area Under the Curve (AUC) in de ROC curve voor onderscheid tussen atypisch parkinsonisme en Lewy Body Disease (meerderheid ZvP) was 0,94 voor 18F-FDG PET scans en 0,74 voor 123I-IBZM SPECT scans. Hierbij was de sensitiviteit en specificiteit van de 123I-IBZM SPECT scans respectievelijk 25,0% en 91,2%, terwijl voor de 18F-FDG PET scan de sensitiviteit voor MSA, PSP en CBD respectievelijk 76,9%, 73,9% en 75,0% was en de specificiteit respectievelijk 96,9%, 95,2% en 91,7%. Deze studie ondersteunt de waargenomen hogere accuratesse van de 18F-FDG PET scan zoals beschreven in de literatuuranalyse. In deze studie werd geconcludeerd dat een 18F-FDG PET scan superieur is ten opzichte van een 123I-IBZM SPECT scan in de differentiaal diagnostiek van parkinsonisme.

 

Zowel 123I-IBZM SPECT scans als 18F-FDG PET scans kunnen visueel en ook semi-kwantitatief worden beoordeeld. Bij de visuele beoordeling van 123I-IBZM SPECT scans wordt de opname van 123I-IBZM in het striatum in relatie tot de opname in een referentiegebied beoordeeld als zijnde normaal of afwijkend. Semikwantitatieve beoordeling van 123I-IBZM SPECT scans wordt veelal gedaan met behulp van een template met ROI’s en ratiobepaling. Dit is relatief eenvoudig uitvoerbaar. In de meerderheid van de geïncludeerde studies en ook in de dagelijkse praktijk werd voor de semi-kwantitatieve analyse gebruik gemaakt van een standaard template met ROI’s voor het striatum en de onderdelen hiervan (putamen en nucleus caudatus) en een referentieregio (frontale cortex, occipitale cortex, etc.). Het wordt ten sterkste aangeraden om hierbij de beschikking te hebben over een database (bij voorkeur gematched op leeftijd) met eigen normaalwaarden en afkapwaarden, verkregen met hetzelfde type camera en op dezelfde wijze bewerkte beelden (reconstructie, filtering, attenuatie correctie) (Van Laere, 2010).

 

Voor visuele analyse van 18F-FDG PET scans van de hersenen wordt gebruik gemaakt van patroonherkenning, waarbij de mate van activiteit in striatum, thalamus, cerebellum en corticale gebieden met elkaar wordt vergeleken (Eckert, 2005; Dhawan en Eidelberg, 2003; Tripathi 2013). Voor de visuele beoordeling is kennis nodig van normale opnamepatronen van 18F-FDG en de variatie hierin, evenals de specifieke 18F-FDG opnamepatronen van de verschillende ziektebeelden, bij voorkeur verkregen onder dezelfde omstandigheden op dezelfde of vergelijkbare camera met op dezelfde wijze bewerkte beelden (reconstructie, filtering en attenuatie correcties) (Varrone, 2009). Hierdoor is het mogelijk om de normale variatie van het 18F-FDG opname-patroon in de beoordeling te betrekken en de diagnostische accuratesse te verbeteren. Visuele beoordeling van 18F-FDG PET scans van de hersenen kan derhalve lastig zijn. Geadviseerd wordt dan ook de beoordeling (mede) te laten verrichten door nucleair geneeskundigen met voldoende ervaring en affiniteit op dit gebied. Indien in een centrum deze expertise niet aanwezig is, is het raadzaam om de scans (mede) te laten beoordelen door expert readers van andere centra. Ter ondersteuning van visuele beoordeling van 18F-FDG PET scans kan ook gebruik worden gemaakt van geautomatiseerde beoordeling inclusief vergelijking met een normale database (Tripathi, 2013; Eckert, 2005). Stereotactische normalisatie en voxel-based analyses, zoals 3D stereotactic surface projection (3D-SSP) of statistische analyse middels bijvoorbeeld Statistical Parametric Mapping (SPM) kunnen worden toegepast. Hiervoor zijn meerdere commerciële pakketten beschikbaar. De voorkeur gaat uit naar de mogelijkheid om de patiënt voor de 18F-FDG PET scan van de hersenen door te verwijzen naar een centrum waar deze expertise aanwezig is.

Het 18F-FDG-opnamepatroon in de hersenen kan niet alleen helpen om te differentiëren tussen ZvP en atypisch parkinsonisme, maar kan ook worden gebruikt om DLB te onderscheiden van de ziekte van Alzheimer (Nestor, 2018). Ook hiervoor geldt dat beide ziektes verschillende 18F-FDG opnamepatronen hebben.

 

Een 123I-IBZM SPECT scan kan in de meeste instituten met een afdeling nucleaire geneeskunde worden verricht, en 18F-FDG PET scans alleen in centra waar een PET camera staat. Waren ca. 20 jaar geleden nog slechts een handvol PET camera’s in Nederland aanwezig, tegenwoordig is het aantal PET(-CT) camera’s flink gestegen en is een PET camera in een groot aantal ziekenhuizen en/of op relatief korte reisafstand aanwezig. Derhalve zal in de dagelijkse praktijk de beschikbaarheid van een PET camera in de omgeving en binnen acceptabele reisafstand in de overgrote meerderheid van de gevallen niet een belangrijk issue zijn in de besluitvorming welke scan de voorkeur heeft.

 

Er is geen onderzoek verricht naar de patiëntvoorkeuren ten aanzien van 18F-FDG PET en 123I-IBZM SPECT. Tussen de twee methodes bestaan verschillen in patiënt voorbereiding en uitvoering, die van invloed zouden kunnen zijn op de voorkeuren van patiënten, zoals bijvoorbeeld staken van medicatie die de opname van het radiofarmacon kan beïnvloeden, vasten, wachttijd tussen toediening en scan en ligduur.

 

Medicatie

Voorafgaand aan 123I-IBZM SPECT scans dienen dopamine-agonisten, maar niet levodopa te worden gestaakt, evenals neuroleptica en andere medicatie die de opname kan beïnvloeden (bijvoorbeeld metoclopramide, cinnarizine, flunarizine, amfetamine, methylfenidaat, etc.) (Schwarz, 1996). Over het staken van dopaminerge medicatie voorafgaand aan een 18F-FDG PET scan van de hersenen bestaat nog geen eenduidige consensus. Hoewel in enkele studies ook dopaminerge medicatie wordt gestaakt, voorafgaand aan een 18F-FDG PET in verband met eventuele beïnvloeding van de activiteit in de ventrale/ orbitale frontale cortex en thalamus (Berding, 2011), wordt in andere studies de 18F-FDG PET scan verricht onder de standaard dopaminerge medicatie (Garraux, 2013). Voorafgaand aan een 18F-FDG PET scan van de hersenen moet het gebruik van benzodiazepines worden vermeden, terwijl hier geen bezwaar tegen bestaat bij 123I-IBZM SPECT scans. Mocht het gebruik van benzodiazepines voorafgaand aan de 18F-FDG PET scan van de hersenen noodzakelijk zijn, dan wordt geadviseerd dit zo laat mogelijk na de injectie van 18F-FDG toe te dienen.

 

Vasten

Patiënten die een 18F-FDG PET scan ondergaan dienen minimaal 4 uur van tevoren nuchter te zijn, terwijl dit niet nodig is voor een 123I-IBZM SPECT scan.

 

Wachttijd en ligduur

Bij een 123I-IBZM SPECT scan is de wachttijd tussen injectie en start van de scan 90 tot 120 minuten. Bij 18F-FDG PET scans is de wachttijd korter: 30 tot 60 minuten. De acquisitietijd van een 18F-FDG PET scan (minder dan 15 minuten) is aanzienlijk korter dan die van een 123I-IBZM SPECT scan (45 tot 60 minuten), wat vooral voor patiënten met cognitieve problematiek gunstig zijn kan.

 

Contra-indicaties

Zwangerschap is een contra-indicatie voor het uitvoeren van zowel de 123I-IBZM SPECT als een 18F-FDG PET scan van de hersenen. Voor beide scans geldt, dat deze niet tijdens de zwangerschap, maar na de bevalling moeten worden uitgevoerd.

 

Er is weinig literatuur aangaande de veiligheid van 18F-FDG PET hersenscans. Een review van de literatuur van Bohnen (2012) toonde aan dat er geen veiligheidskwesties aan de orde waren geweest in studies gepubliceerd na 2012 aangaande 18F-FDG PET scans in de diagnostiek van dementie en neurodegeneratieve aandoeningen. Hierbij dient te worden opgemerkt, dat dit een review betreft van studies waarin niet specifiek de veiligheid werd beoordeeld. In de studie van Lowe (2009) werd specifiek het optreden van negatieve effecten gerelateerd aan de toediening van het radiofarmacon onderzocht middels een vragenlijst; er werden geen negatieve effecten vermeld. Naar de veiligheid van 123I-IBZM SPECT scans is weinig onderzoek gedaan. Het effectief dosisequivalent van 18F-FDG is 0,019 mSv/MBq (gebaseerd op ICRP 106); dit betekent dat bij een dosis van 200 MBq 18F-FDG, de stralenbelasting 3,8 mSv is. Voor 123I-IBZM geldt een effectief dosisequivalent van 0,033 mSv/MBq (op basis van ICRP 106); dit resulteert in een stralenbelasting van 6,1 mSv bij een standaard dosis van 185 MBq. Ter vergelijk: de achtergrondstraling in Nederland is ongeveer 2,5 mSv/jaar per hoofd van de bevolking (RIVM rapport, 2003).

 

In de communicatie naar patiënten toe is het van belang om aan te geven dat een niet-afwijkende 123I-IBZM SPECT scan atypisch parkinsonisme niet uitsluit, met name ook gezien de wisselende sensitiviteit en specificiteit. Ook voor de 18F-FDG PET scans van de hersenen, geldt dat indien geen afwijkingen worden gevonden op de 18F-FDG PET scan of wanneer er sprake is van een niet-conclusieve scan, dit de ZvP of één van de vormen van atypisch parkinsonisme niet uitsluit. Dit geldt met name voor patiënten met een kortere ziekteduur (Tang, 2010). In dat geval moet de diagnose na enige tijd worden heroverwogen, waarbij eventueel opnieuw beeldvorming kan worden ingezet, zoals bijvoorbeeld herhaling van de 18F-FDG PET scan.

 

Er is weinig prijsverschil tussen de beide scans: volgens de NZA (2018) zijn de kosten voor een 18F-FDG PET scan van de hersenen €714,94 en is een 123I-IBZM SPECT nauwelijks duurder: €730,98. Op basis van de geformuleerde aanbevelingen worden er dan ook geen kostenverschuivingen verwacht.

 

Resumerend, op basis van indirecte vergelijking blijkt de sensitiviteit en specificiteit van 18F-FDG PET scans hoger te zijn dan die van 123I-IBZM SPECT scans. Daarnaast kan met behulp van 18F-FDG PET scans onderscheid worden gemaakt tussen de verschillende vormen van atypisch parkinsonisme onderling, terwijl met behulp van 123I-IBZM SPECT scans alleen onderscheid kan worden gemaakt tussen ZvP enerzijds en atypisch parkinsonisme anderzijds.

 

Ook de veiligheid en de voorkeur van patiënten kunnen van belang zijn bij de keuze tussen beide beeldvormende technieken. Gezien de kortere scanduur en kortere wachttijd tussen injectie en scan bij 18F-FDG PET scans, gaat ook hierbij de voorkeur uit naar een 18F-FDG PET scan boven een 123I-IBZM SPECT scan. Ondanks het ontbreken van direct vergelijkende studies, is de werkgroep van mening dat, op grond van bovenstaande argumenten, er weinig redenen zijn om in deze context te kiezen voor een 123I-IBZM SPECT scan.

Onderbouwing

In de dagelijkse praktijk kan het op basis van klinische bevindingen lastig zijn om te differentiëren tussen de verschillende ziektebeelden die gekenmerkt worden door parkinsonisme met dopaminerge degeneratie, zoals de ZvP, MSA, CBD, PSP en DLB. Voor verdere diagnostiek kunnen patiënten worden doorverwezen naar een neurologisch expertisecentrum op het gebied van bewegingsstoornissen. Om het onderscheid tussen de verschillende vormen van parkinsonisme met dopaminerge degeneratie verder te kunnen maken, kan naast MRI van de hersenen gebruik worden gemaakt van nucleaire beeldvormende technieken, zoals 123I-IBZM SPECT en 18F-FDG PET scans. 123I-IBZM bindt aan dopamine D2/3-receptoren, waarvan het merendeel postsynaptisch in het striatum gelegen is. 18F-FDG is een glucose-analogon. In de hersenen levert het glucose metabolisme ca 95% van het benodigde ATP en het glucose metabolisme is nauw verbonden met de neuronale activiteit. De diagnostische accuratesse van deze scans bij patiënten met parkinsonisme is echter onvoldoende bekend, evenals het verschil in accuratesse tussen deze scans.

Voor een goede besluitvorming rondom het al dan niet inzetten van deze scans in deze patiëntenpopulatie, is het van belang om van beide technieken de diagnostische accuratesse te kennen alsmede het verschil tussen beide technieken in accuratesse, veiligheid, patiëntbelasting en kosten.

Laag

GRADE

Een 18F-FDG PET scan heeft een hoge sensitiviteit (81 tot 98%) en specificiteit (83 tot 100%) voor het differentiëren tussen de ZvP en atypisch parkinsonisme, waarbij de accuratesse van de visuele evaluatie (sens: 92 tot 98%, spec: 94 tot 100%) niet slechter lijkt dan de accuratesse van de kwantitatieve analyses (sens: 81 tot 96%, spec: 83 tot 96%) indien de visuele evaluatie wordt gedaan door een ervaren beoordelaar.

 

Bronnen (Brajkovic, 2017; Tripathi, 2016; Garraux, 2013; Tripathi, 2013; Tang, 2010; Eckert, 2005)

 

Laag

GRADE

Een 18F-FDG PET scan heeft een matig-hoge sensitiviteit en specificiteit voor het differentiëren tussen MSA (respectievelijk 79 tot 100% en 90 tot 100%) en PSP (respectievelijk 76 tot 100% en 94 tot 100%) van overige parkinsonismen.

 

Bronnen: (Brajkovic, 2017; Tripathi, 2016; Garraux, 2013; Tripathi, 2013; Tang, 2010)

 

Zeer laag

GRADE

Een 123I-IBZM SPECT scan heeft een zeer gevarieerde sensitiviteit (53 tot 91%) en specificiteit (57 tot 94%) voor het differentiëren tussen de ZvP en atypisch parkinsonisme.

 

Bronnen (Sudmeyer, 2011; Koch, 2007; Pifarre, 2010; Vlaar, 2007; Seppi, 2004)

In totaal onderzochten 6 studies de diagnostische accuratesse van de18F-FDG PET en 5 studies de diagnostische accuratesse van de 123I-IBZM SPECT scan. Vanwege het ontbreken van direct vergelijkend onderzoek werd de data niet gepoold maar per diagnostische test beschrijvend weergegeven.

 

1. Diagnostische accuratesse van de 18F-FDG PET scan

Beschrijving studies

In totaal onderzochten 6 studies (n=709) de diagnostische accuratesse van de 18F-FDG PET scan in de differentiaal diagnose bij patiënten met parkinsonisme vergeleken met een minimale klinische follow-up van gemiddeld 2 jaar als referentiestandaard. De ziekteduur varieerde tussen de 1,5 en 9,8 jaar, maar was in de meeste gevallen <5 jaar (zie tabel 2).

 

Brajkovic (2017) onderzocht de diagnostische waarde van glucosemetabolisme afwijkingen gemeten middels 18F-FDG PET (visuele evaluatie en ‘voxel-based’ analyse middels Statistical Parametric Mapping (SPM)) voor de differentiaal diagnose van parkinsonismen (ZvP n=29, en atypisch parkinsonisme: MSA n=20, PSP n=21, CBS n=2). Tripathi (2016) beschreef de diagnostische waarde van de 18F-FDG PET scan bij 129 patiënten met een onzekere klinische diagnose voor het differentiëren tussen de ZvP en atypisch parkinsonisme (MSA, PSP). Vervolgens werd de diagnostische waarde voor het differentiëren tussen de atypische varianten MSA en PSP onderzocht. Garraux (2013) includeerde 120 patiënten verwezen door een neuroloog vanwege kenmerken gerelateerd aan parkinsonisme. De diagnostische waarde van de 18F-FDG PET middels Relevance Vector Machine (RVM) analyse) werd onderzocht voor het onderscheiden tussen de ZvP en atypisch parkinsonisme (MSA, PSP, CBS).

Tripathi (2013) onderzocht de diagnostische waarde van 18F-FDG PET in de differentiaal diagnose van de ZvP (n=84) en atypische varianten van parkinsonisme, namelijk PSP (n=30), MSA (n=20) of CBS (n=2). Zowel ‘visuele evaluatie’ als ‘semi-kwantitatieve analyse’ middels SPM van de 18F-FDG PET scans werden gebruikt voor beeldinterpretatie. Tang (2010) onderzocht de diagnostische accuratesse van 18F-FDG PET in de differentiaal diagnose bij 167 patiënten met parkinsonisme en een klinisch onzekere diagnose. Enkel de resultaten van de subgroep met een follow-up tijd > 2 jaar zijn in deze literatuuranalyse opgenomen (ZvP n=79, MSA n=25, PSP n=13). Eckert (2005) beschreef eveneens de accuratesse van de 18F-FDG PET scan (zowel visuele evaluatie als semi-kwantitatieve analyse middels SPM) in de differentiaal diagnose van parkinsonismen (ZvP n=79, MSA n=25, PSP n=20, CBD n=11).

 

Resultaten

De studie van Brajkovic (2017) rapporteerde een sensitiviteit en specificiteit voor het diagnosticeren van de ZvP van respectievelijk 93% en 93%, voor MSA van 90% en 94% en voor PSP van 90% en 100%. Tripathi (2016) beschreef een sensitiviteit en specificiteit van respectievelijk 83% en 94% voor classificatie van de ZvP, 79% en 90% voor classificatie van MSA, 100% en 94% voor classificatie van PSP. Garraux (2013) rapporteerde dat geautomatiseerde analyse middels binaire RVM-analyse met een sensitiviteit van 93% en specificiteit van 83% de ZvP van atypisch parkinsonisme kon onderscheiden. Een geautomatiseerde analyse door middel van ‘multi-class RVM’ werd gebruikt om de individuele ziektebeelden te classificeren, waarbij een sensitiviteit van 90% en specificiteit van 87% werd waargenomen. Tripathi (2013) rapporteerde een sensitiviteit van 98% en specificiteit van 94% op de ‘visuele evaluatie’ van de 18F-FDG PET scans voor het differentiëren van de ZvP versus de groep met atypische parkinsonistische syndromen. De sensitiviteit en specificiteit voor het diagnosticeren van PSP was respectievelijk 76% en 98%, terwijl voor MSA de sensitiviteit en specificiteit respectievelijk 80% en 97% bedroeg. Middels de geautomatiseerde analyse van de 18F-FDG PET scans, door middel van SPM, werd een sensitiviteit van 90% en specificiteit van 96% waargenomen voor het differentiëren van de ZvP versus atypische syndromen. De sensitiviteit en specificiteit van PSP versus de overige patiënten was respectievelijk 93% en 90%, terwijl voor MSA de sensitiviteit en specificiteit respectievelijk 80% en 98% bedroeg. De prospectieve cohortstudie van Tang (2010) rapporteerde de diagnostische accuratesse van 18F-FDG PET bij patiënten met een ziekteduur >2 jaar en follow-up >2 jaar met een sensitiviteit en specificiteit van respectievelijk 93% en 100% voor de ZvP en 83% en 100% voor MSA. De classificatie van PSP had een sensitiviteit en specificiteit van 100%. Bij een ziekteduur ≤ 2 jaar en een klinische follow-up >2 jaar bedroeg de sensitiviteit en specificiteit respectievelijk 81% en 92% voor de ZvP en 100% voor zowel de sensitiviteit en specificiteit van MSA en PSP. Eckert (2005) rapporteerde de accuratesse voor het differentiëren van de ZvP en atypisch parkinsonisme, waarbij de visuele evaluatie van de 18F-FDG PET scans respectievelijk een sensitiviteit en specificiteit van 92% en 95% kende en de geautomatiseerde analyse van respectievelijk 96% en 91%.

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaat accuratesse voor de 18F-FDG PET is verlaagd gezien beperkingen in de onderzoeksopzet (risk of bias in de referentiestandaard) en imprecisie (geringe aantal patiënten). Het niveau van de bewijskracht wordt gegradeerd als ‘laag ’.

 

Tabel 2. Accuratesse 18F-FDG-PET in de differentiaal diagnose van parkinsonisme

Auteur, Jaartal

Duur ziekte/ symptomen gemiddelde ± SD/ mediaan (range)

Index test

Referentie test

FU jaar, gemiddelde ± SD

Diagnose

18F-FDG PET analyse

 

Sens

Spec

Tripathi, 2016

2,7 ± 1,5

 

18F-FDG PET

Klinische FU

2,2 ± 0,4

ZvP versus AP

SPM analyse; geautomatiseerd algoritme gebruik makend van ziekte-specifieke metabole patronen

83%

94%

MSA versus AP

79%

90%

PSP versus AP

100%

94%

Eckert, 2005

ZvP ‘vroeg’ 2,2 ± 1,2

ZvP ‘laat’ 9,8 ± 3,5

MSA 3,9 ± 1,4

PSP 2,9 ± 1,2

CBD 3,3 ± 1,0

18F-FDG PET

ZvP ‘vroeg’ 2,1 ± 1,1

ZvP ‘laat’ 1,9 ± 0,7

MSA 2,3 ± 1,6

PSP 1,9 ± 0,6

CBD 2,3 ± 1,5

ZvP versus AP

Visuele evaluatie

92%

95%

SPM analyse

96%

91%

Tripathi, 2013

ZvP 2,8 ± 1,9

PSP 2,2 ± 1,5

MSA 1,6 ± 0,7

CBS 1,9 ± 0,1

18F-FDG PET

Klinische FU

ZvP 2,2 ± 0,8

PSP 2,3 ± 0,1

MSA 2,2 ± 0,1

CBS 2,2 ± 0,1

ZvP versus AP (MSA, PSP, CBS)

Visuele evaluatie

98%

94%

Geautomatiseerde SPM analyse

90%

96%

PSP versus overige patiënten (ZvP, MSA, CBS)

Visuele evaluatie

76%

98%

Geautomatiseerde SPM analyse

93%

90%

MSA versus overige patiënten (ZvP, PSP, CBS)

Visuele evaluatie

80%

97%

Geautomatiseerde SPM analyse

80%

98%

Garreaux, 2013

 

 

 

ZvP 3,6 ± 3,1

MSA 3,4 ± 2,9
PSP 3,1 ± 2,4

CDS 3,3 ± 2,0

18F-FDG PET

Klinische FU
minimaal 12 maanden, gemiddeld 8 jaar

ZvP versus AP

 

Geautomatiseerde binary RVM analyse

93%

83%

ZvP versus MSA versus PSP versus CBS

Geautomatiseerde multiclass RVM analyse

90%

87%

Brajkovic, 2017

ZvP 4 (0,3-14)

MSA 3 (1-8)

PSP 2 (0,5-7)

CBS 4; 10*

 

 

 

18F-FDG PET

Klinische FU

ZvP 2,2 ± 1,0

MSA 2,9 ± 0,7

PSP 2,5 ± 0,7

CBS 2,8 ± 1,4

ZvP versus AP (MSA, PSP)

Geautomatiseerde SPM analyse; visuele evaluatie en kwantitatieve ‘voxel-based’ statistische beeld analyse

93%

93%

MSA versus overige patiënten (ZvP , PSP)

90%

94%

PSP versus overige patiënten (ZvP, MSA)

90%

100%

Tang, 2010

1,5 ± 0,5

18F-FDG PET

Klinische FU

3,2 ± 0,7

ZvP versus AP

Geautomatiseerde classificatie gebruik makend van specifieke metabole covariantie patronen

 

81%

92%

MSA versus AP

100%

100%

PSP versus AP

100%

100%

8,3 ± 3,9

18F-FDG PET

Klinische FU

2,7 ± 0,9

ZvP versus AP

Geautomatiseerde classificatie gebruik makend van specifieke metabole covariantie patronen

93%

100%

MSA versus AP

83%

100%

PSP versus AP

100%

100%

AP = Atypisch Parkinsonisme; ZvP = Ziekte van Parkinson; PSP = Progressieve Supranucleaire Parese; MSA = Multiple Systeem Atrofie; MSA-P = Meervoudige Systeem Atrofie Parkinsonsisme type; CBD = Corticobasale Degeneratie; *n=2 patiënten, exacte waarden weergegeven.

 

2. Diagnostische accuratesse van de 123I-IBZM SPECT scan

Beschrijving studies

In totaal onderzochten 5 studies (n=314) de diagnostische accuratesse van de 123I-IBZM SPECT scan in de differentiaaldiagnose bij patiënten met parkinsonisme vergeleken met een klinische follow-up van gemiddeld 2 jaar als referentiestandaard. Ziekteduur werd niet gerapporteerd in de studies van Vlaar (2007), Pifarre (2010) en Koch (2007). De ziekteduur varieerde tussen de 3 en 7 jaar in de studies van Sudmeyer (2011) en Seppi (2004). Sudmeyer (2011) includeerde 48 patiënten met parkinsonisme (ZvP n=31, atypisch parkinsonisme n=17) om de accuratesse van 123I-IBZM SPECT in het meten van striatale postsynaptische dopamine D2/3 receptorbinding te onderzoeken. De retrospectieve studie van Pifarre (2010) onderzocht de waarde van 123I-IBZM SPECT in de differentiaaldiagnose van patiënten met parkinsonisme. Bij 26 patiënten werd een 123I-IBZM SPECT scan uitgevoerd (ZvP n=7, PSP n=5, MSA n=12, CBD n=2). De meta-analyse van Vlaar (2007) includeerde 2 studies waarbij de diagnostische accuratesse van 123I-IBZM SPECT in het differentiëren tussen de ZvP en atypisch parkinsonisme werd onderzocht. De diagnostische resultaten van de studie van Schwarz (1997) (ZvP n=34 en atypisch parkinsonisme n=9) en Schwarz (1998) (n=58 ZvP en n=7 atypisch parkinsonisme) zijn uit de meta-analyse van Vlaar (2007) overgenomen. Koch (2007) includeerde 100 patiënten met bevestigde presynaptische degeneratie van dopamine neuronen (vastgesteld middels 123IF-P-CIT SPECT) die waren doorverwezen naar een centrum voor bewegingsstoornissen. Om te differentiëren tussen de ZvP en atypische parkinsonismen, werd postsynaptische D2/3 receptorbinding gemeten middels 123I-IBZM SPECT. De studie van Seppi (2004) onderzocht de waarde van de 123I-IBZM SPECT scan in het onderscheiden van MSA-P (n=15) en de ZvP (n=17).

 

Resultaten

Een overzicht van de gerapporteerde sensitiviteit en specificiteit van de individuele studies staat beschreven in tabel 3. Sudmeyer (2011) rapporteerde een sensitiviteit en specificiteit van respectievelijk 53% en 94% in het onderscheiden van atypisch parkinsonisme van de ZvP. Voor de differentiaaldiagnose bij patiënten met parkinsonisme werd in de studie van Pifarre (2010) een sensitiviteit en specificiteit van respectievelijk 68% en 57% aangetoond voor het onderscheiden tussen de ZvP en atypisch parkinsonisme. De studies van Schwarz (1997 en 1988) uit de meta-analyse van Vlaar (2007) rapporteerden een diagnostische sensitiviteit van respectievelijk 88 en 91% en specificiteit van respectievelijk 71 en 89% voor het differentiëren tussen de ZvP en atypisch parkinsonisme. In de studie van Koch (2007) werd een sensitiviteit van 87% en specificiteit van 73% waargenomen om de ZvP en atypisch parkinsonisme te onderscheiden. Seppi (2004) rapporteerde een sensitiviteit en specificiteit van 80% en 71% voor het onderscheiden tussen de ZvP van MSA-P.

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaat accuratesse voor 123I-IBZM SPECT is verlaagd gezien beperkingen in de onderzoeksopzet (risk of bias in de referentiestandaard), inconsistentie (variatie in gerapporteerde sensitiviteit en specificiteit) en imprecisie (gering aantal patiënten). Het niveau van de bewijskracht wordt gegradeerd als ‘zeer laag ’.

 

Tabel 3. Accuratesse 123I-IBZM SPECT in de differentiaal diagnose van parkinsonisme

Auteur, Jaartal

Duur ziekte/ symptomen gemiddelde ± SD

Index test

Referentie test

FU jaar, gemiddelde ± SD

Diagnose

IBZM bepaling

Sens

Spec

Sudmeyer, 2011

ZvP 6.7 ± 6.7

AP 5.8 ± 3.3

123I-IBZM SPECT

Klinische FU ZvP 3,1 ± 1,0 AP 2,2 ± 1,0

AP versus ZvP

Semi-kwantitatief; template met ROI’s en ratio bepaling (S/P)

53%

94%

Koch, 2007

niet gerapporteerd

123I-IBZM SPECT

Klinische FU, geciteerd als: ‘approximately 2 years’

ZvP versus AP

Semi-kwantitatief; template met ROI’s en ratio bepaling (striatum-frontale cortex)/frontale cortex

87%

73%

Pifarre, 2010

niet gerapporteerd

123I-IBZM SPECT

klinische FU minimaal 2 jaar (geen gemiddelde gerapporteerd)

ZvP versus AP

Visuele beoordeling

68%

 

57%

Kwantificatie:

Normalisatie naar template en ratiobepaling via MATLAB voor nucleus caudatus/frontale cortex en putamen/frontale cortex

Geen sens

Geen spec

 

Vlaar, 2007 (Schwarz, 1997)

niet gerapporteerd

123I-IBZM SPECT

klinische FU minimaal 2 jaar (geen gemiddelde gerapporteerd)

ZvP versus AP

Semi-kwantitatief:

Template met ROIs en ratio bepaling (BG/FC)

88%

 

89%

Vlaar, 2007 (Schwarz, 1998)

niet gerapporteerd

123I-IBZM SPECT

klinische FU

3,0 ± 0,8

ZvP versus AP

Semi-kwantitatief:

Template met ROI’s en ratio bepaling (BG/FC)

91%

71%

Seppi, 2004

ZvP 3,9 ± 0,9
MSA-P 3,1 ± 1,5

123I-IBZM SPECT

klinische FU minimaal 2 jaar (geen gemiddelde gerapporteerd)

ZvP versus MSA-P

Semi-kwantitatief:

Template met ROI’s en ratio bepaling (S/FC)

 

80%

71%

AP = Atypisch Parkinsonisme; ZvP = Ziekte van Parkinson; PSP = Progressieve Supranucleaire Parese; MSA = Meervoudige Systeem Atrofie; MSA-P = Meervoudige Systeem Atrofie Parkinsonisme type; CBD = Corticobasale Degeneratie; BG/FC ratio = ratio basale ganglia/frontale cortex binding; S/FC = ratio striatale/ frontale cortex; ROI = Region Of Interest; SP ratio = striato posterior cortex ratio.

Om de uitgangsvraag te kunnen beantwoorden is een systematische literatuuranalyse verricht naar de volgende zoekvragen:

 

PICO 1: Wat is de diagnostische accuratesse van een 18F-FDG PET scan in de differentiaaldiagnose bij patiënten met parkinsonisme?

 

P Patiënten met parkinsonisme;

I 18F-FDG PET (glucosemetabolisme);

C Post-mortem diagnose (gouden standaard)/ een minimale follow-up van gemiddeld 2 jaar;

O Accuratesse ten aanzien van onderscheid tussen de ZvP en atypische parkinsonismen (=afwijkend beeld).

 

PICO 2: Wat is de diagnostische accuratesse van een 123I-IBZM SPECT scan in de differentiaaldiagnose bij patiënten met parkinsonisme?

 

P Patiënten met parkinsonisme;

I 123I-IBZM SPECT scan (dopamine D2/3 receptoren);

C Post-mortem diagnose (gouden standaard)/ een minimale follow-up van gemiddeld 2 jaar;

O Accuratesse ten aanzien van onderscheid tussen de ZvP en atypische parkinsonismen (=afwijkend beeld).

 

Diagnostische eigenschappen

Vanwege gebrek aan direct vergelijkend onderzoek tussen de 18F-FDG PET en de 123I-IBZM SPECT scan, wordt de diagnostische testaccuratesse van de individuele technieken als proxy gebruikt (indirect bewijs). De accuratesse van 18F-FDG PET en 123I-IBZM SPECT als diagnostische test wordt onderzocht door patiënten met verdenking op parkinsonisme zowel te evalueren middels deze indextesten als middels een referentietest. De referentietest is de test die met grote zekerheid de ziekte of aandoening kan aantonen dan wel uitsluiten. De diagnose ZvP of atypisch parkinsonisme kan enkel middels post-mortem diagnose met zekerheid worden vastgesteld. Echter, klinisch-pathologisch onderzoek toont aan dat de zekerheid van de klinische diagnose toeneemt naarmate de ziekteduur vordert. Om die reden definieerde de werkgroep a-priori een minimale klinische follow-up van gemiddeld 2 jaar als referentietest.

 

Relevante uitkomstmaten

De werkgroep achtte een hoge specificiteit een voor de besluitvorming kritieke uitkomstmaat waarbij een lagere sensitiviteit wordt geaccepteerd. Dit kan tot gevolg hebben dat de diagnose atypisch parkinsonisme wordt gemist en patiënten ten onrechte worden gediagnosticeerd met de ZvP. Echter, aangezien tot nu toe geen specifieke therapeutische mogelijkheden bestaan voor atypisch parkinsonisme, zal hen geen behandeling worden onthouden. Zodoende ligt, met het oog op de veel slechtere prognose van een atypisch parkinsonisme in vergelijking met de ziekte van Parkinson, de nadruk op een hoge specificiteit.

 

Zoeken en selecteren (Methode)

In de databases Medline (via OVID) is op 2 augustus 2017 met relevante zoektermen gezocht naar systematische reviews (SR), RCT’s of observationele diagnostische studies. De zoekverantwoording is weergegeven onder het tabblad Verantwoording. De literatuurzoekactie leverde 697 treffers op. Studies werden geselecteerd op grond van de volgende selectiecriteria:

  • studiedesign: SR, RCT of observationele diagnostische studies;
  • gepubliceerd tussen 1 januari 1946 en 2 augustus 2017;
  • full-tekst artikel beschikbaar in het Nederlands of Engels;
  • beschrijving van de diagnostische waarde van de 18F-FDG PET en/of 123I-IBZM SPECT scan;
  • beschrijven van de post-mortem diagnose (gouden standaard) of een minimale follow-up van gemiddeld 2 jaar als referentiestandaard;
  • beschrijven van minimaal één van de bovengenoemde uitkomstmaten.

 

Op basis van titel en abstract werden in eerste instantie 45 studies voorgeselecteerd. Na raadpleging van de volledige tekst, werden vervolgens 34 studies geëxcludeerd (zie exclusietabel onder het tabblad Verantwoording), en 11 studies definitief geselecteerd.

11 onderzoeken zijn opgenomen in de literatuuranalyse. De belangrijkste studiekarakteristieken en resultaten zijn opgenomen in de evidence-tabellen. De beoordeling van de individuele studieopzet (risk of bias) is opgenomen in de risk of bias tabellen.

  1. Lowe VJ, Kemp BJ, Jack CR Jr, et al. Comparison of 18F-FDG and PiB PET in cognitive impairment. J Nucl Med. 2009;50(6):878-86. doi: 10.2967/jnumed.108.058529. Epub 2009 May 14. PubMed PMID: 19443597; PubMed Central PMCID: PMC2886669.
  2. Bohnen NI, Djang DS, Herholz K, et al. Effectiveness and safety of 18F-FDG PET in the evaluation of dementia: a review of the recent literature. J Nucl Med. 2012;53(1):59-71. doi: 10.2967/jnumed.111.096578. Epub 2011 Dec 15. Review. PubMed PMID: 22173840.
  3. Hellwig S, Amtage F, Kreft A, et al. (¹⁸F)FDG-PET is superior to (¹²³I)IBZM-SPECT for the differential diagnosis of parkinsonism. Neurology. 2012 Sep 25;79(13):1314-22. Epub 2012 Aug 22. PubMed PMID: 22914831.
  4. Brajkovic L, Kostic V, Sobic-Saranovic D, et al. The utility of FDG-PET in the differential diagnosis of Parkinsonism. Neurol Res. 2017;39(8):675-684. doi: 10.1080/01616412.2017.1312211. Epub 2017 Apr 5. PubMed PMID: 28378615.
  5. Pifarré P, Cuberas G, Hernández J, et al. Cortical and subcortical patterns of I-123 iodobenzamide SPECT in striatal D(2) receptor parkinsonisms. Clin Nucl Med. 2010;35(4):228-33. doi: 10.1097/RLU.0b013e3181d18cb3. PubMed PMID: 20305408.
  6. Koch W, Hamann C, Radau PE, et al. Does combined imaging of the pre- and postsynaptic dopaminergic system increase the diagnostic accuracy in the differential diagnosis of parkinsonism? Eur J Nucl Med Mol Imaging. 2007;34(8):1265-73. Epub 2007 Feb 21. PubMed PMID: 17318547.
  7. Südmeyer M, Antke C, Zizek T, et al. Diagnostic accuracy of combined FP-CIT, IBZM, and MIBG scintigraphy in the differential diagnosis of degenerative parkinsonism: a multidimensional statistical approach. J Nucl Med. 2011;52(5):733-40. doi: 10.2967/jnumed.110.086959. Epub 2011 Apr 15. PubMed PMID: 21498527.
  8. Tripathi M, Tang CC, Feigin A, De Lucia I, Nazem A, Dhawan V, Eidelberg D. Automated Differential Diagnosis of Early Parkinsonism Using Metabolic Brain Networks: A Validation Study. J Nucl Med. 2016 Jan;57(1):60-6. doi: 10.2967/jnumed.115.161992. Epub 2015 Oct 8. PubMed PMID: 26449840.
  9. Eckert T, Barnes A, Dhawan V, et al. FDG PET in the differential diagnosis of parkinsonian disorders. Neuroimage. 2005 Jul 1;26(3):912-21. Epub 2005 Apr 26. PubMed PMID: 15955501.
  10. Tang CC, Poston KL, Eckert T, et al. Differential diagnosis of parkinsonism: a metabolic imaging study using pattern analysis. Lancet Neurol. 2010;9(2):149-58. doi: 10.1016/S1474-4422(10)70002-8. Epub 2010 Jan 8. PubMed PMID: 20061183; PubMed Central PMCID: PMC4617666.
  11. Schwarz J, Tatsch K, Gasser T, et al. (123)IBZM binding predicts dopaminergic responsiveness in patients with parkinsonism and previous dopaminomimetic therapy. Mov Disord. 1997;12(6):898-902. PubMed PMID: 9399212.
  12. Schwarz J, Tatsch K, Gasser T, et al. 123I-IBZM binding compared with long-term clinical follow up in patients with de novo parkinsonism. Mov Disord. 1998;13(1):16-9. PubMed PMID: 9452320.
  13. Seppi K, Schocke MF, Donnemiller E, et al. Comparison of diffusion-weighted imaging and (123I)IBZM-SPECT for the differentiation of patients with the Parkinson variant of multiple system atrophy from those with Parkinson's disease. Mov Disord. 2004 ;19(12):1438-45. PubMed PMID: 15390073.
  14. Vlaar AM, van Kroonenburgh MJ, Kessels AG, et al. Meta-analysis of the literature on diagnostic accuracy of SPECT in parkinsonian syndromes. BMC Neurol. 2007 Sep 1;7:27. PubMed PMID: 17764571; PubMed Central PMCID: PMC2064928.
  15. Tripathi M, Dhawan V, Peng S, et al. Differential diagnosis of parkinsonian syndromes using F-18 fluorodeoxyglucose positron emission tomography. Neuroradiology. 2013;55(4):483-92. doi: 10.1007/s00234-012-1132-7. Epub 2013 Jan 13. PubMed PMID: 23314836.
  16. Garraux G, Phillips C, Schrouff J, et al. Multiclass classification of FDG PET scans for the distinction between Parkinson's disease and atypical parkinsonian syndromes. Neuroimage Clin. 2013 Jun 14;2:883-93. doi: 10.1016/j.nicl.2013.06.004. eCollection 2013. PubMed PMID: 24179839; PubMed Central PMCID: PMC3778264.
  17. Dhawan, V., Eidelberg, D., 2003. PET imaging in Parkinson’s disease. In: Sinha, K.K., Chandra, P., Jha, D.K. (Eds.), Advances in Clinical Neurosciences. The Catholic Press, Jharkhand, India, pp. 251–276.
  18. Schwarz J, Oertel WH, Tatsch K. Iodine-123-iodobenzamide binding in parkinsonism: reduction by dopamine agonists but not L-Dopa. J Nucl Med 1996;37:1112–1115.
  19. Berding G, Odin P, Brooks DJ, et al. Resting regional cerebral glucose metabolism in advanced Parkinson's disease studied in the off and on conditions with ((18)F)FDG-PET. Mov Disord. 2001 Nov;16(6):1014-22. PubMed PMID: 11748732.
  20. Nestor PJ, Altomare D, Festari C, et al. ; EANM-EAN Task Force for the Prescription of FDG-PET for Dementing Neurodegenerative Disorders. Clinical utility of FDG-PET for the differential diagnosis among the main forms of dementia. Eur J Nucl Med Mol Imaging. 2018;45(9):1509-1525. doi: 10.1007/s00259-018-4035-y. Epub 2018 May 7. PubMed PMID: 29736698.
  21. Van Laere K, Varrone A, Booij J,et al. EANM procedure guidelines for brain neurotransmission SPECT/PET using dopamine D2 receptor ligands, version 2. Eur J Nucl Med Mol Imaging. 2010;37(2):434-42. doi: 10.1007/s00259-009-1265-z.PubMed PMID: 19838704.
  22. Varrone A, Asenbaum S, Vander Borght T, et al. European Association of Nuclear Medicine Neuroimaging Committee. EANM procedure guidelines for PET brain imaging using (18F)FDG, version 2. Eur J Nucl Med Mol Imaging.

Evidence table for diagnostic test accuracy studies

Research question: wat is de diagnostische accuratesse van een 18F-FDG PET of 123I-IBZM SPECT scan tav het stellen van de differentiaaldiagnose bij patiënten met parkinsonisme?

Study reference

Study characteristics

Patient characteristics

 

Index test

(test of interest)

Reference test

 

Follow-up

Outcome measures and effect size

 

 

Comments

Tripathi, 2016

Type of study[1]: prospective cohort

 

Setting: Institute of Nuclear Medicine and allied Sciences (INMAS)

 

Country: India

 

Conflicts of interest: funded by grants from Indo-US Science and Technology Form, INMAS, NINDS, Morris

K. Udall Center of Excellence for Parkinson’s Disease Research

 

Inclusion criteria: patients with uncertain clinical diagnosis

 

Exclusion criteria: structural abnormalities on routine MRI, alternative final diagnosis, lack of final clinical diagnosis due to inadequate FU.

 

N=129

 

Mean age ± SD:

56.2 ± 10.6

 

Sex N, M/F:

90/39

 

Mean disease duration ± SD (yrs):

2.7 ± 1.5

 

Describe index test: 18-F-FDG PET

 

Cut-off point(s):

Level 1; differentiation between IPD, APS or indeterminate parkinsonism by comparing the subject’s

probabilities to the cutoff probabilities for IPD (0.81) and APS (0.79) determined in the proof-of-principle study.

 

Level II: further subclassification of APS into MSA or PSP

 

Comparator test[2]: NA

 

Cut-off point(s): NA

 

Describe reference test[3]: final clinical diagnosis made by movement disorders specialist after at least 2 office visits.

 

Cut-off point(s): consensus criteria for the diagnosis of IPD (United Kingdom Brain Bank Criteria, MSA (24), and PSP and was confirmed by a second movement disorders specialist

 

 

Time between the index test and reference test: mean time interval was 2.2 ± 0.4y after imaging.

 

For how many participants were no complete outcome data available? %).

 

Reasons for incomplete:

 

Accuracy measures (sens, spec, PPV, NPV).

 

Differentiation of IPD from APS:

Sens: 83% (67/81)

Spec: 94% (45/48)

 

Initial diagnosis vs final:

2x2table

Reference standard AP

Reference standard PD

Index-test AP

45

14

Index test PD

3

67

 

Differentiation MSA from APS:

Sens: 79% (11/14)

Spec: 90% (18/20)

 

Differentiation PSP from APS:

Sens: 100% (16/16)

Spec: 94% (17/18)

 

 

 

Eckert, 2005

Type of study[4]: prospective cohort

 

Setting: hospital

 

Country: USA

 

Conflicts of interest: not reported

 

Inclusion criteria: patients referred for FDG PET imaging with clinical uncertain diagnosis.

 

Exclusion criteria: lack of follow-up and structural abnormalities on MRI

 

N=135

 

Mean age ± SD:

PD early 56.7 ± 10.9

PD late 60.2 ± 8.9

MSA 59.6 ± 8.9

PSP 69.0 ± 7

CBGD 68.0 ± 9.4

 

Sex N, M/F:

 

Mean disease duration ± SD (yrs):

PD early 2.2 ± 1.2

PD late 9.8 ± 3.5

MSA 3.9 ± 1.4

PSP 2.9 ± 1.2

CBGD 3.3 ± 1.0

 

Describe index test:

18F-FDG PET

 

Cut-off point(s):

Comparator test[5]: NA

 

Cut-off point(s): NA

 

Describe reference test[6]: 2yr clinical follow-up

 

Cut-off point(s):

ZvP ‘early’ 2,1 ± 1,1

ZvP ‘late’ 1,9 ± 0,7

MSA 2,3 ± 1,6

PSP 1,9 ± 0,6

CBD 2,3 ± 1,5

 

 

Time between the index test and reference test: mean 2.1 yrs

 

For how many participants were no complete outcome data available? N=70

 

Reasons for incomplete:

because of lack of FU or structural abnormalities on MRI

Accuracy measures (sens, spec, PPV, NPV).

 

Visual reading PD vs APD:

Sens: 92%

Spec: 95%

 

SPM analysis PD vs APD:

Sens: 96%

Spec: 91

 

 

 

 Tripathi, 2013

Type of study[7]: prospective cohort

 

Setting: hospital

 

Country: India

 

Conflicts of interest: none declared

 

Inclusion criteria: patients diagnosed with parkinsonism at movement disorder clinic.

 

Exclusion criteria: lack of clinical FU, or alternative clinical diagnosis.

 

N=136 parkinsonian patients (84 IPD, 30 PSP, 20 MSA, 2 CBS)

N=20 healthy controls (HC)

 

Mean age ± SD:

IPD 54.5 ± 11.3

PSP 62.7 ± 7.7

MSA 57.1 ± 9.5

CBS 59 ± 0

HC 61.4 ± 4.9

 

Sex N, M/F:

IPD 60/24

PSP 18/12

MSA 17/3

CBS 0/2

HC 12/8

 

Mean disease duration ± SD (yrs):

IPD 2.8 ± 1.85

PSP 2.2 ± 1.5

MSA 1.6 ± 0.65

CBS 1.9 ± 0.14

HC NA

 

Describe index test: 18-FDG PET

 

Cut-off point(s):

Visual evaluation:

IPD: characterized by norm/hypermetabolism

in the basal ganglia

 

PSP characterized by

decrease in the medial frontal cortices

 

MSA was characterized

by hypometabolism in the basal ganglia and/or in

the cerebellar cortices (olivopontocerebellar atrophy)

CBS, characterised by marked asymmetric cortical and basal ganglia decrease

 

Computer analysis:

Based on comparisons to healthy controls a map of voxels that indicated increased or decreased glucose metabolism was used by an expert for differentiating parkinsonian syndromes.

 

Comparator test[8]: NA

 

Cut-off point(s): NA

 

Describe reference test[9]: clinical diagnosis by neurologist after 2 yrs

 

Cut-off point(s): diagnosis based on IPD-United Kingdom Brain Bank Criteria,

PSP Criteria (NINCDS-PSP) and MSA.

 

 

Time between the index test and reference test: 2 yrs

 

For how many participants were no complete outcome data available? Initially n=165 were selected of which 29 patients were excluded (18%).

 

Reasons for incomplete: lack of clinical FU or alternative clinical diagnosis.

 

Accuracy measures (sens, spec, PPV, NPV).

 

Visual reading:

IPD vs AP

Sens: 76%

Spec: 98%

 

PSP vs others

Sens: 76%

Spec: 98%

 

MSA vs others

Sens: 80%

Spec: 97%

 

Computer-supported reading:

IPD vs AP

Sens: 90%

Spec: 96%

 

PSP vs others

Sens: 93%

Spec: 90%

 

MSA vs others

Sens: 80%

Spec: 98%

 

Fluorodeoxyglucose-PET performed at the time

of initial referral for parkinsonism is useful for the differential

diagnosis of IPD, PSP, MSA, and CBS.

 Brajkovic, 2017

Type of study[10]: prospective cohort

 

Setting: hospital

 

Country: Serbia

 

Conflicts of interest: none reported, work funded by Serbian Ministry of Education and Science.

 

Inclusion criteria: patients with parkinsonism, diagnosed by movement disorder specialist and FDG PET imaging, absence of structural brain abnormalities on MRI.

 

Exclusion criteria: lack of follow-up or structural abnormalities on MRI or alternative diagnosis.

 

N=72

 

Mean age ± SD:

61 ± 10 yrs

 

Sex: N M/F ratio:

50/22

 

Median disease duration (range) (yrs):

IPD 4 (0.3 tot 14)

MSA 3 (1 tot 8)

PSP 2 (0.5 tot 7)

CBS 4; 10* (*only 2 patients, so values are given instead of median and range.

 

Describe index test: 18F-FDG PET

 

Cut-off point(s): ‘visual’reading and ‘voxel-based’ statistical parametric mapping analysis. Criteria for assigning specific diagnosis:

IPD: Normal or hypermetabolism in nucleus lentiformis on both sides, hypometabolism in dorsolateral prefrontal crotches and parietotem-porooccipital cortices.

MSA: hypometabolism in dorsolateral putamen on both sides and pons, with or without hypometabolism in bilateral cerebellar hemispheres.

PSP: hypometabolism in midline frontal cortex, midbrain and both caudate/basal ganglia.

CBS: asymmetric hypometabolism in frontoparietal cortices and basal ganglia contralateral to clinically more affected side.

 

Comparator test[11]: NA

 

Cut-off point(s): NA

 

Describe reference test[12]:

Clinical diagnosis after 2 yrs by a movement disorder specialist.

 

Cut-off point(s): based on clinical diagnostic criteria for IPD, MSA, PSP, CBS.

 

 

Time between the index test and reference test: at least 2 years

 

For how many participants were no complete outcome data available? all

 

Reasons for incomplete: NA

 

Accuracy measures (sens, spec, PPV, NPV).

 

FDG PET for diagnosing IPD:

Sens: 0.93 (95% CI 0.84 to 1.00)

Spec: 0.93 (95% CI 0.85 to 1.00)

Accuracy: 0.93 995% CI 0.87-0.99)

 

FDG PET for diagnosing MSA:

Sens: 0.90 (95% CI 0.77 to 1.00)

Spec: 0.94 (95% CI 0.88 to 1.000

Accuracy: 0.93 (95% CI 0.87 to 0.99)

 

FDG PET for diagnosing PSP:

Sens: 0.90 (95% CI 0.78 to 1.00)

Spec: 1.00 (95% CI 1.00 to 1.00)

Accuracy: 0.97-95% Ci 0.97 to 1.00) 90% en

 

 Garraux, 2013

Type of study[13]: retrospective study

 

Setting: hospital

 

Country: Belgium

 

Conflicts of interest: supported by FRS-FNRS and a grant from the Rahier Foundation, University of Liege.

 

Inclusion criteria: patients referred for FDG PET by neurologist because clinical features were outside the prevailing perceptions for PD. Scans were included on the basis of clinical criteria for PD, MSA, PSP, CBS as reviewed from medical records by two movement disorder specialists.

 

Exclusion criteria: a clinical follow-up of 12 months. Significant structural brain abnormalities on CT or MRI, exposure to drugs that could have caused the clinical findings. FDG PET scans were excluded when brain coverage in the axial direction was judged inadequate.

 

N= 120

 

Mean age ± SD:

63.9 ± 10.2

 

Sex: N M/F ratio:

61/59

 

Mean disease duration ± SD (yrs: 3.4 ± 2.7

 

Describe index test: 18F-FDG PET

 

Cut-off point(s): RVM analysis

 

 

Comparator test[14]:

NA

Cut-off point(s): NA

 

Describe reference test[15]:

Clinical diagnosis at last follow-up, average 8 yrs.

 

Cut-off point(s): clinical diagnostic criteria:

 

 

Time between the index test and reference test: a minimum of 12 months, average 8 yrs.

 

For how many participants were no complete outcome data available? none

 

Reasons for incomplete: NA

 

Accuracy measures (sens, spec, PPV, NPV).

 

Radiological diagnosis PD vs APS:

Sens: 64%

Spec: 96%

PPV: 90%

NPV: 83%

 

Diagnosing PD vs APS using binary RVM:

Sens: 93%

Spec: 83%

PPV: 75%

NPV: 96%

 

PD vs MSA vs PSP vs CBS using multiclass RVM:

Sens: 90%

Spec: 87%

PPV: 79%

NPV: 94%

 

 

 

 Tang, 2010

Type of study[16]: prospective cohort

 

Setting: hospital

 

Country: USA

 

Conflicts of interest: funding by NIH and the Feinstein Institute of Medical Research

 

Inclusion criteria: patients with parkinsonian features

 

Exclusion criteria: evidence of structural abnormalities on MRI that could have caused clinical findings.

 

N=167

Subgroup n=84 with DD and FU > 2 y:

PD: 58

MSA: 19

PSP: 7

 

Mean age ± SD:

PD: 57.7 ± 9.4

MSA: 60.6 ± 9.0

PSP: 74.5 ± 6.1

 

Sex: N M/F ratio:

PD: 41/17

MSA: 8/11

PSP: 3/4

 

Mean disease duration ± SD (yrs):

PD: 8.3 ± 3.9

MSA: 5.1 ± 1.9

PSP: 3.6 ± 0.8

 

Describe index test: 18F-FDG PET

 

Cut-off point(s):

 

 

Comparator test[17]: NA

 

Cut-off point(s): NA

 

Describe reference test[18]:

Diagnosis made by the movement disorders specialist on at least two consecutive visits plus subsequent confirmation of the clinical diagnosis on chart review by a second blinded movement disorders specialist

 

Cut-off point(s): based on clinical criteria

 

 

Time between the index test and reference test: >2 year (only data from this subgroup described)

 

For how many participants were no complete outcome data available? None. However, only subgroup n=84 with DD and FU >2yrs

 

Reasons for incomplete: NA

 

Accuracy measures (sens, spec, PPV, NPV).

 

Symptom duration >2yr; FU >2yr

IPD vs other patients:

Sens: 93% (54/58)

Spec: 100% (26/26)

PPV: 100 (54/54)

NVP: 87% (26/30)

 

APS vs other patients:

Sens: 92% (24/26)

Spec: 100% (58/58)

PPV: 100% (24/24)

NVP: 97% (58/60)

 

MSA vs other patients:

Sens: 83% (15/18)

Spec: 100% (6/6)

PPV: 100% (15/15)

NVP: 67% (6/9)

 

PSP vs other patients:

Sens: 100% (6/6)

Spec: 100% (18/18)

PPV: 100% (6/6)

NVP: 100% (18/18)

 

Symptom duration ≤2yr; FU >2yr

IPD vs other patients:

Sens: 81% (17/21)

Spec: 92% (11/12)

PPV: 94% (17/18)

NVP: 93% (11/15)

 

APS vs other patients:

Sens: 83% (10/12)

Spec: 100% (21/21)

PPV: 100% (10/10)

NVP: 91% (21/23)

 

MSA vs other patients:

Sens: 100% (5/5)

Spec: 100% (5/5)

PPV: 100% (5/5)

NVP: 100% (5/5)

 

PSP vs other patients:

Sens: 100% (5/5)

Spec: 100% (5/5)

PPV: 100% (5/5)

NVP: 100% (5/5)

 

 

 

Sudmeyer, 2011

Type of study: prospective cohort

 

Setting: hospital

 

Country: Germany

 

Conflicts of interest: not reported

Inclusion criteria: patients referred for suspected degenerative parkinsonism.

 

Exclusion criteria: history of heart diseas, incl coronoary artery disease, infarction, or heart failure, diabeters mellitus, polyneuropathy, dementia, current neuroleptic or tricyclic antidepressive medication and vascular cerebral lesions.

 

N=48

 

Mean age ± SD:

Not reported

 

Mean disease duration (yrs):

PD 6.7 ± 6.7

APD 5.8 ± 3.3

 

Describe index test: 123I-IBZM-SPECT

 

Cut-off point(s): template based regions of interest (ROIs)

 

 

Comparator test[19]:

NA

Cut-off point(s): NA

 

Describe reference test:

Clinical FU

 

Cut-off point(s): NA

Time between the index test and reference test:
PD: 3,1 ± 1,0 years

APD 2,2 ± 1,0 years

 

For how many participants were no complete outcome data available? NA

Accuracy measures (sens, spec, PPV, NPV).

 

APD vs PD:

Sens: 53%

Spec: 94%

 

Koch, 2007

 

Type of study: retrospective study

 

Setting: hospital

 

Country: Germany

 

Conflicts of interest: not reported

Inclusion criteria: patients with confirmed presynaptic degeneration of dopaminergic neurons who had been referred from a specialized movement disorder clinic.

 

Exclusion criteria: not reported

 

N=100

 

Mean age ± SD:

Not reported

 

Mean disease duration (yrs):

Not reported

 

Describe index test:

123I-IBZM-SPECT

Describe reference test:

Clinical FU

 

Cut-off point(s): NA

 

Time between the index test and reference test: ‘approximately 2 years’

 

For how many participants were no complete outcome data available?

Accuracy measures (sens, spec, PPV, NPV).

 

PD vs APD:

Sens: 87%

Spec: 73%

 

 Pifarre, 2010

Type of study[20]: transverse-single centre study

 

Setting: hospital

 

Country:

 

Conflicts of interest: not reported

 

Inclusion criteria: patients from outpatient departments of the Movement Disorder Unit with clinical suspicion of atypical parkinsonism.

 

Exclusion criteria: NR

 

N=26

 

Mean age (range):

73 (64 tot 83) years

 

Sex: N M/F ratio:

12/ 14

 

Mean disease duration ± SD (mo): NR

 

Describe index test: I-123 IBZM

 

Cut-off point(s):

Qualitative analysis: reduction of

striatal uptake and increased activity in extrastriatal structures

 

Quantitative analysis: ratios of caudate/frontal (C/FI) and putamen/frontal (P/FI) activity indexes were obtained

 

Comparator test[21]: NA

 

Cut-off point(s): NA

 

Describe reference test[22]: clinical diagnosis after at least 2 year FU, by two neurologists.

 

Cut-off point(s): clinical diagnostic criteria

 

 

Time between the index test and reference test: 2yrs

 

For how many participants were no complete outcome data available? None

 

Reasons for incomplete: NA

 

Accuracy measures (sens, spec, PPV, NPV).

 

Sens: 68%

Spec: 57%

 

Vlaar, 2007 (Schwarz, 1997)

 

Type of study : observational study

 

Setting: unclear

 

Country: unclear

 

Conflicts of interest: unclear

Inclusion criteria: patients with diagnostic uncertainty.

 

Exclusion criteria: NR

 

N=55

 

Mean age (range):

NR

 

Mean disease duration ± SD (mo): NR

 

Describe index test: 123I-IBZM-SPECT

 

Semikwantitatief:

Template met ROI’s en ratio bepaling (BG/FC ratio)

 

 

Comparator test[23]: NA

 

Cut-off point(s): NA

 

Describe reference test : clinical diagnosis

 

Cut-off point(s): NR

Time between the index test and reference test: klinische FU minimaal 2 jaar (geen gemiddelde gerapporteerd)

 

For how many participants were no complete outcome data available? unclear

 

 

Accuracy measures (sens, spec, PPV, NPV).

 

Sens: 88%

Spec: 89%

 

Vlaar, 2007 (Schwarz, 1998)

 

Type of study : observational study

 

Setting: unclear

 

Country: unclear

 

Conflicts of interest: unclear

Inclusion criteria: patients with diagnostic uncertainty.

 

Exclusion criteria: NR

 

N=65

 

Mean age (range):

NR

 

Mean disease duration ± SD (mo): NR

 

Describe index test: 123I-IBZM-SPECT

 

Semikwantitatief:

Template met RO’s en (BG/FC ratio) bepaling

Comparator test[24]: NA

 

Cut-off point(s): NA

 

Describe reference test : clinical diagnosis

3,0 ± 0,8 years

 

Cut-off point(s): NR

Time between the index test and reference test:

3,0 ± 0,8

 

For how many participants were no complete outcome data available? unclear

 

Accuracy measures (sens, spec, PPV, NPV).

 

Sens: 91%

Spec: 71%

 

 Seppi, 2004

Type of study[25]: prospective cohort

 

Setting:

hospital

 

Country: Austria

 

Conflicts of interest: supported by Austrian

Federal Ministry of Science and Transport

Inclusion criteria: patients with probable MSA-P or PD.

 

Exclusion criteria: NR

 

N=32 (17 PD, 15 MSA-P)

 

Mean age ± SD:

PD: 60.1 ± 10.6

MSA-P: 63.9 ± 5.6

 

Sex: M/F ratio:

NR

 

Mean disease duration ± SD (yrs):

PD: 3.9 ± 0.9

MSA-P: 3.1 ± 1.5

 

Describe index test:123I-IBZM-SPECT

 

Cut-off point(s): activity ratios of striatal to frontal cortex uptake (S/FC) were used as a semiquantitative measure of the relative density of basal ganglia dopamine receptors

 

S/FC was considered normal if ratio > 1.53

 

Comparator test[26]: NA

Cut-off point(s): NA

 

Describe reference test[27]: clinical follow-up for at least 2 yrs

 

Cut-off point(s): established clinical criteria

 

 

Time between the index test and reference test: 2 yrs

 

For how many participants were no complete outcome data available? None

 

Reasons for incomplete: NA

 

Accuracy measures (sens, spec, PPV, NPV).

 

S/FC values:

Sens: 80%

Spec: 71%

 

Striatal rADC:

Sens: 93%

Spec: 100%

 

 

Risk of bias assessment diagnostic accuracy studies (QUADAS II, 2011)

Research question: wat is de diagnostische accuratesse van een 18F-FDG PET of 123I-IBZM SPECT scan tav het stellen van de differentiaaldiagnose bij patiënten met parkinsonisme?

Study reference

Patient selection

 

 

Index test

Reference standard

Flow and timing

Comments with respect to applicability

Aerts, 2015

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, blinded to the clinical information.

 

If a threshold was used, was it pre-specified?

Yes

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes, 3 yrs

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis? No, 29% lost in follow-up for final diagnosis. Besides, n=20 out of 110 with final diagnosis (18%) did not have 123-IBZM-SPECT (index-test).

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: HIGH

 

Tripathi, 2013

Was a consecutive or random sample of patients enrolled?

Unclear

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, blinded evaluation.

 

If a threshold was used, was it pre-specified?

Yes

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes 2 yrs

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? No, 18% excluded due to lack of clinical FU or alternative clinical diagnosis.

 

 

Are there concerns that the included patients do not match the review question? No

 

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Brajkovic, 2017

Was a consecutive or random sample of patients enrolled?

yes

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, 2 yrs

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Garreaux, 2013

Was a consecutive or random sample of patients enrolled?

Unclear

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Unclear

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear

 

If a threshold was used, was it pre-specified?

Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, on average 8 yrs

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Tang, 2010

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

No

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, 2 years, in subgroup.

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: HIGH

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Pifarre, 2010

Was a consecutive or random sample of patients enrolled?

No

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Unclear

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

No

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, 2 years.

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: HIGH

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: HIGH

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Seppi, 2004

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

No

 

Did the study avoid inappropriate exclusions?

Unclear

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

No

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, 2 years.

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: HIGH

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Tripathi, 2016

Was a consecutive or random sample of patients enrolled? Yes, probably, patients who visited the clinical between nov 2008-jan 2011

 

Was a case-control design avoided? yes

 

Did the study avoid inappropriate exclusions?

yes

 

Were the index test results interpreted without knowledge of the results of the reference standard? Yes

 

If a threshold was used, was it pre-specified? Yes, probably as the authors refer to protocols from previous work (proof-of-principle study)

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test? Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, average of 2.2 yrs

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question? No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Eckert, 2005

Was a consecutive or random sample of patients enrolled? unclear

 

Was a case-control design avoided? no

 

Did the study avoid inappropriate exclusions? yes

 

Were the index test results interpreted without knowledge of the results of the reference standard? Yes, blinded computer evaluation. Unclear for visual evaluation of scan.

 

If a threshold was used, was it pre-specified? Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test? Yes

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes, average 2.1 yrs

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? No, patients excluded due to lack of FU and structural abnormalities on MRI

 

Are there concerns that the included patients do not match the review question? No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Sudmeyer, 2011

Was a consecutive or random sample of patients enrolled? unclear

 

Was a case-control design avoided? yes

 

Did the study avoid inappropriate exclusions? yes

 

Were the index test results interpreted without knowledge of the results of the reference standard? Unclear

 

If a threshold was used, was it pre-specified? Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test? Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question? No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Koch, 2007

Was a consecutive or random sample of patients enrolled? Yes, consecutive

 

Was a case-control design avoided? yes

 

Did the study avoid inappropriate exclusions? yes

 

Were the index test results interpreted without knowledge of the results of the reference standard? Unclear

 

If a threshold was used, was it pre-specified? Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test? Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question? No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Vlaar, 2007 (Schwartz, 1998)

Was a consecutive or random sample of patients enrolled? unclear

 

Was a case-control design avoided? yes

 

Did the study avoid inappropriate exclusions? unclear

 

Were the index test results interpreted without knowledge of the results of the reference standard? Unclear

 

If a threshold was used, was it pre-specified? Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test? Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question? No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Vlaar, 2007 (Schwartz, 1993)

Was a consecutive or random sample of patients enrolled? unclear

 

Was a case-control design avoided? yes

 

Did the study avoid inappropriate exclusions? unclear

 

Were the index test results interpreted without knowledge of the results of the reference standard? Unclear

 

If a threshold was used, was it pre-specified? Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

No, silver standard reference test

 

Were the reference standard results interpreted without knowledge of the results of the index test? Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard? Yes

 

Did all patients receive a reference standard? Yes

 

Did patients receive the same reference standard? Yes

 

Were all patients included in the analysis? Yes

 

Are there concerns that the included patients do not match the review question? No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question? No

 

 

Are there concerns that the target condition as defined by the reference standard does not match the review question? No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: HIGH

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

 

Judgments on risk of bias are dependent on the research question: some items are more likely to introduce bias than others, and may be given more weight in the final conclusion on the overall risk of bias per domain:

Patient selection:

Consecutive or random sample has a low risk to introduce bias
A case control design is very likely to overestimate accuracy and thus introduce bias.
Inappropriate exclusion is likely to introduce bias.

Index test:

This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.
Selecting the test threshold to optimise sensitivity and/or specificity may lead to overoptimistic estimates of test performance and introduce bias.

Reference standard:

When the reference standard is not 100% sensitive and 100% specific, disagreements between the index test and reference standard may be incorrect, which increases the risk of bias.
This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.

Flow and timing:

If there is a delay or if treatment is started between index test and reference standard, misclassification may occur due to recovery or deterioration of the condition, which increases the risk of bias.
If the results of the index test influence the decision on whether to perform the reference standard or which reference standard is used, estimated diagnostic accuracy may be biased.
All patients who were recruited into the study should be included in the analysis, if not, the risk of bias is increased.

 

Judgement on applicability:

Patient selection: there may be concerns regarding applicability if patients included in the study differ from those targeted by the review question, in terms of severity of the target condition, demographic features, presence of differential diagnosis or co-morbidity, setting of the study and previous testing protocols.

Index test: if index tests methods differ from those specified in the review question there may be concerns regarding applicability.

Reference standard: the reference standard may be free of bias but the target condition that it defines may differ from the target condition specified in the review question.

 

Tabel Exclusie na het lezen van het volledige artikel

Auteur en jaartal

Redenen van exclusie

Tomse, 2017-a

Geen klinische follow-up/PA

Tomse, 2017-b

Te korte follow-up

Caminiti, 2017

Te korte follow-up

Sarikaya, 2015

Geen systematische literatuur review

Niethammer, 2014

Te korte follow-up

Heinzel, 2015

Follow-up onduidelijk

Hellwig, 2012

Te korte follow-up

Botha, 2014

Geen duidelijke follow-up of post-mortem analyse

Baudrexel, 2014

Geen duidelijke follow-up of post-mortem analyse

Poston, 2012

Beschrijft geen data voor diagnostische accuratesse (sens/spec)

Hellwig, 2012

Te korte follow-up

Teune, 2013

Enkel vergelijking met gezonde controles

Srulijes, 2012

Geen duidelijke follow-up of post-mortem analyse

Feng, 2008

Beschrijft geen data voor diagnostische accuratesse (sens/spec)

Derlin, 2014

Te korte follow-up

Vlaar, 2008

Te korte follow-up

Kwon, 2008

Minimale follow-up onduidelijk, slechts n=8 PD patiënten

Kwon, 2007

Geen klinische follow-up/PA

Buchert, 2006

Evaluatie tool ibzm beoordeling; nauwelijks klinische info

Popperl, 2005

Geen klinische follow-up, evaluatie tool ibzm beoordeling, nauwelijks klinische info

Plotkin, 2005

Te korte follow-up

Juh, 2004

Geen klinische follow-up, slechts n=8 IPD patiënten

Hosaka, 2002

Geen klinische follow-up/PA

Ghaemi, 2002

Geen klinische follow-up/PA

Antonini, 1998

Geen klinische follow-up/PA

Antonini, 1997

Geen klinische follow-up/PA

Piert, 1996

Geen klinische follow-up/PA

Eidelberg, 1995

Geen klinische follow-up/PA

Arnold, 1994

Geen klinische follow-up/PA

Eidelberg, 1993

Geen klinische follow-up/PA

Brucke, 1993

Geen klinische follow-up/PA

Tatsch, 1991

Geen klinische follow-up/PA

Akdemir, 2014

Beschrijft geen data voor diagnostische accuratesse (sens/spec)

Aerts, 2015

Beschrijft geen data voor diagnostische accuratesse (sens/spec)


[1] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[2] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[3] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[4] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[5] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[6] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[7] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[8] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[9] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[10] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[11] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[12] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[13] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[14] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[15] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[16] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[17] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[18] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[19] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[20] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[21] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[22] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

4 Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

[23] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[24] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[25] In geval van een case-control design moeten de patiëntkarakteristieken per groep (cases en controls) worden uitgewerkt. NB; case control studies zullen de accuratesse overschatten (Lijmer et al., 1999)

[26] Comparator test is vergelijkbaar met de C uit de PICO van een interventievraag. Er kunnen ook meerdere tests worden vergeleken. Voeg die toe als comparator test 2 etc. Let op: de comparator test kan nooit de referentiestandaard zijn.

[27] De referentiestandaard is de test waarmee definitief wordt aangetoond of iemand al dan niet ziek is. Idealiter is de referentiestandaard de Gouden standaard (100% sensitief en 100% specifiek). Let op! dit is niet de “comparison test/index 2”.

[28] Beschrijf de statistische parameters voor de vergelijking van de indextest(en) met de referentietest, en voor de vergelijking tussen de indextesten onderling (als er twee of meer indextesten worden vergeleken).

Autorisatiedatum en geldigheid

Laatst beoordeeld  : 14-10-2020

Laatst geautoriseerd  : 14-10-2020

Geplande herbeoordeling  : 01-01-2024

Bij het opstellen van de module heeft de werkgroep een inschatting gemaakt over de maximale termijn waarop herbeoordeling moet plaatsvinden en eventuele aandachtspunten geformuleerd die van belang zijn bij een toekomstige herziening (update). De geldigheid van de richtlijnmodule komt eerder te vervallen indien nieuwe ontwikkelingen aanleiding zijn een herzieningstraject te starten.

De andere aan deze richtlijnmodule deelnemende wetenschappelijke verenigingen of gebruikers van de richtlijnmodule delen de verantwoordelijkheid en informeren de regiehouder over relevante ontwikkelingen binnen hun vakgebied

 

Module[1]

Regiehouder(s)[2]

Jaar van autorisatie

Eerstvolgende beoordeling actualiteit richtlijn[3]

Frequentie van beoordeling op actualiteit[4]

Wie houdt er toezicht op actualiteit[5]

Relevante factoren voor wijzigingen in aanbeveling[6]

Module 3: FDG PET / IBZM scan

NVNG

2018

2023

Eens in 5 jaar

Regievoerende vereniging

Er zijn nieuwe ontwikkelingen in technieken of logistieke veranderingen


[1] Naam van de module

[2] Regiehouder van de module (deze kan verschillen per module en kan ook verdeeld zijn over meerdere regiehouders)

[3] Maximaal na vijf jaar

[4] (half)Jaarlijks, eens in twee jaar, eens in vijf jaar

[5] regievoerende vereniging, gedeelde regievoerende verenigingen, of (multidisciplinaire) werkgroep die in stand blijft

[6] Lopend onderzoek, wijzigingen in vergoeding/organisatie, beschikbaarheid nieuwe middelen

Initiatief en autorisatie

Initiatief:
  • Nederlandse Vereniging voor Nucleaire geneeskunde
Geautoriseerd door:
  • Nederlandse Vereniging voor Neurologie
  • Nederlandse Vereniging voor Nucleaire geneeskunde
  • Nederlandse Vereniging voor Radiologie
  • Vereniging van Specialisten Ouderengeneeskunde
  • Verpleegkundigen en Verzorgenden Nederland
  • Parkinson Vereniging

Algemene gegevens

De richtlijnontwikkeling werd ondersteund door het Kennisinstituut van Medisch Specialisten en werd gefinancierd uit de Kwaliteitsgelden Medisch Specialisten (SKMS). De financier heeft geen enkele invloed gehad op de inhoud van de richtlijn.

Samenstelling werkgroep

Werkgroep:

  • Prof. dr. J. Booij, nucleair geneeskundige, Amsterdam UMC, locatie AMC, Nederlandse Vereniging voor Nucleaire Geneeskunde, voorzitter
  • Prof. dr. H.W. Berendse, neuroloog, Amsterdam UMC, locatie VUmc, Nederlandse Vereniging voor Neurologie
  • Dr. S.A. Eshuis, nucleair geneeskundige, Medisch Centrum Leeuwarden, Nederlandse Vereniging voor Nucleaire Geneeskunde
  • Drs. M.M. van het Hoofd, beleidsmedewerker Parkinson Vereniging, Bunnik
  • Dr. F.J.A. Meijer, neuro- en hoofdhals radioloog, Radboud UMC Nijmegen, Nederlandse Vereniging voor Radiologie

 

Met ondersteuning van:

  • Dr. A. Vaes, adviseur Kennisinstituut van de Federatie Medisch Specialisten (tot januari 2019)
  • Dr. E.M.E. den Breejen, senior adviseur Kennisinstituut van de Federatie Medisch Specialisten (tot juni 2019)
  • Dr. W.J. Harmsen, adiseur Kennisinstituut van de Federatie Medisch Specialisten

Belangenverklaringen

In de verschillende fasen van de richtlijnontwikkeling is rekening gehouden met de implementatie van de richtlijn (module) en de praktische uitvoerbaarheid van de aanbevelingen. Daarbij is uitdrukkelijk gelet op factoren die de invoering van de richtlijn in de praktijk kunnen bevorderen of belemmeren. Het implementatieplan is te vinden in de bijlagen.

Inbreng patiëntenperspectief

Er werd aandacht besteed aan het patiëntenperspectief door een afgevaardigde van de Parkinson Vereniging in de werkgroep. De conceptmodule is tevens voor commentaar voorgelegd aan de Parkinson Vereniging.

Methode ontwikkeling

Evidence based

Implementatie

In de verschillende fasen van de richtlijnontwikkeling is rekening gehouden met de implementatie van de richtlijn (module) en de praktische uitvoerbaarheid van de aanbevelingen. Daarbij is uitdrukkelijk gelet op factoren die de invoering van de richtlijn in de praktijk kunnen bevorderen of belemmeren. Het implementatieplan is te vinden in de bijlagen.

Werkwijze

AGREE

Deze richtlijn is opgesteld conform de eisen vermeld in het rapport Medisch Specialistische Richtlijnen 2.0 van de adviescommissie Richtlijnen van de Raad Kwaliteit. Dit rapport is gebaseerd op het AGREE II instrument (Appraisal of Guidelines for Research & Evaluation II; Brouwers, 2010), dat een internationaal breed geaccepteerd instrument is. Voor een stap-voor-stap beschrijving hoe een evidence-based richtlijn tot stand komt wordt verwezen naar het stappenplan Ontwikkeling van Medisch Specialistische Richtlijnen van het Kennisinstituut van de Federatie Medisch Specialisten.

 

Knelpuntenanalyse

Tijdens de voorbereidende fase inventariseerden de voorzitter van de werkgroep en de adviseur de knelpunten. Tevens zijn er knelpunten aangedragen door stakeholderpartijen via een invitational conference. Een verslag hiervan is opgenomen onder aanverwante producten.

 

De werkgroep beoordeelde de aanbevelingen uit de eerdere richtlijn ziekte van Parkinson (NVN, 2010) op noodzaak tot revisie. Tevens zijn er knelpunten aangedragen tijdens de invitational conference. De werkgroep stelde vervolgens een long list met knelpunten op en prioriteerde de knelpunten op basis van: (1) klinische relevantie, (2) de beschikbaarheid van (nieuwe) evidence van hoge kwaliteit, (3) en de te verwachten impact op de kwaliteit van zorg en patiëntveiligheid

 

Uitgangsvragen en uitkomstmaten

Op basis van de uitkomsten van de knelpuntenanalyse zijn door de voorzitter en de adviseur concept-uitgangsvragen opgesteld. Deze zijn met de werkgroep besproken waarna de werkgroep de definitieve uitgangsvragen heeft vastgesteld. Vervolgens inventariseerde de werkgroep per uitgangsvraag welke uitkomstmaten voor de patiënt relevant zijn, waarbij zowel naar gewenste als ongewenste effecten werd gekeken. De werkgroep waardeerde deze uitkomstmaten volgens hun relatieve belang bij de besluitvorming rondom aanbevelingen, als cruciaal (kritiek voor de besluitvorming), belangrijk (maar niet cruciaal) en onbelangrijk. Tevens definieerde de werkgroep tenminste voor de cruciale uitkomstmaten welke verschillen zij klinisch (patiënt) relevant vonden.

 

Strategie voor zoeken en selecteren van literatuur

Voor de afzonderlijke uitgangsvragen werd aan de hand van specifieke zoektermen gezocht naar gepubliceerde wetenschappelijke studies in (verschillende) elektronische databases. Tevens werd aanvullend gezocht naar studies aan de hand van de literatuurlijsten van de geselecteerde artikelen. In eerste instantie werd gezocht naar studies met de hoogste mate van bewijs. De werkgroepleden selecteerden de via de zoekactie gevonden artikelen op basis van vooraf opgestelde selectiecriteria. De geselecteerde artikelen werden gebruikt om de uitgangsvraag te beantwoorden. De databases waarin is gezocht, de zoekstrategie en de gehanteerde selectiecriteria zijn te vinden in de module met desbetreffende uitgangsvraag. De zoekstrategie voor de oriënterende zoekactie en patiëntenperspectief zijn opgenomen onder aanverwante producten.

 

Kwaliteitsbeoordeling individuele studies

Individuele studies werden systematisch beoordeeld, op basis van op voorhand opgestelde methodologische kwaliteitscriteria, om zo het risico op vertekende studieresultaten (risk of bias) te kunnen inschatten. Deze beoordelingen kunt u vinden in de Risk of Bias (RoB) tabellen. De gebruikte RoB instrumenten zijn gevalideerde instrumenten die worden aanbevolen door de Cochrane Collaboration: AMSTAR - voor systematische reviews; Cochrane - voor gerandomiseerd gecontroleerd onderzoek.

 

Samenvatten van de literatuur

De relevante onderzoeksgegevens van alle geselecteerde artikelen werden overzichtelijk weergegeven in evidencetabellen. De belangrijkste bevindingen uit de literatuur werden beschreven in de samenvatting van de literatuur. Bij een voldoende aantal studies en overeenkomstigheid (homogeniteit) tussen de studies werden de gegevens ook kwantitatief samengevat (meta-analyse) met behulp van Review Manager 5.

 

Beoordelen van de kracht van het wetenschappelijke bewijs

A) Voor interventievragen (vragen over therapie of screening)

De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode. GRADE staat voor ‘Grading Recommendations Assessment, Development and Evaluation’ (zie http://www.gradeworkinggroup.org/).

 

GRADE onderscheidt vier gradaties voor de kwaliteit van het wetenschappelijk bewijs: hoog, redelijk, laag en zeer laag. Deze gradaties verwijzen naar de mate van zekerheid die er bestaat over de literatuurconclusie (Schünemann, 2013). De zekerheid van het bewijs wordt beïnvloed door beperkingen in studieopzet- of uitvoering (risk of bias), imprecisie, inconsistentie, indirectheid en publicatiebias.

 

GRADE

Definitie

Hoog

  • er is hoge zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • het is zeer onwaarschijnlijk dat de literatuurconclusie verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Redelijk*

  • er is redelijke zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • het is mogelijk dat de conclusie verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Laag

  • er is lage zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • er is een reële kans dat de conclusie verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Zeer laag

  • er is zeer lage zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • de literatuurconclusie is zeer onzeker.

*in 2017 heeft het Dutch GRADE Network bepaald dat de voorkeursformulering voor de op een na hoogste gradering ‘redelijk’ is in plaats van ‘matig’

 

B) Voor vragen over diagnostische tests, schade of bijwerkingen, etiologie en prognose

De kracht van het wetenschappelijke bewijs werd eveneens bepaald volgens de GRADE-methode: GRADE-diagnostiek voor diagnostische vragen (Schünemann, 2008) en een generieke GRADE-methode voor vragen over schade of bijwerkingen, etiologie en prognose. In de gehanteerde generieke GRADE-methode werden de basisprincipes van de GRADE-methodiek toegepast: het benoemen en prioriteren van de klinisch (patiënt) relevante uitkomstmaten, een systematische review per uitkomstmaat, en een beoordeling van bewijskracht op basis van de vijf GRADE-criteria (startpunt hoog; downgraden voor risk of bias, inconsistentie, indirectheid, imprecisie, en publicatiebias).

 

Formuleren van de conclusies

Voor elke relevante uitkomstmaat werd het wetenschappelijk bewijs samengevat in een of meerdere literatuurconclusies waarbij het niveau van bewijs werd bepaald volgens de GRADE-methodiek. De formulering van de conclusies hangt af van de bewijskracht. De werkgroepleden maakten de balans op van elke interventie (overall conclusie). Bij het opmaken van de balans werden de gunstige en ongunstige effecten voor de patiënt afgewogen. De overall bewijskracht wordt bepaald door de laagste bewijskracht gevonden bij een van de cruciale uitkomstmaten. Bij complexe besluitvorming waarin naast de conclusies uit de systematische literatuuranalyse vele aanvullende argumenten (overwegingen) een rol spelen, werd afgezien van een overall conclusie. In dat geval werden de gunstige en ongunstige effecten van de interventies samen met alle aanvullende argumenten gewogen onder het kopje 'Overwegingen'.

 

Overwegingen (van bewijs naar aanbeveling)

Om te komen tot een aanbeveling zijn naast (de kwaliteit van) het wetenschappelijke bewijs ook andere aspecten belangrijk en worden meegewogen, zoals de expertise van de werkgroepleden, de waarden en voorkeuren van de patiënt (patient values and preferences), kosten, beschikbaarheid van voorzieningen en organisatorische zaken. Deze aspecten worden, voor zover geen onderdeel van de literatuursamenvatting, vermeld en beoordeeld (gewogen) onder het kopje ‘Overwegingen’.

 

Formuleren van aanbevelingen

De aanbevelingen geven antwoord op de uitgangsvraag en zijn gebaseerd op het beschikbare wetenschappelijke bewijs en de belangrijkste overwegingen, en een weging van de gunstige en ongunstige effecten van de relevante interventies. De kracht van het wetenschappelijk bewijs en het gewicht dat door de werkgroep wordt toegekend aan de overwegingen, bepalen samen de sterkte van de aanbeveling. Conform de GRADE-methodiek sluit een lage bewijskracht van conclusies in de systematische literatuuranalyse een sterke aanbeveling niet a priori uit, en zijn bij een hoge bewijskracht ook zwakke aanbevelingen mogelijk. De sterkte van de aanbeveling wordt altijd bepaald door weging van alle relevante argumenten tezamen.

 

Randvoorwaarden (Organisatie van zorg)

In de knelpuntenanalyse en bij de ontwikkeling van de richtlijn is expliciet rekening gehouden met de organisatie van zorg: alle aspecten die randvoorwaardelijk zijn voor het verlenen van zorg (zoals coördinatie, communicatie, (financiële) middelen, menskracht en infrastructuur). Randvoorwaarden die relevant zijn voor het beantwoorden van een specifieke uitgangsvraag maken onderdeel uit van de overwegingen bij de bewuste uitgangsvraag. Meer algemene, overkoepelende, of bijkomende aspecten van de organisatie van zorg worden behandeld in de module Netwerkzorg.

 

Kennislacunes

Tijdens de ontwikkeling van deze richtlijn is systematisch gezocht naar onderzoek waarvan de resultaten bijdragen aan een antwoord op de uitgangsvragen. Bij elke uitgangsvraag is door de werkgroep nagegaan of er (aanvullend) wetenschappelijk onderzoek gewenst is om de uitgangsvraag te kunnen beantwoorden. Een overzicht van de onderwerpen waarvoor (aanvullend) wetenschappelijk van belang wordt geacht, is als aanbeveling in de Kennislacunes beschreven (onder aanverwante producten in de bijlagen).

 

Commentaar- en autorisatiefase

De conceptrichtlijn werd aan de betrokken (wetenschappelijke) verenigingen en (patiënten) organisaties voorgelegd ter commentaar. De commentaren werden verzameld en besproken met de werkgroep. Naar aanleiding van de commentaren werd de conceptrichtlijn aangepast en definitief vastgesteld door de werkgroep. De definitieve richtlijn werd aan de deelnemende (wetenschappelijke) verenigingen en (patiënt)organisaties voorgelegd voor autorisatie en door hen geautoriseerd dan wel geaccordeerd.

 

 

Literatuur

Brouwers, M. C., Kho, M. E., Browman, G. P., Burgers, J. S., Cluzeau, F., Feder, G., ... & Littlejohns, P. (2010). AGREE II: advancing guideline development, reporting and evaluation in health care. Canadian Medical Association Journal, 182(18), E839-E842.

Medisch Specialistische Richtlijnen 2.0 (2012). Adviescommissie Richtlijnen van de Raad Kwalitieit. https://richtlijnendatabase.nl/over_deze_site.html

Ontwikkeling van Medisch Specialistische Richtlijnen: stappenplan. Kennisinstituut van Medisch Specialisten.

Schünemann H, Brożek J, Guyatt G, et al. GRADE handbook for grading quality of evidence and strength of recommendations. Updated October 2013. The GRADE Working Group, 2013. Available from http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html.

Schünemann, H. J., Oxman, A. D., Brozek, J., Glasziou, P., Jaeschke, R., Vist, G. E., ... & Bossuyt, P. (2008). Rating Quality of Evidence and Strength of Recommendations: GRADE: Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ: British Medical Journal, 336(7653), 1106.

Wessels, M., Hielkema, L., & van der Weijden, T. (2016). How to identify existing literature on patients' knowledge, views, and values: the development of a validated search filter. Journal of the Medical Library Association: JMLA, 104(4), 320.

Zoekverantwoording

Zoekacties zijn opvraagbaar. Neem hiervoor contact op met de Richtlijnendatabase.

Volgende:
Motorische klachten - medicamenteuze behandeling