Het vergrote ovarium

Initiatief: NVOG Aantal modules: 16

Diagnostische modellen bij een vergroot ovarium

Uitgangsvraag

Welk diagnostisch model op basis van echoscopie is het meest geschikt om toe te passen voor de differentiatie tussen benigne en maligne adnex pathologie?

Aanbeveling

Overweeg voor differentiatie tussen benigne en maligne adnexpathologie bij een vergroot ovarium gebruik te maken van het International Ovarian Tumor Analaysis (IOTA) ADNEX model.

 

Overweeg voor de beslissing wel/ niet verwijzen naar een gynaecologische oncoloog een afkapwaarde van 40% voor het ADNEX model te hanteren om een vergelijkbare specificiteit te behouden als de Risk of Malignancy Index (RMI) (cut-off 200).

 

Gebruik het IOTA ADNEX model alleen bij adequate kennis en voldoende expertise van de noodzakelijk IOTA echo variabelen.

 

Overweeg binnen elke maatschap of vakgroep om minimaal één gynaecoloog op te leiden in het echoscopisch onderzoek van het vergroot ovarium en te trainen/scholen in het correct gebruik van de gestandaardiseerde IOTA echovariabelen en het IOTA ADNEX model.

Overwegingen

De onderstaande overwegingen en aanbevelingen gelden voor het overgrote deel van de populatie waarop de uitgangsvraag betrekking heeft.

 

Voor- en nadelen van de interventie en de kwaliteit van het bewijs

Op basis van de literatuuranalyse lijkt de diagnostische accuratesse van het IOTA Simple Rules model alsmede de IOTA predictiemodellen (LR2 en ADNEX) gelijk of zelfs hoger te zijn dan de diagnostische accuratesse van het RMI model voor een aantal specifieke uitkomstmaten. De bevindingen uit de literatuur worden hieronder per model beschreven. Alle bevindingen berusten op observationeel onderzoek. Het ontbreken van RCT’s binnen diagnostisch onderzoek wordt gezien als kennislacune.

 

1. Simple Rules model

In de bijlage ‘Diagnostische modellen’ zijn afbeeldingen van de verschillende IOTA-modellen te zien. Zie figuur 4. in de bijlage ‘Diagnostische modellen’ voor het Simple Rules model.

 

Mogelijk zijn de gemiddelde negatief voorspellende waarde en de sensitiviteit van het model Simple Ultrasound Rules + expert beoordeling hoger dan die van het RMI model (cut-off 200) en is er mogelijk geen verschil tussen de gemiddelde positief voorspellende waarde en specificiteit van de Simple Ultrasound Rules + expert beoordeling en het RMI model. In de praktijk betekent dit dat er meer patiënten met een maligniteit van het ovarium geselecteerd worden op basis van het Simple Rules model (met expert beoordeling voor inconclusieve tumoren), zonder dat dit leidt tot meer foutpositieve uitslagen en dus onnodige verwijzingen naar een derdelijns gynaecologisch oncologisch centrum.

 

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het Simple Ultrasound Rules + expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).

 

Mogelijk zijn de gemiddelde negatief voorspellende waarde en de sensitiviteit van het Simple Rules model (met classificatie maligne bij inconclusieve tumoren) hoger dan die van het RMI model (cut-off 200), is mogelijk de gemiddelde positief voorspellende waarde van het Simple Ultrasound Rules model lager dan die van het RMI model en is onduidelijk of er een verschil is in specificiteit tussen beide modellen. In de praktijk betekent dit dat er meer patiënten met een maligniteit van het ovarium geselecteerd worden op basis van het Simple Rules model (met classificatie maligne bij inconclusieve tumoren), doch mogelijk leidt dit tot meer fout positieve uitslagen en dus onnodige verwijzingen naar een derdelijns gynaecologisch oncologisch centrum.

 

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit en specificiteit voor de diagnostische accuratesse van de het Simple Rules model (met expert beoordeling voor inconclusieve tumoren) voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag gezien het observationele onderzoeksdesign en is met één niveau verlaagd vanwege het ernstige risico op bias (heterogeniteit onderzoekspopulaties en beperkingen beoordeling referentietest).

 

2. IOTA ADNEX model

Zie figuur 5. de bijlage ‘Diagnostische modellen’ voor een weergave van het IOTA ADNEX model.

 

De negatief voorspellende waarde (NPV) van het IOTA ADNEX model (cut-off 10%) is mogelijk hoger dan die van het RMI-model (cut-off 200). De positief voorspellende waarde (PPV) is mogelijk gelijk tussen het IOTA ADNEX model (cut-off 10%) en het RMI model (cut-off 200). De NPV en PPV zijn niet onderzocht voor andere afkapwaarden van het IOTA ADNEX model.

 

De sensitiviteit van het IOTA ADNEX model is voor de afkapwaarden 1%, 3%, 5%, 10%, 15%, 20%, 25%, 30% en 40% mogelijk hoger dan het RMI-model (cut-off 200). De sensitiviteit van het IOTA ADNEX model is mogelijk gelijk aan dat van het RMI-model (cut-off 200) bij afkapwaarden van 50%.

 

De specificiteit van het IOTA ADNEX model is voor de afkapwaarden 1%, 3%, 5% mogelijk lager dan het RMI model (cut-off 200). De specificiteit van het IOTA ADNEX model is voor de afkapwaarden 10%, 15%, 20%, 25%, 30%, 40% en 50% mogelijk gelijk aan het RMI-model (cut-off 200).

 

De NPV, PPV, sensitiviteit en specificiteit van een test zijn sterk afhankelijk van de cut-off die men kiest. Bij een lage cut-off, zoals bij het IOTA ADNEX model (bijvoorbeeld 10%) verhoog je de sensitiviteit ten koste van verlies in specificiteit. Idem vice versa, waarbij dit ook geldt voor het RMI-model.

 

De AUC van het IOTA ADNEX model is mogelijk significant hoger dan die van het RMI-model, dit betekent dat wanneer een cut-off wordt gekozen waarbij beide testen eenzelfde specificiteit hebben het IOTA ADNEX model altijd nog een hogere sensitiviteit heeft. Wanneer de keuze voor de cut-off zo valt dat beide testen een gelijke sensitiviteit hebben, zal de specificiteit van het IOTA ADNEX model altijd beter zijn dan die van het RMI-model.

 

Kort samengevat kunnen meer patiënten met een maligne ovariumtumor worden verwezen bij gebruik van het IOTA ADNEX model zonder dat dit hoeft te leiden tot een toename in het aantal fout positieve verwijzingen door de cut-off van 10% te verhogen tot bijvoorbeeld 40% (specificiteit vergelijkbaar met cut-off 200 op basis van RMI-model).

 

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van het ADNEX-model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).

 

3. IOTA LR2 model

Zie figuur 6. de bijlage ‘Diagnostische modellen’ voor een weergave van het IOTA LR2 model.

 

De negatief voorspellende waarde (NPV) van het IOTA LR2 model (cut-off 10%) is mogelijk gelijk aan die van het RMI-model (cut-off 200), de positief voorspellende waarde (PPV) is mogelijk lager van het LR2 model (cut-off 10%). De NPV en PPV zijn niet onderzocht voor andere afkapwaarden van het IOTA LR2 model.

 

De sensitiviteit van het IOTA LR2 model is voor de afkapwaarden 1%, 3%, 5%, 10%, 15%, 20%, 25% en 30% mogelijk hoger dan het RMI-model (cut-off 200). De sensitiviteit van het IOTA LR2 model is mogelijk gelijk aan dat van het RMI-model (cut-off 200) bij afkapwaarden van 40% of 50%.

 

De specificiteit van het IOTA LR2 model is voor de afkapwaarden 1%, 3%, 5% mogelijk lager dan het RMI-model (cut-off 200). De specificiteit van het IOTA LR2 model is voor de afkapwaarden 10%, 15%, 20%, 25%, 30%, 40% en 50% mogelijk gelijk aan het RMI-model (cut-off 200).

 

Dit betekent in de praktijk dat er meer terechte diagnoses van ovarium carcinoom kunnen worden gesteld bij gebruik van het LR2-model zonder dat dit per se hoeft te leiden tot een toename in het aantal foutpositieve diagnoses.

De NPV, PPV, sensitiviteit en specificiteit van een test zijn sterk afhankelijk van de cut-off die men kiest. Bij een lage cut-off zoals bij het LR2-model verhoog je je sensitiviteit ten koste van verlies in specificiteit. Idem vice versa, waarbij dit ook geldt voor het RMI-model.

 

De AUC van het LR2-model is mogelijk significant hoger dan die van het RMI-model, dit betekent dat wanneer een cut-off wordt gekozen waarbij beide testen eenzelfde specificiteit hebben het LR2-model altijd nog een hogere sensitiviteit heeft. Wanneer de keuze voor de cut-offs zo valt dat beide testen een gelijke sensitiviteit hebben, zal de specificiteit van het IOTA LR2 model altijd beter zijn dan die van het RMI-model.

 

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het LR2-model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).

 

4. Expert beoordeling

Mogelijk zijn de negatief voorspellende waarde, de sensitiviteit, de specificiteit en de positief voorspellende waarden van een expert beoordeling hoger dan die van het RMI-model.

 

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).

 

Interpretatie resultaten literatuuranalyse

De resultaten van de literatuuranalyse suggereren dat, vergeleken met het RMI-model, het IOTA Simple Rules model en de IOTA predictiemodellen (LR2 en ADNEX), waarbij de gerapporteerde cut-off flexibel is in gebruik, van toegevoegde waarde zouden kunnen zijn in het verbeteren van de triage bij ovariumtumoren.

 

Op basis van het onderscheidend vermogen (discriminatie) van verschillende diagnostische modellen geniet het IOTA ADNEX model duidelijk de voorkeur boven de RMI.

 

Het discriminerend vermogen van een predictiemodel zoals het ADNEX-model of RMI alleen zegt niet of dit model dan ook daadwerkelijk in de klinische praktijk nuttig is om te gebruiken voor klinische besluitvorming. Daarom zijn er in de klinische besliskunde verschillende methoden ontwikkeld die in staat zijn om de juist de gevolgen/effecten van een foutpositieve en foutnegatieve classificatie te onderzoeken zoals “decision curve analysis” (Balachandran, 2015; Kerr, 2016; Localio, 2012; Saville, 2015).

 

Deze techniek kan ons helpen om te bepalen of een predictiemodel überhaupt de moeite waard is om te gebruiken, en welk model vanuit klinisch oogpunt de voorkeur verdient. Decision curve analysis is ook al eerder toegepast in het domein van triage bij adnextumoren. Een eerdere studie van (Wynants, 2017) toont in Figuur 7 de bijlage ‘Diagnostische modellen’, deze decision curves voor onder andere het IOTA ADNEX model en RMI. Dit figuur illustreert dat voor elke cut off van het IOTA ADNEX model variërend tussen 5 en 50% de NB (“net benefit”) als uitkomstmaat van het IOTA ADNEX model altijd hoger is dan voor het RMI model. Meer specifiek, wanneer we IOTA ADNEX gebruiken voor triage, kunnen we altijd een hoger aantal terechtpositieven correct verwijzen dan wanneer we RMI gebruiken, bij hetzelfde aantal valspositieven. Stel hypothetisch dat bij een cut-off van 40% voor IOTA ADNEX de net benefit 0.05 extra bedraagt ten opzichte van RMI, dan betekent dit dat je netto 5 meer terechtpositieven hebt per 100 vrouwen met een adnextumor, bij hetzelfde aantal foutpositieven.

 

Deze resultaten worden eveneens bevestigd in de studie van Calster (2020). Zie ook Figuur 8 de bijlage ‘Diagnostische modellen’. Decision curve analysis kan voor ons niet bepalen welke “threshold”of cut-off dan moet worden gekozen voor het IOTA ADNEX model in Nederland.

 

IOTA modellen en triage

Naast het gebruik van de IOTA-modellen voor een preoperatief onderscheid tussen een goed- of kwaadaardige adnextumor lijken de IOTA-modellen ook te kunnen worden gebruikt om een expectatief/afwachtend beleid te rechtvaardigen. Dit wordt nu onderzocht binnen de IOTA fase 5 studie (Froyman, 2019), waarbij uiteindelijk met hulp van bijvoorbeeld je risico inschatting op een maligniteit bij gebruik van het IOTA ADNEX model (bijvoorbeeld risico op een maligniteit < 1 %) een expectatief beleid te rechtvaardigen valt bij asymptomatische vrouwen met een ovariële cyste.

 

Een eerder gepubliceerde RCT (Nunes, 2017) laat zien dat klinische implementatie van een triageprotocol met het Simple Rules model ten opzichte van RMI in het Verenigd Koninkrijk minder vaak leidt tot onnodige heelkundige interventies binnen een populatie asymptomatische postmenopauzale patiënten met een benigne adnexcyste.

 

Recent gepubliceerd onderzoek (IOTA fase 5; Froyman, 2019) heeft ook laten zien dat een expectatief beleid veilig lijkt, mits een betrouwbare classificatie van een benigne adnexcyste heeft plaatsgevonden. In de nabije toekomst worden uit deze studie de resultaten verwacht over de vraag of de IOTA-modellen ook gebruikt kunnen worden om die patiënten te selecteren waarbij afwachten veilig lijkt.

 

Waarden en voorkeuren van patiënten (en eventueel hun verzorgers)

Een belangrijk doel voor de patiënt met een afwijkend ovarium is dat een ovariumcarcinoom zo snel mogelijk en zo goed mogelijk kan worden geïdentificeerd. Een correcte diagnose van een maligne massa in een vroeg stadium zal de kans op overleving verbeteren.

 

Een ander belangrijk doel voor de patiënt is het correct classificeren van een massa als benigne. Dit voorkomt dat foutpositieve patiënten ten onrechte doorverwezen worden naar een gynaecologisch oncologisch centrum en dat er besloten wordt tot onnodig aanvullend beeldvormend onderzoek en potentieel een onnodige laparotomie, met of zonder vriescoupe onderzoek.

 

Vergeleken met de huidige situatie (gebruik van het RMI-model), zou bij het gebruik van een IOTA model geen CA 125 meer hoeven te worden geprikt bij de patiënt en kan de diagnose in één consult worden gesteld. Dit betekent dat de patiënt geen bloedafname hoeft te ondergaan en sneller weet waar zij aan toe is, wat mogelijke angst en spanning tot aan het moment van de uitslag wegneemt. Het gebruik van CA 125 in het ADNEX-model is optioneel. Het verbetert niet het onderscheidend vermogen tussen goed- en kwaadaardig. Enkel indien er een sterke verdenking op een maligniteit bestaat en je een onderscheid wenst te maken tussen een ovariële metastase van een andere primaire tumor en een klassiek stadium 2-4 invasief ovariumcarcinoom kan dit nuttig zijn.

 

Een potentieel voordeel van de IOTA predictiemodellen LR2 en ADNEX ten opzichte van RMI is dat beide modellen risico’s op een maligniteit voorspellen, dit in tegenstelling tot het RMI-model dat enkel een score berekend en geen absoluut risico op een maligniteit. Zeker in het licht van “shared decision making” tussen arts en patiënt kunnen deze berekende kansen op een maligniteit mogelijk een steeds belangrijkere rol spelen binnen de besluitvorming voor de patiënt. De werkgroep wil wel benadrukken dat men voorzichtig dient te zijn in het gebruik en specifiek benoemen van kansen op een maligniteit bij de klinische besluitvorming rondom ovariumtumoren wanneer IOTA-modellen worden gehanteerd.

 

RMI is geen risicomodel, als gynaecoloog kan je “verschuilen” achter de waarde (wel/ geen 200) en een patiënte al dan niet verwijzen of behandelen in je eigen centrum. Toch bestaat er voor elke waarde die het RMI-model berekent ook een “kans op een maligniteit”, zoals gepubliceerd in Figuur 2 uit Testa (2014). Deze figuur en bijbehorende data zijn open acces te bekijken via https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4134495/. Het is niet mogelijk de figuur in deze richtlijn op te nemen. De meeste gynaecologen zijn niet op de hoogte van deze kansen en dus worden ze niet meegenomen in de besluitvorming met de patiënte. Testa (2014) rapporteert dat bij een RMI waarde van 200 de kans dat een patiënte een maligne ovariumtumor heeft varieert tussen de 30 en 70%, afhankelijk of je werkt in een algemeen ziekenhuis of oncologisch centrum (zie de bijlage ‘Diagnostische modellen’ - Figuur 9).

 

Kosten (middelenbeslag)

Meys (2018) voerde een economische evaluatie uit om de kosteneffectiviteit van het RMI model te vergelijken met de kosteneffectiviteit van het Simple Rules model met subjectieve beoordeling, het Simple Rules model waarbij inconclusieve resultaten als maligne werden beoordeeld, het LR2-model en het ADNEX model toepast op de Nederlandse setting in 2014. De studie beschreef Nederlandse, volwassen vrouwen met een vergroot ovarium die geopereerd moesten worden (n=6493). De kosten-effectiviteitsanalyse betrof de periode vanaf de detectie van de massa tot het herstel van de chirurgische ingreep (korte termijn). Geanalyseerde kosten betroffen ziekenhuiskosten, patiënt- en familie gerelateerde kosten en overige kosten, zoals afwezigheid op het werk. De resultaten lieten zien dat het Simple Rules model met subjectieve beoordeling het meest kosteneffectief lijkt te zijn, bij een willingness to pay < 350 euro per additioneel percentage correct gediagnosticeerde patiënten. Daarentegen had het RMI model de laagste kans om kosteneffectief te zijn (< 3%) en was dit model inferieur ten opzichte van subjectieve beoordeling door een expert, Simple rules met subjectieve beoordeling door een expert en het IOTA adnex model vanaf een cut off van 27% en het LR2 model vanaf een cut off van 9% (Meys, 2018).

 

De resultaten van de budget impact analyse varieerde van een mogelijke besparing van 4,67 miljoen euro bij het gebruik van Simple rules met subjectieve beoordeling en voorkomt 11.4% incorrecte diagnoses (fout-positieven en fout negatieven) ten opzichte van gebruik van RMI. Bij implementatie van het IOTA ADNEX model in Nederland met een cutoff van 40% zal een kostenbesparing op jaarbasis optreden van ongeveer 2 miljoen euro en zal leiden tot een 5.3% toename in het aantal correcte diagnoses ten opzichte van RMI. (Zie tabel 2 in het artikel van Meys, 2018).

 

Westwood en collega’s (2018) voerden eveneens een kosteneffectiviteitsanalyse in het Groot-Brittannië, waarin de IOTA-modellen kosteneffectiever bleken te zijn dan RMI. Het kosteneffectiviteitsmodel binnen deze studie prioriteert sensitiviteit boven specificiteit. Het IOTA ADNEX model bij een cut off van 10% domineert RMI. Onduidelijk blijft de disutility van een toename in het aantal vals positieven en de hieraan verbonden verwijskosten naar een oncologisch centrum.

 

Aanvaardbaarheid voor de overige relevante stakeholders

Er zijn geen zaken bekend.

 

Haalbaarheid en implementatie

Alle IOTA-modellen zijn momenteel web-based en kosteloos toegankelijk via (www.iotagroup.org), via mobile-apps (deels betaald) (i.e. Apple App store: IOTA-Models (kosteloos) en IOTA ADNEX (20 euro)/ Google PLAY: IOTA ADNEX (20 euro) en eveneens ingebouwd in high-end echotoestellen (GE Healthcare, Samsung) wat het dagelijks gebruik kan vergemakkelijken (zie de bijlage ‘Diagnostische modellen’ - figuur 10).

 

Vergeleken met het RMI model, is bepaling van het serum CA 125 via een bloedafname niet noodzakelijk meer bij het gebruik van een IOTA-model. Dit maakt het mogelijk om triage rondom een afwijkend adnex in één consult af te ronden. Enkel bij gebruik van het IOTA ADNEX model is het bepalen van CA 125 optioneel, doch verbeterd dit niet het onderscheid tussen een goed- en kwaadaardige ovariumtumor. Behoudens de reeds hierboven aangehaalde studie van Nunes (2017) zijn er geen andere gerandomiseerde implementatiestudies verricht die de IOTA-modellen hebben vergeleken met RMI in de dagelijkse praktijk.

 

Een belangrijke voorwaarde voor de implementatie van de IOTA-modellen in de dagelijkse praktijk is dat de gynaecoloog gedegen kennis van het gebruik van het IOTA-model en de definities van de echovariabelen heeft. Wetenschappelijk onderzoek suggereert dat onervaren gebruikers zonder gedegen training in de IOTA terminologie en definities vaker foutief diagnosticeren dan ervaren gebruikers (Meys, 2017b).

 

In Nederland is er sinds 2016 de mogelijkheid om gynaecologen en AIOS specifiek te trainen in het correct gebruik van de IOTA-modellen bij de cursus ‘Echografie van het vergrote ovarium: Nederlandse IOTA cursus’. Daarnaast zijn er internationaal ook talrijke gelegenheden waar training mogelijk is (www.iotagroup.org). Het volgen van een cursus maakt de gynaecoloog nog geen expert in IOTA modellen, het is daarnaast ook belangrijk om door voldoende exposure de benodigde expertise op te bouwen. Zie ook de module ‘Organisatie van Zorg’.

 

In vergelijking met de andere IOTA-modellen, kent het ADNEX-model het hoogste gebruiksgemak. In het model zijn enkel “low-cost” echovariabelen (maximale diameter (mm), maximale diameter grootste soliede component (mm), aanwezigheid van meer dan 10 loci (ja/nee), aantal papillaire structuren (1,2,3 of > 3), aanwezigheid schaduw (ja/nee), aanwezigheid ascites (ja/nee)) geïncorporeerd welke in hoge mate gelijken op de huidige echovariabelen in RMI (zie de bijlage ‘Diagnostische modellen’ - Figuur 5). Kleurendoppler, een “high-cost” echovariabele (hoge mate van interobserver variatie, sterk afhankelijk van setting echotoestel) is juist daarom verlaten. Daarbij is het ADNEX model op elke tumor toepasbaar, en is het tevens in staat om te voorspellen met welk type maligne tumor je te maken hebt (multiclass risicopredictie: i.e. benigne ovariumcyste, borderline ovariumtumor, stadium 1 invasief ovariumcarcinoom, stadium 2-4 invasief ovariumcarcinoom en een metastatische tumor naar het ovarium (zie de bijlage ‘Diagnostische modellen’ 3 - Figuur 11)). Dit is zeer belangrijk omdat de behandeling voor verschillende maligne adnextumoren anders is. Op basis van deze punten geniet het ADNEX-model volgens de werkgroep de voorkeur ten opzichte van de andere IOTA-modellen. Voorafgaand aan implementatie van het IOTA ADNEX model zal landelijk eerst nog overeenstemming moeten worden bereikt met betrekking tot de gebruikte cut-off. Cut-offs van predictiemodellen zijn niet statisch, doch flexibel. De keuze voor een bepaalde cut-off die wordt gepresenteerd in een wetenschappelijk artikel zijn enkel een stip (met bijbehorende sensitiviteit en specificiteit) op de bijgeleverde ROC curve van het model. De keuze voor een bepaalde cut-off bij gebruik van een risicomodel voor onderscheid tussen benigne en maligne ovariumtumoren is afhankelijk van veel verschillende factoren.

 

In de eerste en de belangrijkste plaats de optimale balans tussen sensitiviteit en specificiteit, die wenselijk wordt geacht binnen het zorglandschap rondom ovariumcarcinoom in Nederland. Er lijkt in ieder geval geen toename te moeten ontstaan in het aantal foutpositieve gevallen. Dit lijkt niet wenselijk gezien de huidige capaciteitsproblemen die zijn ontstaan na het centraliseren van de zorg voor ovariumcarcinoom in Nederland.

 

Met de huidige keuze voor RMI met een cut-off van 200 impliceert men dat in Nederland specificiteit boven sensitiviteit wordt geprefereerd. In dit kader lijkt een cut-off van 40% in plaats van de 10% (Van Calster, 2014) voor het IOTA ADNEX model een logische keuze aangezien de specificiteit vergelijkbaar is met RMI met een cut-off van 200. Daarentegen zullen bij een IOTA ADNEX (cut-off 40%) echter méér patiënten terecht een diagnose ovariumcarcinoom verkrijgen dan bij gebruik van RMI 200. Ook decision curve analysis onderstreept deze keuze zoals hier boven beschreven.

 

Dit wordt verder geïllustreerd aan de hand van tabellen 3.5 en 3.6 waarbij gebruik gemaakt is van data uit de IOTA fase 1, 1b, 2 en 3 studies. Hierin werden 2070 patiënten met een afwijkend ovarium voorafgaand aan een ingreep onderzocht in 8 niet-oncologische centra. Tabel 5 laat zien dat bij IOTA ADNEX (cut-off 40%) bij ongeveer gelijke specificiteit een hogere sensitiviteit heeft dan RMI (cut-off 200).

 

Tabel 5 Diagnostische accuratesse RMI (cut-off 200) en ADNEX (cut-off 40%) berekend op basis van data uit IOTA fase 1, 1b, 2 en 3 studie

Sensitiviteit en specificiteit voor RMI (cut-off 200) en het ADNEX model (cut-off 40%) voor alle patiënten (n=2070)

Strategie

Sensitiviteit

95%CI

 

Specificiteit

95%CI

 

RMI 200

59.2

50.9

67.1

94.8

91.5

96.8

ADNEX 40%

70.8

60.1

79.6

96.4

93.9

97.9

 

Eveneens in de pas verschenen publicatie vanuit IOTA fase 5 werd gevonden dat het IOTA ADNEX model bij een cut off van 40% dezelfde specificiteit geniet als RMI met een cut-off van 200 (95%), doch een hogere sensitiviteit heeft (73% ten opzichte van 60%) (Van Calster, 2020).

 

In de klinische praktijk zal niet voor elke tumor van het ovarium een model noodzakelijk zijn om een diagnose te stellen. In veel gevallen is een dermoïdcyste, endometrioma, simpele cyste of een vergevorderd ovariumcarcinoom direct tijdens de echoscopie te herkennen zonder gebruik te maken van een model. Deze “instant diagnoses” zijn mogelijk door gebruik te maken van de zogenoemde “easy descriptors” van diezelfde IOTA groep. Afhankelijk van de studiepopulatie en dus case mix is soms 40% van alle tumoren direct classeerbaar.

 

De diagnostische testeigenschappen van RMI (cut-off 200) en het IOTA ADNEX model (cut-off 40%) wanneer deze “easy cases” buiten beschouwing worden gelaten worden in tabel 3.6 getoond. Ook hier is bij ongeveer gelijke specificiteit (+/-90%), de sensiviteit van IOTA ADNEX (cut-off 40%) hoger dan RMI (cut-off 200).

 

Tabel 6 Diagnostische accuratesse RMI (cut-off 200) en ADNEX (cut-off 40%) zonder “easy cases” berekend op basis van data uit IOTA fase 1, 1b, 2 en 3 studie

Sensitiviteit en specificiteit voor RMI (cut off 200) en het ADNEX model (cut off 40%) voor patiënten (n=1332) met een adnextumor niet classeerbaar met behulp van Easy Descriptors

Stategie

Sensitiviteit

95%CI

 

Specificiteit

95%CI

 

RMI 200

59.6

50.6

67.9

91.7

86.1

95.2

ADNEX 40%

71.1

59.3

80.6

93.5

89.6

96.0

 

Uitdagingen met betrekking tot de haalbaarheid en implementatie van het IOTA ADNEX model in Nederland worden ook onderschreven in de meest recente versie van de NICE guidance: Tests in secondary care to identify people at high risk of ovarian cancer (2017).

 

Het IOTA ADNEX model wordt hierin ook neergezet als een zeer veel belovende diagnostische test, die op dit moment echter nog niet routinematig kan worden geïmplementeerd voor triage van patiënten met een hoog risico op ovariumcarcinoom naar een oncologisch centrum in het Verenigd Koninkrijk. Meer onderzoek lijkt nodig naar diagnostische accuratesse en de impact op klinische besluitvorming. Dit onderzoek vindt momenteel ook plaats in het Verenigd Koninkrijk: Refining Ovarian Cancer Test accuracy Scores (ROCkeTS): protocol for a prospective longitudinal test accuracy study to validate new risk scores in women with symptoms of suspected ovarian cancer. De gepubliceerde resultaten worden verwacht vanaf 2020.

 

Rationale/ balans tussen de argumenten voor en tegen de interventie

Op basis van de literatuuranalyse lijken de IOTA-modellen en subjectieve echoscopische beoordeling van adnextumoren door een expert veelbelovend en mogelijk van toegevoegde waarde te zijn, vergeleken met RMI (cut-off 200). De diagnostische accuratesse van deze modellen is voor een aantal modellen gelijk of veelal hoger dan het RMI model. Dit kan de huidige triage van adnextumoren in Nederland zeker bevorderen. De bewijskracht van de studies is echter laag, een bekend fenomeen binnen diagnostisch wetenschappelijk onderzoek, daarbij het ontbreekt aan gerandomiseerd onderzoek (RCT’s) binnen dit onderzoeksdomein.

 

Het IOTA ADNEX model ten opzichte van andere IOTA-modellen, zoals Simple Rules en LR2, geniet momenteel de voorkeur mede door:

  1. De toepasbaarheid op alle ovariumtumoren.
  2. Het gebruik van “low-cost” echovariabelen.
  3. Gebruiksgemak.
  4. Multiclass risicopredictie.

De belangrijke vereiste voor het gebruik van IOTA modellen in de dagelijkse praktijk is adequate kennis van het correct gebruik van de IOTA modellen en definities van echovariabelen die worden toegepast binnen deze modellen. Dit werd nogmaals onderstreept in Meys (2017) waaruit bleek dat onervaren gebruikers vaker foutief diagnosticeren dan ervaren gebruikers. Training en onderwijs in gynaecologische echoscopie van het afwijkend adnex is een belangrijke voorwaarde naast aanwezigheid van een breed draagvlak bij de zorgprofessionals voordat implementatie van IOTA modellen, bij voorkeur het IOTA ADNEX model (cut-off 40%), in de dagelijkse praktijk in Nederland kan worden doorgevoerd en triage op basis van RMI (cut-off 200) definitief kan worden verlaten.

Onderbouwing

Het Risk of Malignancy Index (RMI) model wordt gebruikt om een onderscheid te maken tussen een goed -of kwaadaardige ovariumtumor voorafgaand aan chirurgie. Bij een cut-off waarde van 200 kan met een sensitiviteit van 70 tot 75% en een specificiteit van 85 tot 90% de diagnose ovariumcarcinoom (inclusief borderline tumoren) worden gesteld. Dit betekent dat bij gebruik van het RMI model potentieel 25% van alle ovariumcarcinomen kunnen worden gemist. Adequate triage is essentieel aangezien de zorg voor patiënten met ovariumcarcinoom in Nederland is gecentraliseerd in oncologische centra. Meer recent zijn er nieuwe echoscopische predictiemodellen vanuit het International Ovarian Tumor Analysis (IOTA) consortium (https://www.iotagroup.org/) ontwikkeld met het doel om deze triage te verbeteren. Dit betreffen een tweetal risicomodellen namelijk het IOTA LR2 model en het IOTA ADNEX model, dat naast een onderscheid tussen een benigne en maligne adnextumor, ook verder kan differentiëren tussen verschillende vormen van maligne tumoren (borderline tumor, stadium 1 invasief ovariumcarcinoom, stadium 2 tot 4 invasief ovariumcarcinoom of metastatische tumoren naar het ovarium van een andere primaire tumor). Daarnaast bestaan er de IOTA Simple Rules, een model dat op basis van morfologische echoscopische kenmerken van een tumor een onderscheid kan maken tussen goed- en kwaadaardig. Deze Simple Rules zijn toepasbaar in ongeveer 80% van alle ovariumtumoren. Voor de groep tumoren waarop de Simple Rules niet toepasbaar zijn is een tweestaps strategie noodzakelijk waarbij die tumoren bij voorkeur worden beoordeeld door een expert in gynaecologische echoscopie of waarbij veiligheidshalve deze geclassificeerd worden als kwaadaardig. In deze module zullen de diagnostische testkenmerken (negatief voorspellende waarde, positief voorspellende waarde, sensitiviteit, specificiteit, oppervlakte (AUC) onder de receiver-operator characteristic (ROC)-curve) van de deze nieuwe modellen (LR2, ADNEX, Simple Rules), in vergelijking met het RMI model, worden uitgewerkt.

Diagnostische accuratesse Simple Ultrasound Rules + expert beoordeling versus RMI

Laag

GRADE

Mogelijk is de gemiddelde negatief voorspellende waarde van de Simple Ultrasound Rules + expert beoordeling hoger (=94,0%) dan de negatief voorspellende waarde van het RMI model (cut-off: 200) (=81,2%).

 

(Meys, 2017a; Sayasneh, 2016; Testa, 2014)

 

Mogelijk is er geen verschil in de gemiddelde positief voorspellende waarde van de Simple Ultrasound Rules + expert beoordeling (=84,9%) en de positief voorspellende waarde van het RMI-model (cut-off: 200) (=80,7%).

 

(Meys, 2017a; Sayasneh, 2016; Testa, 2014)

 

Mogelijk is de sensitiviteit van het Simple Ultrasound Rules model + expert beoordeling hoger (sensitiviteit: 86% tot 92%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 67% tot 72%).

 

(Meys, 2017a; Sayasneh, 2016; Testa, 2014)

 

Mogelijk is er geen verschil in specificiteit tussen het Simple Ultrasound Rules model + expert beoordeling (specificiteit: 89% tot 94%) en het RMI model (cut-off: 200) (specificiteit: 79% tot 94%).

 

(Meys, 2017a; Sayasneh, 2016; Testa, 2014)

 

Diagnostische accuratesse Simple Ultrasound Rules model + MAL versus RMI

Laag

GRADE

Mogelijk is de gemiddelde negatief voorspellende waarde van het Simple Ultrasound Rules model + MAL hoger (=95,6%) dan de negatief voorspellende waarde van het RMI model (cut-off: 200) (=81,6%).

 

(Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014)

 

Mogelijk is de gemiddelde positief voorspellende waarde van het Simple Ultrasound Rules model + MAL lager (=71,4%) dan de positief voorspellende waarde van het RMI model (cut-off: 200) (=80,9%).

 

(Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014)

Mogelijk is de sensitiviteit van het Simple Ultrasound Rules model + MAL hoger (sensitiviteit: 90% tot 95%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60% tot 72%).

 

(Meys, 201a7; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020)

 

Mogelijk is er geen verschil is in specificiteit tussen het Simple Ultrasound Rules model + MAL (specificiteit: 68% tot 87%) en het RMI model (cut-off: 200) (specificiteit: 79% tot 95%).

 

(Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020)

 

Mogelijk is de diagnostisch prestatie van het Simple Ultrasound Rules model + MAL bepaald middels de oppervlakte onder de ROC-curve (AUC), slechter dan het RMI model (cut-off: 200).

 

(Mulder, 2020)

 

Diagnostische accuratesse ADNEX model (verschillende cut-offs) versus RMI (cut-off: 200)

Laag

GRADE

Mogelijk is de gemiddelde negatief voorspellende waarde van het ADNEX-model (cut-off: 10%) hoger (=98,4%) dan de negatief voorspellende waarde van het RMI model (cut-off: 200) (=86,2%).

 

(Meys, 2017a; Sayasneh, 2016)

 

Mogelijk is er geen verschil in de gemiddelde positief voorspellende waarde tussen het ADNEX-model (cut-off: 10%) (=66,3%) en de positief voorspellende waarde van het RMI-model (cut-off: 200) (=71,1%).

 

(Meys, 2017a; Sayasneh, 2016)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 1%) hoger (sensitiviteit: 99 tot 100%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60 tot 72%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 3%) hoger (sensitiviteit: 95 tot 100%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 5%) hoger (sensitiviteit: 93 tot 99%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60 tot 72%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 10%) hoger (sensitiviteit: 91% tot 98%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60% tot 72%).

 

(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 15%) hoger (sensitiviteit: 87 tot 94%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 20%) hoger (sensitiviteit: 84 tot 91%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 25%) hoger (sensitiviteit: 80%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX model (cut-off: 30%) hoger (sensitiviteit: 77 tot 86%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 40%) hoger (sensitiviteit: 73%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil in de sensitiviteit van het ADNEX-model (cut-off: 50%) (sensitiviteit: 67%)) en het RMI-model (cut-off: 200) (sensitiviteit: 72%).

 

(Van Calster, 2020)

 

Mogelijk is de specificiteit van het ADNEX-model (cut-off: 1%) lager (specificiteit: 12%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de specificiteit van het ADNEX-model (cut-off: 3%) lager (specificiteit: 31 tot 60%) dan de specificiteit van het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is de specificiteit van het ADNEX-model (cut-off: 5%) lager (specificiteit: 53 tot 76%) dan de specificiteit van het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 10%) (specificiteit: 62% tot 85%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 79% tot 95%).

 

(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 15%) (specificiteit: 75 tot 89%) en het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 20%) (specificiteit: 79 tot 92%) en het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 25%) (specificiteit: 93%) en het RMI model (cut-off: 200) (specificiteit: 95%)

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 30%) (specificiteit: 84 tot 94%) en het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Sayasneh, 2016; Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 40%) (specificiteit: 96%) en de specificiteit van het RMI model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 50%) (specificiteit: 97%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

Mogelijk is de diagnostisch prestatie van het ADNEX-model, bepaald middels de oppervlakte onder de ROC-curve (AUC), beter dan het RMI-model (cut-off: 200).

 

(Meys, 2017; Van Calster, 2020)

 

Diagnostische accuratesse LR2 model (cut-off: 10%) versus RMI (cut-off: 200)

Laag

GRADE

Mogelijk is er geen verschil in negatief voorspellende waarde tussen het LR2 model (cut-off: 10%) (=96,5%) en de negatief voorspellende waarde van het RMI-model (cut-off: 200) (=89,3%).

 

(Meys, 2017a; Sayasneh, 2016; Van Holsbeke, 2012)

 

Mogelijk is de positief voorspellende waarde van het LR2-model (cut-off: 10%) lager (=70,9%) dan de positief voorspellende waarde van het RMI model (cut-off: 200) (=82,4%).

 

(Meys, 2017a; Sayasneh, 2016; Van Holsbeke, 2012)

 

Mogelijk is de sensitiviteit van het LR2 model (cut-off: 1%) hoger (sensitiviteit: 99%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het LR2 model (cut-off: 3%) hoger (sensitiviteit: 95%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%)

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het LR2-model (cut-off: 5%) hoger (sensitiviteit: 91%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%)

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het LR2-model (cut-off: 10%) hoger (sensitiviteit: 86% tot 93%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60% tot 72%).

 

(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012)

 

Mogelijk is de sensitiviteit van het LR2-model (cut-off: 15%) hoger (sensitiviteit: 83%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het LR2-model (cut-off: 20%) hoger (sensitiviteit: 80%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het LR2-model (cut-off: 25%) hoger (sensitiviteit: 78%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is de sensitiviteit van het LR2-model (cut-off: 30%) hoger (sensitiviteit: 74%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil in de sensitiviteit van het LR2-model (cut-off: 40%) (sensitiviteit: 68%) en het RMI-model (cut-off: 200) (sensitiviteit: 60-72%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil in de sensitiviteit van het LR2-model (cut-off: 50%) (sensitiviteit: 63%) en het RMI-model (cut-off: 200) (sensitiviteit: 60%).

 

(Van Calster, 2020)

Mogelijk is de specificiteit van het LR2-model (cut-off: 1%) lager (specificiteit: 13%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is de specificiteit van het LR2-model (cut-off: 3%) lager (specificiteit: 58%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is de specificiteit van het LR2-model (cut-off: 5%) lager (specificiteit: 73%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 10%) (specificiteit: 79% tot 90%) en de specificiteit van het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).

 

(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 15%) (specificiteit: 90%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 20%) (specificiteit: 92%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 25%) (specificiteit: 93%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 30%) (specificiteit: 93.8%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 40%) (specificiteit: 95%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 50%) (specificiteit: 96%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).

 

(Van Calster, 2020)

 

Mogelijk is de diagnostisch prestatie van het LR2-model (cut-off: 10%), bepaald middels de oppervlakte onder de ROC-curve, beter dan het RMI-model (cut-off: 200).

 

(Meys, 2017a)

 

Diagnostische accuratesse expert beoordeling versus RMI (cut-off: 200)

 

 

 

 

Laag

GRADE

Mogelijk is de negatief voorspellende waarde van een expert beoordeling (=95%) hoger dan de negatief voorspellende waarde van het RMI-model (cut-off: 200) (=83%).

 

(Meys, 2017a)

 

Mogelijk is de positief voorspellende waarde van een expert beoordeling (=83%) hoger dan de positief voorspellende waarde van het RMI-model (cut-off: 200) (=65%).

 

(Meys, 2017a)

 

Mogelijk is de sensitiviteit van een expert beoordeling (=90%) hoger dan de sensitiviteit van het RMI-model (cut-off: 200) (=71%).

 

(Meys, 2017a)

 

Mogelijk is specificiteit van een expert beoordeling (=91%) hoger dan de specificiteit van het RMI-model (cut-off: 200) (=79%).

 

(Meys, 2017a)

 

Mogelijk is de diagnostisch prestatie van een expert beoordeling, bepaald middels de oppervlakte onder de ROC-curve, beter dan het RMI-model (cut-off: 200).

 

(Meys, 2017a)

1

1.1 Simple Ultrasound Rules

1.1a Simple Ultrasound Rules + expert beoordeling

In totaal zijn drie publicaties gevonden die het verschil in diagnostische accuratesse tussen het Simple Ultrasound Rules + expert beoordeling model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (Meys, 2017a; Sayasneh, 2016; Testa, 2014). In deze vergelijking werden inconclusieve tumoren beoordeeld door een expert. In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 2.984 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie van 39,2% (n=1.169) zien voor kwaadaardige ovariumcarcinomen. Alle studies rapporteerde terecht positieven, terecht negatieven, foutpositieven en foutnegatieven van waaruit de sensitiviteit en specificiteit bepaald kon worden. In de literatuuranalyse zijn alleen studies opgenomen die accuratesse maten van de Simple Ultrasound Rules + expert beoordeling vergeleken met het RMI model, afgezet tegen histopathologie.

 

1.1b Simple Ultrasound Rules + MAL

In totaal zijn vijf publicaties gevonden die het verschil in diagnostische accuratesse tussen het Simple Ultrasound Rules model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020). In deze vergelijking werden inconclusieve tumoren als maligne tumoren meegenomen (SR+MAL). In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 8015 vrouwen geanalyseerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie van 33,5% (n=2683) zien voor kwaadaardige ovariumcarcinomen. Alle studies, behalve de studie van Calster (2020), rapporteerden het aantal terecht positieven, terecht negatieven, foutpositieven en foutnegatieven. In de literatuuranalyse zijn alleen studies opgenomen die accuratesse maten van de Simple Ultrasound Rules + MAL vergeleken met het RMI model, afgezet tegen histopathologie.

 

1.2 ADNEX model

In totaal zijn drie publicaties gevonden die het verschil in diagnostische accuratesse tussen het ADNEX model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (en borderline carcinomen) (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020). In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden. Drie studies rapporteerden de sensitiviteit van het ADNEX model bij cut-off 10% (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020). Daarnaast rapporteerde Van Calster (2020) ook de diagnostische accuratesse van het ADNEX model bij afkapwaarden 1%, 3%, 5%, 15%, 20%, 25%, 30%, 40% en 50%. Van Calster (2020) rapporteerde de resultaten voor het ADNEX model mét en zonder CA125. Beide resultaten worden getoond, in de samenvatting gaan we uit van een model mét CA125. Bij de andere studies wordt gerapporteerd dat CA125 een van de parameters in het model was, maar het is onduidelijk dit een verplichte parameter was. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 5841 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie van 30,1% (n=1761) zien voor kwaadaardige ovariumcarcinomen. Alle studies, behalve Van Calster (2020), rapporteerden het aantal terecht positieven, terecht negatieven, foutpositieven en foutnegatieven. In de literatuuranalyse zijn alleen studies opgenomen die de accuratesse maten van het ADNEX model vergeleken met het RMI model, afgezet tegen histopathologie. De studie van Meys (2017) analyseerde het verschil in diagnostische accuratesse tussen het ADNEX-model en het RMI model door een pairwise analyse uit te voeren over de oppervlakte onder de receiver operating characteristics (ROC)-curve (AUC).

 

1.3 LR2-model (cut-off: 10%)

In totaal zijn vier publicaties gevonden die het verschil in diagnostische accuratesse tussen het LR2-model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (en borderline carcinomen) (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012). In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden en voor het LR2-model een afkapwaarde van 10%. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 6483 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie zien van 29,4% (n=1908) voor kwaadaardige ovariumcarcinomen. Twee studies, behalve Meys (2017a) en Van Calster (2020),rapporteerden het aantal terecht positieven, terecht negatieven, foutpositieven en foutnegatieven. In de literatuuranalyse zijn alleen studies opgenomen die accuratesse maten van het ADNEX model vergeleken met het RMI model, afgezet tegen histologie. Alleen de studie van Meys (2017a) analyseerde het verschil in diagnostische accuratesse tussen het ADNEX-model en het RMI model door een pairwise analyse uit te voeren over de oppervlakte onder de receiver operating characteristics (ROC)-curve (AUC).

 

1.4 Expert beoordeling

In totaal is één publicatie gevonden die het verschil in diagnostische accuratesse tussen een expert beoordeling en het RMI model onderzocht voor het diagnosticeren van kwaadaardige ovariumcarcinomen (en borderline carcinomen) (Meys, 2017a). In de studie werd een subjectieve beoordeling gemaakt door een expert op het gebied van echoscopie en diagnostiek voor het beoordelen van een (kwaadaardig) ovariumcarcinoom, en voor het RMI model werd een afkapwaarde van 200 aangehouden. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 326 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet zien een gemiddelde prevalentie zien van 35,3% (n=115) voor kwaadaardige ovariumcarcinomen. De studie rapporteerde de positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en voor de diagnostische prestaties werd een pairwise analyse uitgevoerd over de oppervlakte onder de receiver operating characteristics (ROC)-curve.

 

Resultaten

2.1

2.1a Simple Ultrasound Rules + expert beoordeling

2.1a.1 Negatief voorspellende waarde

In totaal hadden 1.729 vrouwen volgens de Simple Ultrasound Rules + expert beoordeling een negatieve uitslag (=57,9%). De negatief voorspellende waarde van het Simple Ultrasound Rules model + expert beoordeling was 94,0%; n=1.626 terecht negatieven. In totaal hadden 2.003 vrouwen volgens het RMI model (cut-off 200) een negatieve uitslag (=67,3%). De negatief voorspellende waarde van het RMI model was 81,2%; n=1.626 terecht negatieven (zie Figuur 1). Niet getoetst op statistische significantie.

 

2.1a.2 Positief voorspellende waarde

In totaal hadden 1.255 vrouwen volgens de Simple Ultrasound Rules + expert beoordeling een positieve uitslag (=42,1%). De positief voorspellende waarde van de Simple Ultrasound Rules + expert beoordeling was 84,9%; n=1.066 terecht positieven. In totaal hadden 981 vrouwen volgens het RMI model (cut-off 200) een positieve uitslag (=32,9%). De positief voorspellende waarde van het RMI model was 80,7%; n=792 terecht positieven (zie Figuur 1). Niet getoetst op statistische significantie.

 

2.1a.3 Sensitiviteit

De sensitiviteit van de Simple Ultrasound Rules + expert beoordeling varieerde van 86% tot 92%. De sensitiviteit van het RMI model (cut-off 200) varieerde van 67% tot 72% (zie Figuur 1). Niet getoetst op statistische significantie.

 

2.1a.4 Specificiteit

De specificiteit van de Simple Ultrasound Rules + expert beoordeling varieerde van 89% tot 94%. De specificiteit van het RMI model (cut-off: 200) varieerde van 79% tot 94% (zie Figuur 1). Niet getoetst op statistische significantie.

 

Figuur 1 Diagnostische accuratesse van de Simple Ultrasound Rules + expert beoordeling en het RMI model (cut-off: 200)

F1

Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het Simple Ultrasound Rules + Expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.

 

2.1b Simple Ultrasound Rules SR+MAL

2.1b.1 Negatief voorspellende waarde

In totaal hadden 1502 vrouwen volgens de Simple Ultrasound Rules SR+MAL een negatieve uitslag (=47,7%). De negatief voorspellende waarde van het Simple Ultrasound Rules SR+MAL model was 95,6%; n=1436 terecht negatieven (zie Figuur 2.1). In totaal hadden 2124 vrouwen volgens het RMI model (cut-off: 200) een negatieve uitslag (=68,1%). De negatief voorspellende waarde van het RMI model was 81,6%; n=1733 terecht negatieven (zie Figuur 2.2). Niet getoetst op statistische significantie.

 

2.1b.2 Positief voorspellende waarde

In totaal hadden 1650 vrouwen volgens de Simple Ultrasound Rules SR+MAL een positieve uitslag (=52,3%). De positief voorspellende waarde van de Simple Ultrasound Rules was 71,4%; n=1.172 terecht positieven (zie Figuur 2.1). In totaal hadden 1023 vrouwen volgens het RMI model (cut-off: 200) een positieve uitslag (=31,9%). De positief voorspellende waarde van het RMI model was 80,9%; n=828 terecht positieven (zie Figuur 2.2). Niet getoetst op statistische significantie.

 

2.1b.3 Sensitiviteit

De sensitiviteit van de Simple Ultrasound Rules SR+MAL varieerde van 90% tot 95% (Figuur 2.1). De sensitiviteit van het RMI model (cut-off: 200) varieerde van 60% tot 72% (zie Figuur 2.2.). Niet getoetst op statistische significantie.

 

2.1b.4 Specificiteit

De specificiteit van de Simple Ultrasound Rules varieerde van 68% tot 87% (Figuur 2.1). De specificiteit van het RMI model (cut-off: 200) varieerde van 79% tot 95% (zie Figuur 2.2). Niet getoetst op statistische significantie.

 

Figuur 2.1 Diagnostische accuratesse van de Simple Ultrasound Rules + MAL

F2.1

Figuur 2.2 Diagnostische accuratesse van het RMI model (cut-off: 200)

F2.2

Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven; MAL, inclonclusieve tumoren worden meegenomen als maligne tumoren. De studie van Calster 2020 rapporteerde geen aantallen TP, TN, FP, FN. Alleen de gepoolde sensitiviteit en specificiteit zoals gerapporteerd zijn toegevoegd aan de figuur ter informatie.

 

2.1b.5 AUC

Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve (AUC), tussen het SR+MAL model en het RMI model (cut-off 200) is onderzocht in Mulder (2020).

 

De AUC van het RMI model (cut-off 200) (0,896 (95%CI 0,842 tot 0,950)) was significant hoger dan dat van het SR+MAL model (0,793 (95%CI 0,722 tot 0,865)) in de studie van Mulder (2020) onder n=168 vrouwen met een ovariumtumor (P<0,01).

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het Simple Ultrasound Rules model (SR+MAL) voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit onderzoekspopulaties en beperkingen beoordeling referentietest). De bewijskracht is ‘Laag’.

 

2.2 ADNEX model

2.2.1 Negatief voorspellende waarde

In totaal hadden 428 vrouwen volgens het ADNEX model (cut-off: 10%) een negatieve uitslag (=45,7%). De negatief voorspellende waarde van het ADNEX model was 98,4%; n=421 terecht negatieven. In totaal hadden 391 vrouwen volgens het RMI model (cut-off: 200) een negatieve uitslag (=67,3%). De negatief voorspellende waarde van het RMI model was 86,2%; n=337 terecht negatieven (zie Figuur 3). Niet getoetst op statistische significantie.

 

Er werden geen studies geïncludeerd waarin de negatief voorspellende waarde van het ADNEX model bij een andere afkapwaarde dan 10% werden bestudeerd.

 

2.2.2 Positief voorspellende waarde

In totaal hadden 1.862 vrouwen volgens het ADNEX model (cut-off: 10%) een positieve uitslag (=55,7%). De positief voorspellende waarde van het ADNEX model (cut-off: 200) was 66,4%; n=1.236 terecht positieven. In totaal hadden 1.505 vrouwen volgens het RMI model een positieve uitslag (=50,9%). De positief voorspellende waarde van het RMI model was 71,1%; n=1.081 terecht positieven (zie Figuur 3). Niet getoetst op statistische significantie.

 

Er werden geen studies geïncludeerd waarin de positief voorspellende waarde van het ADNEX model bij een andere afkapwaarde dan 10% werden bestudeerd.

 

2.2.3 Sensitiviteit

Drie studies rapporteerden de sensitiviteit van het ADNEX model vergeleken met het RMI model (cut-off: 200). Meys (2017) vergeleek ADNEX met CA 125 (cut-off: 10%) met RMI (cut-off: 200). Sayasneh (2016) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20 en 30%) met RMI (cut-off: 200). Van Calster (2020) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 1 toont de gerapporteerde sensitiviteit van het ADNEX model vergeleken met het RMI model (cut-off: 200) uit deze studies, waarbij Tabel 1a ADNEX mét CA 125 betreft en Tabel 1b ADNEX zonder CA 125.

 

De sensitiviteit van het RMI model (cut-off: 200) varieerde van 60% tot 72%. De gerapporteerde sensitiviteit van het ADNEX model was voor alle afkapwaarden t/m 40% hoger dan de sensitiviteit van het RMI model (cut-off: 200). De sensitiviteit van het ADNEX model met cut-off 50% was mogelijk gelijk aan RMI (cut-off: 200). Niet getoetst op statistische significantie.

 

2.2.4 Specificiteit

Drie studies rapporteerden de specificiteit van het ADNEX model vergeleken met het RMI model (cut-off: 200). Meys (2017) vergeleek ADNEX met CA 125 (cut-off: 10%) met RMI (cut-off: 200). Sayasneh (2016) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20 en 30%) met RMI (cut-off: 200). Van Calster (2020) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 1 toont de gerapporteerde specificiteit van het ADNEX model vergeleken met het RMI model (cut-off: 200) uit deze studies, waarbij Tabel 1a: ADNEX mét CA 125 betreft en Tabel 1b ADNEX zonder CA 125.

 

De specificiteit van het RMI model (cut-off: 200) varieerde van 79% tot 95%. De gerapporteerde specificiteit van het ADNEX model was voor de afkapwaarden 1%, 3% en 5% lager dan RMI (cut-off: 200). De gerapporteerde specificiteit van het ADNEX model was voor de afkapwaarden 10%, 15%, 20%, 25%, 30%, 40% en 50% mogelijk gelijk aan de specificiteit van het RMI model (cut-off: 200). Niet getoetst op statistische significantie.

 

2.1.5 AUC

Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve (AUC), tussen het ADNEX model en het RMI model is onderzocht in twee studies (Meys, 2017a; Van Calster, 2020).

 

Meys (2017) liet op basis van logistische regressie zien dat het gemiddelde verschil in oppervlakte onder de ROC-curve statistisch significant verschilde tussen het ADNEX model en het RMI model, ß= 0,075; 95%BI= (0,40 tot 0,109); p<0,0001, statistisch significant in het voordeel van het ADNEX model.

Van Calster (2020) analyseerde de AUC van de modellen op basis van het 95% betrouwbaarheidsinterval van het overall verschil in AUC tussen de verschillende modellen (LR2, ADNEX met CA125, ADNEX zonder CA125) en RMI. Een positieve waarde indiceert hier een voorkeur voor het IOTA model vergeleken met RMI. Tabel 2 laat de resultaten zien, alle IOTA modellen lieten een hogere AUC zien dan RMI.

 

Figuur 3 Diagnostische accuratesse van het ADNEX model en het RMI model

F3

Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven

 

Tabel 1a. Diagnostische accuratesse ADNEX model met CA 125 (verschillende afkapwaarden) vs. RMI 200

Risk threshold

Model

Sensitivity (95% CI)

Specificity (95% CI)

 

RMI

 

 

200

Van Calster, 2020

60.4% (53.7–66.8)

95.3% (92.8–96.9)

 

Meys, 2017a

71% (62-79)

79% (72-84)

 

Sayasneh, 2016

72% (60–81)

94% (90–97)

 

 

 

 

 

IOTA ADNEX with CA125

 

 

1%

Van Calster, 2020

99.1% (97.8–99.6)

12.0% (7.2–19.2)

 

Sayasneh, 2016

100.0% (97.4–100.0)

11.9% (9.1–15.5)

3%

Van Calster, 2020

94.7% (90.1–97.2)

59.7% (50.2–68.5)

 

Sayasneh, 2016

100.0% (97.4–100.0)

30.6% (26.3–35.3)

5%

Van Calster, 2020

93.3% (88.2–96.3)

76.4% (70.7–81.3)

 

Sayasneh, 2016

99.0% (94.9–99.8)

53.2% (48.2–58.1)

10%

Van Calster, 2020

91.2% (84.8–95.1)

85.3% (80.9–88.8)

 

Meys, 2017a

98% (93-100)

62% (55-68)

 

Sayasneh, 2016

97.3% (93.5–98.9)

67.7% (63.0–72.0)

15%

Van Calster, 2020

87.3% (79.9–92.3)

89.0% (85.1–92.0)

 

Sayasneh, 2016

94.4% (90.0–97.0)

75.2% (70.7–79.2)

20%

Van Calster, 2020

83.5% (74.4–89.8)

91.5% (88.1–93.9)

 

Sayasneh, 2016

90.6% (85.2–94.1)

79.3% (75.1–83.0)

25%

Van Calster, 2020

80.2% (71.6–86.7)

93.1% (90.1–95.3)

 

 

 

 

30%

Van Calster 2020

77.3% (67.9–84.5)

94.4% (91.6–96.4)

 

Sayasneh, 2016

86.3% (80.4–90.6)

83.9% (80.1–87.2)

40%

Van Calster 2020

73.0% (63.4–80.8)

95.8% (93.4–97.3)

 

 

 

 

50%

Van Calster 2020

66.7% (57.0–75.1)

97.1% (95.5–98.1)

 

 

 

 

CI, confidence interval; LR2, logistic regression model 2; ADNEX, Assessment of Different NEoplasias in the adneXa.

 

Tabel 1b. Diagnostische accuratesse ADNEX model zonder CA 125 (verschillende afkapwaarden) vs. RMI 200

Risk threshold

Model

Sensitivity (95% CI)

Specificity (95% CI)

 

RMI

 

 

200

Van Calster, 2020

60.4% (53.7–66.8)

95.3% (92.8–96.9)

 

Sayasneh, 2016

72% (60–81)

94% (90–97)

 

 

 

 

 

IOTA ADNEX without CA125

 

 

1%

Van Calster, 2020

98.8% (97.4–99.4)

11.4% (6.9–18.3)

 

Sayasneh, 2016

100.0% (97.4–100.0)

12.4% (9.5–16.0)

3%

Van Calster, 2020

96.3% (93.2–98.0)

55.8% (45.5–65.7)

 

Sayasneh, 2016

100.0% (97.4–100.0)

28.0% (23.9–32.6)

5%

Van Calster, 2020

93.7% (88.5–96.7)

74.6% (68.5–80.0)

 

Sayasneh, 2016

98.9% (95.7–99.7)

54.7% (49.9–59.3)

10%

Van Calster, 2020

91.1% (84.5–95.1)

84.5% (80.1–88.0)

 

Sayasneh, 2016

96.7% (92.9–98.5)

67.1% (62.5–71.3)

15%

Van Calster, 2020

87.7% (80.2–92.7)

88.4% (84.3–91.5)

 

Sayasneh, 2016

94.5% (90.1–97.0)

72.7% (68.2–76.7)

20%

Van Calster, 2020

83.4% (75.0–89.3)

90.3% (86.9–92.9)

 

Sayasneh, 2016

90.7% (85.5–94.1)

77.6% (73.4–81.3)

25%

Van Calster, 2020

79.8% (70.2–86.9)

92.0% (88.9–94.4)

 

 

 

 

30%

Van Calster 2020

77.9% (68.4–85.2)

93.2% (90.2–95.3)

 

Sayasneh, 2016

84.6% (78.6–89.2)

83.4% (80.0–86.6)

40%

Van Calster 2020

72.8% (63.0–80.8)

95.0% (92.4–96.8)

 

 

 

 

50%

Van Calster 2020

66.8% (55.8–76.2)

96.3% (94.1–97.6)

 

 

 

 

CI, confidence interval; LR2, logistic regression model 2; ADNEX, Assessment of Different NEoplasias in the adneXa.

 

Tabel 2. AUC IOTA modellen vs. RMI 200 in studie van Calster 2020 .

Model

AUC (95%CI)

Verschil met RMI

RMI

0.89 (95%CI 0.85 to 0.92)

 

n.v.t.

LR2

0.92 (95%CI 0.89 to 0.94)

 

0.011 to 0.042

ADNEX zonder CA125

0.94 (95%CI 0.91 to 0.95)

 

0.028 to 0.060

ADNEX met CA125

0.94 (95%CI 0.92 to 0.96)

0.037 to 0.067

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het ADNEX-model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.

 

2.3 LR2 model

2.3.1 Negatief voorspellende waarde

In totaal hadden 829 vrouwen volgens het LR2 model (cut-off: 10%) een negatieve uitslag (=66,2%). De negatief voorspellende waarde van het LR2 model was 96,5%; n=800 terecht negatieven. In totaal hadden 980 vrouwen volgens het RMI model een negatieve uitslag (=78,3%). De negatief voorspellende waarde van het RMI model was 89,3%; n=875 terecht negatieven (zie Figuur 4). Niet getoetst op statistische significantie.

 

Meys (2017a) rapporteerde geen exacte aantallen terecht en vals positieven/negatieven voor het LR2 model en kon daardoor niet worden opgenomen in de berekening in Figuur 4. De negatief voorspellende waarde van het LR2 model (cut-off: 10%) in de studie van Meys (2017a) was 95% (95%CI 91-98%) en 83% (95%CI 77-88) van het RMI (cut-off: 200).

 

Er werden geen studies geïncludeerd waarin de negatief voorspellende waarde van het LR2 model bij een andere afkapwaarde dan 10% werd bestudeerd.

 

2.3.2 Positief voorspellende waarde

In totaal hadden 423 vrouwen volgens het LR2 model (cut-off: 10%) een positieve uitslag (=33,7%). De positief voorspellende waarde van het LR2 model was 70,9%; n=300 terecht positieven. In totaal hadden 272 vrouwen volgens het RMI model een positieve uitslag (=21,7%). De positief voorspellende waarde van het RMI model was 82,4%; n=224 terecht positieven (zie Figuur 4). Niet getoetst op statistische significantie.

 

Meys (2017a) rapporteerde geen exacte aantallen terecht en vals positieven/negatieven voor het LR2 model en kon daardoor niet worden opgenomen in de berekening in Figuur 4. De positief voorspellende waarde van het LR2 model (cut-off: 10%) in de studie van Meys (2017a) was 71% (95%CI 63-78%) en 65% (95%CI 56-73) van het RMI (cut-off: 200).

 

Er werden geen studies geïncludeerd waarin de positief voorspellende waarde van het LR2 model bij een andere afkapwaarde dan 10% werd bestudeerd.

 

2.3.3 Sensitiviteit

Vier studies rapporteerden de sensitiviteit van het LR2 model. Meys (2017), Sayasneh (2016) en Van Holskbeke (2012) vergeleken LR2 (cut-off: 10%) met RMI (cut-off: 200). Van Calster (2020) vergeleek LR2 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 3 toont de gerapporteerde sensitiviteit van het LR2 model vergeleken met het RMI model (cut-off: 200) uit deze studies.

 

De sensitiviteit van het RMI model (cut-off: 200) varieerde van 60% tot 72%. De gerapporteerde sensitiviteit van het LR2 model was voor alle afkapwaarden t/m 30% hoger dan de sensitiviteit van het RMI model (cut-off: 200). De sensitiviteit van het ADNEX model met cut-offs 40% en 50% was mogelijk gelijk aan RMI (cut-off: 200). Niet getoetst op statistische significantie.

 

2.3.4 Specificiteit

Vier studies rapporteerden de specificiteit van het LR2 model. Meys (2017), Sayasneh (2016) en Van Holskbeke (2012) vergeleken LR2 (cut-off: 10%) met RMI (cut-off: 200). Van Calster (2020) vergeleek LR2 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 3 toont de gerapporteerde specificiteit van het LR2 model vergeleken met het RMI model (cut-off: 200) uit deze studies.

 

De specificiteit van het RMI model (cut-off) varieerde van 94-95%. De gerapporteerde specificiteit van het LR2 model was voor alle afkapwaarden t/m 5% lager dan de specificiteit van het RMI model (cut-off: 200). De specificiteit van het LR2 model met cut-offs 10, 15, 20, 25, 30, 40 en 50% was mogelijk gelijk aan het RMI model (cut-off: 200). Niet getoetst op statistische significantie.

 

Figuur 4 Diagnostische accuratesse van het LR2 model en het RMI model

F4

Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven

 

Tabel 3. Diagnostische accuratesse LR2 (verschillende afkapwaarden) vs. RMI 200

Risk threshold

Model

Sensitivity (95% CI)

Specificity (95% CI)

 

RMI

 

 

200

Van Calster, 2020

60.4% (53.7–66.8)

95.3% (92.8–96.9)

 

Van Holsbeke, 2012

67% (61-73)

95% (93-96)

 

Meys, 2017a

71% (62-79)

79% (72-84)

 

Sayasneh, 2016

72% (60-81)

94% (90-97)

 

 

 

 

 

LR2 model

 

 

1%

Van Calster, 2020

98.6% (97.4–99.2)

13.3% (10.2–17.2)

3%

Van Calster, 2020

94.7% (92.9–96.1)

58.4% (53.5–63.1)

5%

Van Calster, 2020

90.8% (87.8–93.2)

73.3% (68.4–77.6)

10%

Van Calster, 2020

85.6% (80.1–89.7)

87.2% (84.0–89.8)

 

Van Holsbeke, 2012

92% (88-95)

86% (83-88)

 

Meys, 2017a

93% (86-97)

79% (73-84)

 

Sayasneh, 2016

88% (78-94)

90% (84-94)

15%

Van Calster, 2020

82.5% (76.5–87.2)

90.2% (87.7–92.3)

20%

Van Calster, 2020

80.1% (74.2–84.9)

92.1% (89.9–93.9)

25%

Van Calster, 2020

77.5% (71.7–82.4)

93.0% (91.0–94.6)

30%

Van Calster, 2020

73.6% (67.7–78.8)

93.8% (92.1–95.2)

40%

Van Calster, 2020

68.1% (61.9–73.8)

95.4% (93.8–96.5)

50%

Van Calster, 2020

62.7% (57.2–67.9)

96.2% (94.8–97.2)

CI, confidence interval; LR2, logistic regression model 2; ADNEX, Assessment of Different NEoplasias in the adneXa.

 

2.3.5 AUC

Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve, tussen het LR2 model en het RMI model is onderzocht in één studie (Meys, 2017a). Logistische regressie liet zien dat het gemiddelde verschil in oppervlakte onder de ROC-curve statistische significant verschilde tussen het LR2 model en het RMI model, ß= 0,069; 95%BI= (0,0029 tot 0,110); p=0,0009, statistisch significant in het voordeel van het LR2 model.

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van het LR2 model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.

 

2.4 Expert beoordeling

2.4.1 Negatief voorspellende waarde

De negatief voorspellende waarde van een expert beoordeling was 95%. De negatief voorspellende waarde van het RMI model (cut-off: 200) was 83%. Niet getoetst op statistische significantie.

 

2.4.2 Positief voorspellende waarde

De positief voorspellende waarde van een expert beoordeling was 83%. De positief voorspellende waarde van het RMI model (cut-off: 200) was 65%. Niet getoetst op statistische significantie.

 

2.4.3 Sensitiviteit

De sensitiviteit van een expert beoordeling was 90%. De sensitiviteit van het RMI model (cut-off: 200) was 71%. Niet getoetst op statistische significantie.

 

2.4.4 Specificiteit

De specificiteit van een expert beoordeling was 91%. De specificiteit van het RMI model (cut-off: 200) was 79%. Niet getoetst op statistische significantie.

 

2.4.5 AUC

Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve, tussen een expert beoordeling en het RMI model (cut-off: 200) is onderzocht in één studie (Meys, 2017a). Logistische regressie liet zien dat het gemiddelde verschil in oppervlakte onder de ROC-curve statistisch significant verschilde tussen een expert beoordeling en het RMI model, ß= 0,102; 95%BI= (0,062 tot 0,141); p<0,0001, statistisch significant in het voordeel van de expert beoordeling.

 

Bewijskracht van de literatuur

De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.

Om de uitgangsvraag te kunnen beantwoorden is een systematische literatuuranalyse verricht naar de volgende zoekvraag:

Wat is de diagnostische accuratesse van het Simple Ultrasound Rules model, LR2 model, ADNEX model of expert echoscopie vergeleken met het RMI model voor de differentiatie tussen benigne en maligne adnex pathologie?

 

P: vrouwen met echoscopisch vergroot adnex (> 3cm);

I: simple rules model + maligne classificatie van de inconclusieve tumoren (SR+MAL), Simple rules model + expert beoordeling, LR2 model, ADNEX model, expert echoscopie;

C: risk of Malignancy Index (RMI);

R: histopathologische uitslag;

O: negatief voorspellende waarde, positief voorspellende waarde, sensitiviteit, specificiteit, oppervlakte onder de receiver-operator characteristic (ROC)-curve.

 

Relevante uitkomstmaten

De werkgroep achtte de sensitiviteit en specificiteit voor de besluitvorming cruciale uitkomstmaten en de positief voorspellende waarde, negatief voorspellende waarde en oppervlakte onder de receiver-operator characteristic (ROC)-curve voor de besluitvorming belangrijke uitkomstmaten.

 

De werkgroep definieerde niet a priori de genoemde uitkomstmaten, maar hanteerde de in de studies gebruikte definities.

 

Een klinisch relevant verschil van de diagnostische accuratesse tussen de verschillende modellen werd gedefinieerd als wanneer de gerapporteerde ranges elkaar niet overlappen of bij ≥ 10% verschil in de diagnostische accuratesse tussen de modellen.

 

Zoeken en selecteren (Methode)

In de databases Medline (via OVID), Embase (via Embase.com) en de Cochrane Library (via Wiley) is op 3 augustus 2020 met relevante zoektermen gezocht vanaf het jaar 1990 naar studies die de diagnostische waarde van het Simple Ultrasound Rules model (met/zonder SA (subjective assessment), ADNEX model en het LR2 model beschrijven bij vrouwen met een echoscopisch vergroot adnex. De zoekverantwoording is weergegeven onder het tabblad ‘Verantwoording’. De literatuurzoekactie leverde 126 treffers op. Studies werden geselecteerd op grond van de volgende selectiecriteria: vrouwen met een vergroot adnex gedefinieerd als > 3 cm; bepaling van de diagnostische accuratesse van één van de volgende modellen: Simple Ultrasound Rules (met/zonder SA (subjective assessment)), ADNEX model en het LR2 model; in vergelijking met het RMI model en afgezet tegen histopathologie. Op basis van titel en abstract werden in eerste instantie 60 studies geselecteerd. Na raadpleging van de volledige tekst, werden vervolgens 56 studies geëxcludeerd (zie exclusietabel onder het tabblad verantwoording) en vier studies definitief geselecteerd. Twee systematische reviews (Westwood, 2018; Meys, 2016) en twee individuele studies (Mulder, 2020; Van Calster, 2020). Studies die geïncludeerd waren in de systematische reviews en voldeden aan bovenstaande inclusiecriteria werden uitgewerkt in de systematische literatuuranalyse. Alleen studies waarin een diagnostisch model werd vergeleken met het RMI model, afgezet tegen histopathologie, in eenzelfde onderzoekspopulatie kwamen in aanmerking voor inclusie. Wanneer meerdere publicaties dezelfde onderzoekspopulatie beschrijven, werden de data uit de meest recente publicatie gebruikt voor de datasynthese. In totaal werden zes individuele studies opgenomen in de literatuuranalyse (Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020; Van Holsbeke, 2012). De diagnostisch accuratesse van de Simple Ultrasound Rules werd onderzocht in vijf publicaties (Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020), het ADNEX model in drie publicaties (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020) en het LR2 model in vier publicaties (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012).

  1. Balachandran VP, Gonen M, Smith JJ, DeMatteo RP. Nomograms in oncology: more than meets the eye. Lancet Oncol 2015;16:e173–e80.
  2. Froyman W, Landolfo C, De Cock B, Wynants L, Sladkevicius P, Testa AC, Van Holsbeke C, Domali E, Fruscio R, Epstein E, Dos Santos Bernardo MJ, Franchi D, Kudla MJ, Chiappa V, Alcazar JL, Leone FPG, Buonomo F, Hochberg L, Coccia ME, Guerriero S, Deo N, Jokubkiene L, Kaijser J, Coosemans A, Vergote I, Verbakel JY, Bourne T, Van Calster B, Valentin L, Timmerman D. Risk of complications in patients with conservatively managed ovarian tumours (IOTA5): a 2-year interim analysis of a multicentre, prospective, cohort study. Lancet Oncol. 2019 Mar;20(3):448-458.
  3. Kerr KF, Brown MD, Zhu K, Janes H. . Assessing the clinical impact of risk prediction models with decision curves: guidance for correct interpretation and appropriate use. J Clin Oncol 2016;34:2534–40.
  4. Localio AR, Goodman S. Beyond the usual prediction accuracy metrics: reporting results for clinical decision making. Ann Intern Med 2012;157:294–5.
  5. Meys EM, Kaijser J, Kruitwagen RF, Slangen BF, Van Calster B, Aertgeerts B, et al. Subjective assessment versus ultrasound models to diagnose ovarian cancer: A systematic review and meta-analysis. Eur J Cancer. 2016;58:17-29.
  6. Meys EM, Jeelof LS, Achten NM, Slangen BF, Lambrechts S, Kruitwagen RF, Van Gorp T. Estimating the risk of malignancy in adnexal masses: external validation of the ADNEX model and comparison with other frequently used ultrasound methods. Ultrasound Obstet Gynecol 2017a;49:784-792.
  7. Meys E, Rutten I, Kruitwagen R, Slangen B, Lambrechts S, Mertens H, Nolting E, Boskamp D, Van Gorp T. Simple Rules, Not So Simple: The Use of International Ovarian Tumor Analysis (IOTA) Terminology and Simple Rules in Inexperienced Hands in a Prospective Multicenter Cohort Study. Ultraschall Med. 2017b Dec;38(6):633-641.
  8. Meys EMJ, Jeelof LS, Ramaekers BLT, Dirksen CD, Kooreman LFS, Slangen BFM, Kruitwagen RFPM, Van Gorp T. Economic evaluation of an expert examiner and different ultrasound models in the diagnosis of ovarian cancer. Eur J Cancer. 2018 Sep;100:55-64.
  9. Mulder EE, Gelderblom ME, Schoot D, Vergeldt TF, Nijssen DL, Piek JM. External validation of Risk of Malignancy Index compared to IOTA Simple Rules. Acta Radiol. 2020 Jun 20:284185120933990.
  10. Nunes N, Ambler G, Foo X, Naftalin J, Derdelis G, Widschwendter M, Jurkovic D. Comparison of two protocols for the management of asymptomatic postmenopausal women with adnexal tumours - a randomised controlled trial of RMI/RCOG versus Simple Rules. Br J Cancer. 2017 Feb 28;116(5):584-591.
  11. Sayasneh A, Ferrara L, De Cock B, Saso S, Al-Memar M, Johnson S, Kaijser J, Carvalho J, Husicka R, Smith A, Stalder C, Blanco MC, Ettore G, Van Calster B, Timmerman D, Bourne T. Evaluating the risk of ovarian cancer before surgery using the ADNEX model: a multicentre external validation study. Br J Cancer. 2016 Aug 23;115(5):542-8.
  12. Saville BR, Lewis RJ. Decision curve analysis. JAMA 2015;313:409–10
  13. Testa A, Kaijser J, Wynants L, Fischerova D, Van Holsbeke C, Franchi D, Savelli L, Epstein E, Czekierdowski A, Guerriero S, Fruscio R, Leone FP, Vergote I, Bourne T, Valentin L, Van Calster B, Timmerman D. Strategies to diagnose ovarian cancer: new evidence from phase 3 of the multicentre international IOTA study. Br J Cancer. 2014 Aug 12;111(4):680-8.
  14. Van Calster B, Valentin L, Froyman W, Landolfo C, Ceusters J, Testa AC, Wynants L, Sladkevicius P, Van Holsbeke C, Domali E, Fruscio R, Epstein E, Franchi D, Kudla MJ, Chiappa V, Alcazar JL, Leone FPG, Buonomo F, Coccia ME, Guerriero S, Deo N, Jokubkiene L, Savelli L, Fischerová D, Czekierdowski A, Kaijser J, Coosemans A, Scambia G, Vergote I, Bourne T, Timmerman D. Validation of models to diagnose ovarian cancer in patients managed surgically or conservatively: multicentre cohort study. BMJ. 2020 Jul 30;370:m2614.
  15. Van Holsbeke C, Van Calster B, Bourne T, Ajossa S, Testa AC, Guerriero S, Fruscio R, Lissoni AA, Czekierdowski A, Savelli L, Van Huffel S, Valentin L, Timmerman D. External validation of diagnostic models to estimate the risk of malignancy in adnexal masses. Clin Cancer Res. 2012 Feb 1;18(3):815-25.
  16. Westwood M, Ramaekers B, Lang S, Grimm S, Deshpande S, de Kock S, et al. Risk scores to guide referral decisions for people with suspected ovarian cancer in secondary care: a systematic review and cost-effectiveness analysis. Health Technol Assess. 2018;22(44):1-264.
  17. Wynants L, Timmerman D, Verbakel JY, et al. Clinical utility of risk models to refer patients with adnexal masses to specialized oncology care: multicenter external validation using decision curve analysis. Clin Cancer Res 2017;23:5082-90.

Evidence table for intervention studies (randomized controlled trials and non-randomized observational studies (cohort studies, case-control studies, case series))1

This table is also suitable for diagnostic studies (screening studies) that compare the effectiveness of two or more tests. This only applies if the test is included as part of a test-and-treat strategy – otherwise the evidence table for studies of diagnostic test accuracy should be used.

Study reference

Study characteristics

Patient characteristics 2

Intervention (I)

Comparison / control (C) 3

 

Follow-up

Outcome measures and effect size 4

Comments

Meys, 2017a

Type of study:

Retrospective observational study

Setting and country: Single setting, Netherlands

 

Funding and conflicts of interest:

‘All authors report no conflict of any financial interest.’

Academic Fund, Maastricht University Medical Center+, The Netherlands and the CZ Fund, The Netherlands.

 

 

Inclusion criteria

 

Exclusion criteria:

-Patients were excluded when no pathology result was obtained, when the pathology result was known before the ultrasound examination (from transabdominal biopsy in the case of metastasis), when pathology was obtained>120 days after the ultrasound examination and when a patient had previously undergone a bilateral oophorectomy. Patients with a previous hysterectomy who were 50 years of age or older and patients with amenorrhea of more than 1 year were defined as postmenopausal.

N total at baseline:

N= 326

 

 

Simple Ultrasound Rules (SR)

Risk Malignacy Index (cutoff 200)

Adnex Model

 

Pathology was the clinical reference standard used for all patients in this study

Length of follow-up:

NR

 

Loss-to-follow-up:

-

 

Incomplete outcome data:

-

 

Sensitivity

SR: 0.89, 95% CI, 0.81–0.94

RMI (cut off 200): 0.71, 95% CI, 0.62–0.79

SR+MAL: 0.93, 95%CI 0.86-0.97

ADNEX: 0.98, 95%CI 0.93-1.00

Specificity

SR: 0.90, 95% CI, 0.85–0.94

RMI (cut off 200): 0.79, 95% CI, 0.72–0.84

SR+MAL: 0.68, 95%CI 0.61-0.70

ADNEX: 0.62, 95%CI 0.55-0.69

Although the test performance of subjective assessment by an expert remains superior, the ADNEX model can help in the differentiation between benign and malignant ovarian tumors.

Mulder, 2020

Type of study: retrospective (?) cohort study.

 

Setting and country: single centre, tertiary care, the Netherlands.

 

Funding and conflict of interest:

The authors declare no potential conflicts of interest with respect to the research, authorship, and/or publication of this article. The authors received no financial support for the research, authorship, and/or publication of this article.

Inclusion criteria: women diagnosed with ovarian tumor(s). Patients had been referred from general practitioner or other hospitals to tertiary care.

 

Exclusion criteria: none reported.

 

N total at baseline: 202

IOTA Simple rules model + MAL (inconclusive tumours were classified as malignant in analysis) vs.

RMI model (cutoff 200).

Histological diagnosis of removed tissue, or classified as benign when patient was dismissed for further treatment after expectant management.

Histological diagnosis of borderline tumour was classified as malignant in statistical analysis.

Length of follow-up:

NR

 

Loss-to-follow-up:

N=20, no further information.

 

Incomplete outcome data:

N=14 (N=3 (no IOTA SR calculated), n=3 (no serum CA125 measured), n=5 (still in follow-up), n=3 (death due to non-ovarian cancer related causes)).

 

Sensitivity:

SR + MAL: 90.0 (95%CI 77.4-96.3)

RMI200: 72.0 (95%CI 57.3-83.3)

 

Specificity:

SR +MAL: 68.6 (95%CI 59.4-76.7)

RMI200: 90.7 (95%CI 83.6-95.0)

 

PPV:

SR+MAL: 54.9 (95%CI 43.5-65.8)

RMI200: 76.7 (95%CI 21.5-35.5)

 

NPV:

SR+MAL: 94.2 (95%CI 34.2-56.5)

RMI200: 88.4 (95%CI 64.5-78.5)

 

AUC:

SR+MAL: 0.793 (0.722-0.865)

RMI200: 0.896 (0.842-0.950)

 

N for analysis=168

 

The 95%CI NPV is probably a typo in het paper of Mulder (2020): 94.2 (95%CI 34.2-56.5)

Sayasneh, 2016

Type of study:

prospective cross-sectional cohort study

Setting and country: multicentre , UK

 

Funding and conflicts of interest:

‘All authors report no conflict of interest.’

Imperial College London

 

Inclusion criteria

patients presenting with at least one adnexal mass that underwent transvaginal ultrasonography at one of the participating centres. In the event of bilateral adnexal masses, the mass with the most complex ultrasound morphology was included. If both masses had similar ultrasound morphology, the largest mass, or the one most easily accessible by ultrasonography was included

Exclusion criteria:

-exclusion criteria were (i) pregnancy, (ii) patients examined by a consultant with a special interest in gynaecological ultrasound, (iii) refusal of transvaginal ultrasonography, (iv) cytology rather than histology as an outcome, and (v) failure to undergo surgery within 120 days of the ultrasound examination

N total at baseline:

N= 962

 

 

LR2- model

RMI model (cutoff 200)

SR+MA

 

histological diagnosis of removed tissues

Length of follow-up:

6 months

 

Loss-to-follow-up:

-

 

Incomplete outcome data:

-

 

Sensitivity

SR: 0.86, 95% CI, 0.77–0.93

RMI (cut off 200): 0.72, 95% CI, 0.60–0.81

SR+MAL: 0.91, 95%CI 0.81-0.96

ADNEX: 0.97, 95%CI 0.94-0.99

LR2: 0.88, 95%CI 0.78-0.94

Specificity

SR: 0.94, 95% CI, 0.89–0.97

RMI (cut off 200): 0.94, 95% CI, 0.90–0.97

SR+MAL: 0.91, 95%CI 0.81-0.96

ADNEX: 0.68, 95%CI 0.63-0.72

LR2: 0.90, 95%CI 0.84-0.94

Overall, the test performance of IOTA prediction models and rules as well as the RMI was maintained in examiners with varying levels of training and experience

Testa, 2014

Type of study:

cross-sectional diagnostic accuracy study with prospective data collection.

 

Setting and country: multicentre, Belgium

 

Funding and conflicts of interest:

The authors declare no conflict of interest.

Inclusion criteria

Patients were eligible if they presented with at least one adnexal mass (ovarian, para-ovarian or tubal), underwent transvaginal ultrasound examination by a principal investigator at one of the participating centres and were then selected for surgical intervention by the managing clinician. Patients were examined following the research protocol if they gave informed consent

Exclusion criteria:

Exclusion criteria were surgical removal of the mass 4120 days after the ultrasound examination, pregnancy at scan and data inconsistencies that persisted after final manual data checks.

N total at baseline:

N= 2403

 

 

RMI model (cutoff 200)

SR+MA

Simple Ultrasound Rules (SR)

 

The reference standard was the histologic classification of the excised mass as malignant or benign

Length of follow-up:

NR

Loss-to-follow-up:

-

 

Incomplete outcome data:

-

 

Sensitivity

SR: 0.92, 95% CI, 0.90–0.93

RMI (cut off 200): 0.67, 95% CI, 0.64–0.70

SA+MAL: 0.95, 95%CI 0.94-97.

Specificity

SR: 0.89, 95% CI, 0.87–0.91

RMI (cut off 200): 0.91, 95% CI, 0.89–0.92

SA+MAL: 0.74, 95%CI 0.72-0.76

This study shows all IOTA strategies had excellent diagnostic performance in comparison with RMI. The IOTA strategy chosen may be determined by clinical preference

Van Holsbeke, 2012

Type of study:

prospective multicentre cross-sectional study

Setting and country: multicentre,

 

Funding and conflicts of interest:

The authors declare no conflict of interest.

Inclusion criteria

NR

Exclusion criteria:

Bilateral adnexal masses, the mass with the most complex ultrasound morphology was included in our statistical analysis. If both masses had similar ultrasound morphology, the largest one or the one most easily accessible by ultrasound was included. Patients who were pregnant, refused transvaginal ultrasonography, or did not undergo surgical removal of the mass within 120 days after the ultrasound examination were excluded.

analysis.N total at baseline:

N= 997

 

 

LR2

 

method of choice for characterizing ovarian pathology as benign or malignant

Length of follow-up:

4 months

Loss-to-follow-up:

-

 

Incomplete outcome data:

-

 

Sensitivity

LR2: 0.92, 95% CI, 0.88–0.95

RMI (cut off 200): 0.67, 95% CI, 0.61–0.73

Specificity

LR2: 0.86, 95% CI, 0.83–0.88

RMI (cut off 200): 0.95, 95% CI, 0.93–0.96

External validation shows that the IOTA models outperform other models, including the current reference test RMI, for discriminating between benign and malignant adnexal masses.

Van Calster, 2020

Type of study: multicentre prospective cohort study

 

Setting and country: 36 oncology referral centres (tertiary centres with a specific gynaecological oncology unit) or other types of centres)

 

Funding and conflicts of interest:

 

Inclusion criteria: All patients aged 18 or older at recruitment and presented with at least one adnexal mass (ovarian, para-ovarian, or tubal) on ultrasound examination. Informed consent was obtained and then local clinicians examined patients following a standardised research protocol.

 

Exclusion criteria: lesions presumed to be physiological if the largest diameter was less than 3 cm, refusal to provide informed consent, or withdrawal of informed consent. We excluded patients if they had an adnexal mass that was already being followed up in the recruitment centre before the start of the study.

 

N total at baseline:

N= 4905

 

NB: N=8519 recruited to IOTA5, n=25 withdrew consen, n=2777 patients excluded because centra provided insufficient patient numbers or quality of data. N=5717 patients remained, of which n=812 already included in follow-up and therefore excluded here. Therefore in total n=4905 patients were included in final sample.

 

Information on CA125 was missing in 2620 of the 4905 (53%) patients: 835 of 2579 (32%) missing values when surgery was suggested and 1785 of 2326 (77%) missing values when conservative management was suggested.

 

The outcome was benign for 3441 (70%) patients, malignant for 978 (20%), and uncertain for 486 (10%) patients

 

 

LR2, simple rules (inconclusive tumors were classified as malignant), SRRisk, ADNEX without CA125, and ADNEX with CA125

 

RMI = control

 

Gold standard =

Either based on histology in patients who underwent surgery, or on results of clinical and ultrasound follow-up at 12 (±2) months

Length of follow-up: 12 (±2) months

 

Loss-to-follow-up:

 

Incomplete outcome data:

 

 

AUC

Test between model vs. RMI reported as 95% confidence intervals of the overall difference in AUC between models for the primary analysis and for all subgroups. Positive values favor the first model.

 

RMI: 0.89 (95%CI 0.85 to 0.92)

 

LR2: 0.92 (0.89 to 0.94)

LR2 vs RMI 0.011 to 0.042

 

SRRisk: 0.94 (0.91 to 0.95)

SRRisk vs RMI 0.022 to 0.059

 

ADNEX without CA125: 0.94 (0.91 to 0.95)

ADNEX without CA125 vs RMI 0.028 to 0.060

 

ADNEX with CA125: 0.94 (0.92 to 0.96)

ADNEX with CA125 vs RMI 0.037 to 0.067

 

Sensitivity:

Not tested for differences between model and RMI.

 

RMI 200 60.4% (53.7–66.8)

 

Simple Rules: 90% (86% to 94%)

 

See for sensitivity of LR2, SRRisk, ADNEX, ADNEX + CA125 at different thresholds of risk table 5 of supplementary files or enclosed in guideline module.

 

Specificity

Not tested for differences between model and RMI.

 

RMI 200: 95.3% (92.8–96.9)

 

Simple Rules: 87% (83% to 91%).

 

See for specificity of LR2, SRRisk, ADNEX, ADNEX + CA125 at different thresholds of risk table 5 of supplementary files or enclosed in guideline module.

 

Author conclusion: Our study found the ADNEX models and SRRisk are the best models to distinguish between benign and malignant masses in all patients presenting with an adnexal mass, including those managed conservatively.

 

Additional information:

IOTA phase 5 study

recruitment took place from January 2012 to October 2016. The current interim analysis includes patients recruited until 1 March 2015 and follow-up data until 30 June 2017

 

We encouraged centres to measure the level of serum CA125 in all patients, but this was not a requirement for inclusion in the study. Measurement of CA125 was left to clinical judgment and local protocols.

 

Borderline tumours were classified as malignant.

 

Primary analysis included patients with imputed data for missing values of CA-125 and some outcome variables.

Notes:

  1. Prognostic balance between treatment groups is usually guaranteed in randomized studies, but non-randomized (observational) studies require matching of patients between treatment groups (case-control studies) or multivariate adjustment for prognostic factors (confounders) (cohort studies); the evidence table should contain sufficient details on these procedures.
  2. Provide data per treatment group on the most important prognostic factors ((potential) confounders).
  3. For case-control studies, provide sufficient detail on the procedure used to match cases and controls.
  4. For cohort studies, provide sufficient detail on the (multivariate) analyses used to adjust for (potential) confounders.

 

Risk of bias assessment diagnostic accuracy studies (QUADAS II, 2011)

Research question: Welk diagnostisch model op basis van echoscopie is het meest geschikt om toe te passen voor de differentiatie tussen benigne en maligne adnex pathologie?

Study reference

Patient selection

 

Index test

Reference standard

Flow and timing

Comments with respect to applicability

Meys, 2017a

 

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Unclear

 

Did the study avoid inappropriate exclusions?

Unclear

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Unclear

Are there concerns that the included patients do not match the review question?

Unclear

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Unclear

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

 

 

 

RISK: LOW

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

 

 

RISK: UNCLEAR

 

Mulder, 2020

 

Was a consecutive or random sample of patients enrolled?

Unclear (probably consecutive)

 

Was a case-control design avoided?

Unclear

 

Did the study avoid inappropriate exclusions?

Unclear

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

No, n=43 patients in expectant management were assumed to be benign, hence no histological results were available.

 

Were all patients included in the analysis?

Unclear

Are there concerns that the included patients do not match the review question?

Unclear, most patients underwent surgery.

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

 

 

RISK: LOW

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

 

RISK: UNCLEAR

 

Testa, 2014

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Unclear

 

Did the study avoid inappropriate exclusions?

Unclear

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear

 

If a threshold was used, was it pre-specified?

Yes

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Unclear

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

Were all patients included in the analysis?

Yes

Are there concerns that the included patients do not match the review question?

Unclear

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

 

 

RISK: LOW

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

 

RISK: UNCLEAR

 

Van Holsbeke, 2012

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Unclear

 

Did the study avoid inappropriate exclusions?

Unclear

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

Yes

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Unclear

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Yes

Are there concerns that the included patients do not match the review question?

Unclear

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

 

 

RISK: LOW

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

 

RISK: LOW

 

Sayasneh, 2016

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Unclear

 

Did the study avoid inappropriate exclusions?

Unclear

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Unclear

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Yes

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

Yes

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

 

 

RISK: LOW

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

 

RISK: UNCLEAR

 

Van Calster, 2020

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Unclear, study centres with >30% of unusable data were excluded. Cut-off seems arbitrary.

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear, Pathologists were blinded to ultrasound predictor variables and model predictions, but might have received information on the subjective assessment by the ultrasound examiner when clinically relevant.

 

If a threshold was used, was it pre-specified? Yes.

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

Was there an appropriate interval between index test(s) and reference standard?

Unclear

 

Did all patients receive a reference standard?

Yes.

 

Did patients receive the same reference standard?

No, only in patients who underwent surgery could histopathology confirm results. This was not possible in patients treated conservatively (follow-up).

 

Were all patients included in the analysis?

Yes, a selection of patients with more or less complete data were selected based on prespecified criteria.

Are there concerns that the included patients do not match the review question?

No.

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No.

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No.

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: Unclear

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

 

 

RISK: Unclear

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: Unclear

CONCLUSION

Could the patient flow have introduced bias?

 

 

 

RISK: Unclear

 

Judgments on risk of bias are dependent on the research question:

some items are more likely to introduce bias than others, and may be given more weight in the final conclusion on the overall risk of bias per domain:

Patient selection:

  • Consecutive or random sample has a low risk to introduce bias.
  • A case control design is very likely to overestimate accuracy and thus introduce bias.
  • Inappropriate exclusion is likely to introduce bias.

Index test:

  • This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.
  • Selecting the test threshold to optimise sensitivity and/or specificity may lead to overoptimistic estimates of test performance and introduce bias.

Reference standard:

  • When the reference standard is not 100% sensitive and 100% specific, disagreements between the index test and reference standard may be incorrect, which increases the risk of bias.
  • This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.

Flow and timing:

  • If there is a delay or if treatment is started between index test and reference standard, misclassification may occur due to recovery or deterioration of the condition, which increases the risk of bias.
  • If the results of the index test influence the decision on whether to perform the reference standard or which reference standard is used, estimated diagnostic accuracy may be biased.
  • All patients who were recruited into the study should be included in the analysis, if not, the risk of bias is increased.

 

Tabel Exclusie na het lezen van het volledige artikel

Auteur en jaartal

Redenen van exclusie

Abdel Wahab, 2020

Voldoet niet aan PICO

Abudia, 2010

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Akdeniz, 2009

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Ameye, 2012

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Ardila, 2019

Case report en narrative review

Arun-Muthuvel, 2014

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Asif, 2004

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Auekitrungrueng, 2019

Voldoet niet aan PICO

Bouzari, 2011

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Campos, 2016

Voldoet niet aan PICO

Dasari, 2013

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Davies, 1993

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Di Legge, 2012

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Dochez, 2019

Voldoet niet aan PICO

Dodge, 2012

Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018)

Dodge, 2012

Geen systematisch review (narrative review)

Engelen, 2008

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Fruhauf, 2019

Narrative review

Geomini, 2009

Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018)

Hada, 2020

Voldoet niet aan PICO

Hakansson, 2012

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Harry, 2009

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Ionescu, 2018

Voldoet niet aan PICO

Jacobs, 1990

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Jacobs, 1993

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Kaijser, 2013

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Kaijser, 2014

Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018)

Karlsen, 2012

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Karlsen, 2015

Voldoet niet aan PICO

Koneczny, 2017

Voldoet niet aan PICO

Leelahakorn, 2005

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Lu, 2020

Voldoet niet aan PICO

Lycke, 2018

Voldoet niet aan PICO

Manjunath, 2001

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Melo, 2018

Voldoet niet aan PICO

Meys, 2015

Dubbele

Meys, 2017

Reeds geïncludeerd in Westwood (2018)

Morgante, 1999

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Moszynski, 2014

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Nowosielski, 2017

Geen systematisch review (narrative review)

Nunes, 2014

Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018)

Obeidat, 2004

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Ong, 2013

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Radosa, 2014

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Rossi, 2011

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Rossi, 2014

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Sayasneh, 2013

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Sayasneh, 2013

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Stukan, 2015

Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018)

Stukan, 2019

Voldoet niet aan PICO

Szubert, 2020

Voldoet niet aan PICO

Terzic, 2011

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Terzic, 2020

Narrative review

Testa, 2014

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Timmerman, 2010

Dubbele

Timmerman, 2011

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Tingulstad, 1996

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Tingulstad, 1999

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Ulusoy, 2007

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Van Calster, 2012

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

van den Akker, 2011

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Van Holsbeke, 2007

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

van Nimwegen, 2020

Systematisch review over pediatrische ovariumtumoren

van Trappen, 2007

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Wynants, 2017

Voldoet niet aan PICO

Yavuzcan, 2013

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Yazbek, 2006

Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018)

Zhang, 2019

Voldoet niet aan PICO

Autorisatiedatum en geldigheid

Laatst beoordeeld  : 11-03-2021

Laatst geautoriseerd  : 11-03-2021

Geplande herbeoordeling  : 01-01-2027

Bij het opstellen van de module heeft de werkgroep een inschatting gemaakt over de maximale termijn waarop herbeoordeling moet plaatsvinden en eventuele aandachtspunten geformuleerd die van belang zijn bij een toekomstige herziening (update). De geldigheid van de richtlijnmodule komt eerder te vervallen indien nieuwe ontwikkelingen aanleiding zijn een herzieningstraject te starten.

 

Module[1]

Regiehouder(s)[2]

Jaar van autorisatie

Eerstvolgende beoordeling actualiteit richtlijn[3]

Frequentie van beoordeling op actualiteit[4]

Wie houdt er toezicht op actualiteit[5]

Relevante factoren voor wijzigingen in aanbeveling[6]

Diagnostische modellen

NVOG

2020

2022

Elke 2 jaar

NVOG

Ontwikkelingen in het vakgebied; publicaties ROCkeTS studie, ACCEPT studie; meta-analyse IOTA modellen van Kalsteren.


[1] Naam van de module

[2] Regiehouder van de module (deze kan verschillen per module en kan ook verdeeld zijn over meerdere regiehouders)

[3] Maximaal na vijf jaar

[4] (half)Jaarlijks, eens in twee jaar, eens in vijf jaar

[5] regievoerende vereniging, gedeelde regievoerende verenigingen, of (multidisciplinaire) werkgroep die in stand blijft

[6] Lopend onderzoek, wijzigingen in vergoeding/organisatie, beschikbaarheid nieuwe middelen

Initiatief en autorisatie

Initiatief:
  • Nederlandse Vereniging voor Obstetrie en Gynaecologie
Geautoriseerd door:
  • Nederlandse Vereniging voor Obstetrie en Gynaecologie
  • Patiëntenfederatie Nederland
  • Stichting Bekkenbodem4All

Algemene gegevens

De richtlijnontwikkeling werd ondersteund door het Kennisinstituut van de Federatie Medisch Specialisten en werd gefinancierd uit de Stichting Kwaliteitsgelden Medisch Specialisten (SKMS). De financier heeft geen enkele invloed gehad op de inhoud van de richtlijn.

 

De richtlijnmodule is goedgekeurd door:

  • Stichting Bekkenbodem4All

Doel en doelgroep

Doel

Het doel is om gynaecologen te voorzien van een landelijk gedragen richtlijn voor het voorkomen en het behandelen van vrouwen met een (benigne) vergroot ovarium en die voldoet aan de eisen van een AGREE-instrument volgens de EBRO-methode. De te ontwikkelen richtlijn voorziet in de meest recente 'evidence based' informatie over het onderwerp (benigne) vergroot ovarium.

Met het opstellen van een dergelijke richtlijn wordt beoogd de onduidelijkheid en onzekerheid over het diagnosticeren en behandelen van een (benigne) ovariumcyste weg te nemen.

 

Doelgroep

Patiëntencategorie

De richtlijn geldt voor alle pre- en postmenopauzale vrouwen met een vergroot ovarium (vanaf de menarche), bij wie niet eerder een maligniteit (mamma, ovarium, GE) werd vastgesteld.

Richtlijngebruikers

Deze richtlijn is geschreven voor alle leden van de beroepsgroep van gynaecologen. Daarnaast kan deze richtlijn ingezien en gebruikt worden door alle zorgverleners die te maken krijgen met vrouwen met een vergroot ovarium.

Samenstelling werkgroep

Samenstelling werkgroep update 2018

  • Dr. P.M.A.J. Geomini, gynaecoloog, werkzaam in het Máxima Medisch Centrum te Eindhoven, NVOG, voorzitter richtlijncommissie
  • Dr. D. van den Broek, klinisch chemicus, werkzaam bij het NKI te Amsterdam, NVKC
  • Dr. J. Kaijser, gynaecoloog, werkzaam bij het Ikazia ziekenhuis te Rotterdam, NVOG
  • Dr. A.J. Krüse, gynaecoloog, werkzaam bij Isala te Zwolle, NVOG
  • Dr. C.A.R. Lok, gynaecoloog, werkzaam bij het NKI te Amsterdam, NVOG
  • Dr. A. Stiekema, AIOS gynaecologie, werkzaam bij het Academisch Medisch Centrum te Amsterdam, NVOG
  • M. Bosch, belangenbehartiging en PR Stichting Bekkenbodem4All, Stichting Bekkenbodem4All

 

Met ondersteuning van

  • dr. E.J.M. den Breejen, senior adviseur, Kennisinstituut van de Federatie Medisch Specialisten
  • dr. A. Bijlsma-Rutte, adviseur, Kennisinstituut van de Federatie Medisch Specialisten
  • dr. W.J. Harmsen, adviseur Kennisinstituut van de Federatie Medisch Specialisten

 

Oude samenstelling werkgroep

  • Mw. dr. P.M.A.J. Geomini, gynaecoloog, Maxima Medisch Centrum, Veldhoven (voorzitter)
  • Dhr. prof. dr. H.A.M. Brölmann, gynaecoloog, VU Medisch Centrum, Amsterdam
  • Dhr. dr. F.P.H.L.J. Dijkhuizen, gynaecoloog, ziekenhuis Rijnstate, Arnhem
  • Dhr. dr. T. Van Gorp, gynaecologisch oncoloog, Maastricht Universitair Medisch Centrum, Maastricht
  • Mw. dr. C.A.R. Lok, gynaecologisch oncoloog, Centrum Gynaecologische Oncologie, Amsterdam
  • Mw. drs. B.M. Pijlman, gynaecoloog, Jeroen Bosch Ziekenhuis, Den Bosch
  • Mw. Dr. F. Vernooij, AIOS Obstetrie & Gynaecologie, epidemioloog, Meander Medisch Centrum, Amersfoort
  • Mw. dr. Y.M. de Mooij, AIOS, VU Medisch Centrum, Amsterdam
  • Ir. T.A. van Barneveld, klinisch epidemioloog, Orde van Medisch Specialisten, Utrecht
  • Dhr. drs. K.Y. Heida, richtlijnondersteuner Nederlandse Vereniging voor Obstetrie en Gynaecologie, Utrecht
  • Mw. drs. M.E.P.F. Rückert, richtlijnondersteuner Nederlandse Vereniging voor Obstetrie en Gynaecologie, Utrecht
  • Mw. drs. C.A.L. van Rijn, richtlijnondersteuner Nederlandse Vereniging voor Obstetrie en Gynaecologie, Utrecht

 

Extern advies

  • Mw. drs. M. Wessels, informatiespecialist, Orde van Medisch Specialisten, Utrecht

Belangenverklaringen

De KNMG-code ter voorkoming van oneigenlijke beïnvloeding door belangenverstrengeling is gevolgd. Alle werkgroepleden hebben schriftelijk verklaard of zij in de laatste drie jaar directe financiële belangen (betrekking bij een commercieel bedrijf, persoonlijke financiële belangen, onderzoeksfinanciering) of indirecte belangen (persoonlijke relaties, reputatiemanagement, kennisvalorisatie) hebben gehad. Een overzicht van de belangen van werkgroepleden en het oordeel over het omgaan met eventuele belangen vindt u in onderstaande tabel. De ondertekende belangenverklaringen zijn op te vragen bij het secretariaat van het Kennisinstituut van de Federatie Medisch Specialisten.

 

Belangenverklaringen werkgroep update 2018

Werkgroeplid

Functie

Nevenfuncties

Gemelde belangen

Ondernomen actie

Geomini*

Gynaecoloog

Geen

mede organisator van Nederlandse IOTA cursus (gericht op implementeren IOTA regels voor echo beschrijving bij vergroot adnex)

1e auteur review: Geomini et al. The accuracy of risk scores in predicting ovarian malignancy: a systematic review. Obstet Gynecol. 2009 Feb;113:384-94.

Geen

Kruse

Gynaecoloog-oncoloog, Isala, Zwolle

Geen

Geen

Geen

Kaijser

gynaecoloog Ikazia Ziekenhuis Rotterdam

Cursusinstructeur: echografie van het vergrote ovarium: Nederlandse IOTA cursus. Specialistische echocursus voor afwijkingen in de adnexiele regio. Jaarlijkse eendaags cursus voor gynaecologen en AIOS mede georganiseerd door Biomedic-Samsung, Nederland. Locatie Almere. Medio Juni 2019 zal dit voor de 4e maal plaatsvinden. Sprekersvergoeding à 500 euro.

Klinisch werkzaam met Samsun WS80 echotoestel met geïntegreerd IOTA ADNEX model voor differentiatie van adnextumoren. Toestel wordt door Ikazia Ziekenhuis via officieel huurcontract afgenomen bij Biomedic Samsung, Nederland

Geen trekker (1e auteur) bij module over diagnostische modellen (UV4)

Lok

Gynaecologisch-oncoloog Antoni van Leeuwenhoek - Nederlands Kanker Instituut

Geen betaalde nevenfuncties

Begeleiding van promovendi

2 jaar geleden (kleine) subsidie (4x5000 euro) van Fujirebio gehad om een onderzoeker parttime HE4 te laten onderzoeken. Geen voorwaarden aan subsidie verbonden. Ging louter om het gebruiken van hun apparatuur voor analyse van samples. Huidig onderzoek wordt niet gefinancierd door Fujirebio.

 

Heeft eerder ook subsidies ontvangen voor onderzoek, waarbij de subsidies altijd aan het instituut werden uitbetaald om een onderzoeker van de betalen. Geen persoonlijk financieel gewin. Ging louter om het gebruik van technologieën van de betreffende industrie, geen voorwaarden verbonden aan de publicaties. Heeft zowel positieve als negatieve bevindingen over gepubliceerd.

 

Huidig onderzoek dat raakvlakken met de richtlijn heeft: onderzoek naar RMI en IOTA en het meten van markers, waarmee de selectie van patiënten zou kunnen worden verbeterd. Geen sponsoring van de industrie voor deze studie.

 

Heb wel over HE4 gepubliceerd, maar ook over CA-125 en RMI. Betreft louter wetenschappelijke publicaties van trial resultaten etc. Geen opiniestukken. Deze publicaties werden niet gesponsord door de industrie. Hier hangt m.i. geen intellectueel belang aan vast omdat zowel de voor- als nadelen van bv HE4 gewoon zijn gepubliceerd.

Geen trekker (1e auteur) bij module over tumormarkers (UV3).

Broek

Klinisch chemicus/afdelingshoofd Algemeen klinisch laboratorium (fulltime) Antoni van Leeuwenhoek, Amsterdam

Vakdeskundige Raad van Accreditatie ten behoeve van IS015189 (Detachering vanuit AVL, betaald) Lid commissie slimme en snelle diagnostiek (onbetaald) Lid flexpool ZonMW call vroege opsporing (vergoeding aan AVL, nu geen deelname aan ronde)

Lid METC (onbetaald) Voorzitter instituut review board (onbetaald)

Lid commissie moleculaire biologische diagnostiek NVKC (onbetaald)

Voor alle werkzaamheden waar een vergoeding tegenover staat komt deze ten goede aan de werkgever.

Geen

Ik ben betrokken bij onderzoek dat wordt gefinancierd door fondsen en/of industrie, echter de onderwerpen van deze studies richten zich op moleculaire analyses in bloed of andere lichaamsvloeistoffen. Er zijn geen projecten die aan het onderwerp van deze richtlijn raken.

Geen

Bosch

Vice Voorzitter en PR Stichting Bekkenbodem4All

Geen

Wij behartigen belangen van patiënten en geven voorlichting en ondersteuning aan mannen, vrouwen en kinderen met bekkenbodemproblemen in de breedste zin van het woord, zonder eigen belang of financieel belang.

Geen

Stiekema

AIOS Gynaecologie, Amsterdam UMC locatie AMC Meibergdreef

Geen

Afgerond promotieonderzoek februari 2016 naar de rol van biomarker van HE4 bij onder andere het vergrote ovarium. Financiering voor dit onderzoek voor een heel klein deel (kits om laboratorium bepalingen uit te voeren) via Fujirebio. Deze contacten zijn na 2016 beëindigd.

Geen trekker (1e auteur) bij module over tumormarkers (UV3).

*voorzitter richtlijncommissie

Inbreng patiëntenperspectief

Er werd aandacht besteed aan het patiëntenperspectief door een afgevaardigde van de patiëntenvereniging Stichting Bekkenbodem4All in de werkgroep deel te laten nemen. De modules worden tevens voor commentaar voorgelegd aan de Patiëntenfederatie Nederland en aan de Stichting Bekkenbodem4All.

Methode ontwikkeling

Evidence based

Implementatie

In de verschillende fasen van het ontwikkelproces is rekening gehouden met de implementatie van de richtlijnmodule en de praktische uitvoerbaarheid van de aanbevelingen. Daarbij is uitdrukkelijk gelet op factoren die de invoering van de module in de praktijk kunnen bevorderen of belemmeren. De implementatietabel is te vinden in de bijlagen. Er werden geen indicatoren ontwikkeld bij deze modules.

Werkwijze

AGREE

Deze module is opgesteld conform de eisen vermeld in het rapport Medisch Specialistische Richtlijnen 2.0 van de adviescommissie Richtlijnen van de Raad Kwaliteit. Dit rapport is gebaseerd op het AGREE II instrument (Appraisal of Guidelines for Research & Evaluation II; Brouwers, 2010), dat een internationaal breed geaccepteerd instrument is. Voor een stap-voor-stap beschrijving hoe een evidence-based module tot stand komt wordt verwezen naar het stappenplan Ontwikkeling van Medisch Specialistische Richtlijnen van het Kennisinstituut van de Federatie Medisch Specialisten.

 

Knelpuntenanalyse

Uit de inventarisatie van de knelpunten door werkgroep bleek dat er een noodzaak was voor revisie en updaten van verschillende richtlijnmodules uit de richtlijn het Vergrote Ovarium (2013). Tijdens deze inventarisatie zijn er knelpunten aangedragen door relevante partijen via een schriftelijke Invitational conference. Een verslag hiervan is opgenomen in de bijlagen.

 

Uitgangsvraag en uitkomstmaten

Op basis van de uitkomsten van de knelpuntenanalyse zijn door de werkgroepleden en de adviseur uitgangsvragen opgesteld. Vervolgens inventariseerde de werkgroep welke uitkomstmaten voor de patiënt relevant zijn, waarbij zowel naar gewenste als ongewenste effecten werd gekeken. De werkgroep waardeerde deze uitkomstmaten volgens hun relatieve belang bij de besluitvorming rondom aanbevelingen, als cruciaal (kritiek voor de besluitvorming), belangrijk (maar niet kritiek) en onbelangrijk. Indien mogelijk definieerde de werkgroep tenminste voor de cruciale uitkomstmaten welke verschillen zij klinisch (patiënt) relevant vonden.

 

Strategie voor zoeken en selecteren van literatuur

Aan de hand van specifieke zoektermen werd gezocht naar gepubliceerde wetenschappelijke studies in (verschillende) elektronische databases. Tevens werd aanvullend gezocht naar studies aan de hand van de literatuurlijsten van de geselecteerde artikelen. In eerste instantie werd gezocht naar studies met de hoogste mate van bewijs. De werkgroepleden selecteerden de via de zoekactie gevonden artikelen op basis van vooraf opgestelde selectiecriteria. De geselecteerde artikelen werden gebruikt om de uitgangsvraag te beantwoorden. De geselecteerde databases waarin is gezocht en de gehanteerde selectiecriteria zijn te vinden in de module met desbetreffende uitgangsvraag. De zoekstrategie is opvraagbaar bij de Richtlijnendatabase, zie het tabblad ‘Zoekverantwoording’ voor verdere details.

 

Kwaliteitsbeoordeling individuele studies

Individuele studies werden systematisch beoordeeld, op basis van op voorhand opgestelde methodologische kwaliteitscriteria, om zo het risico op vertekende studieresultaten (risk of bias) te kunnen inschatten. Deze beoordelingen kunt u vinden in de Risk of Bias (RoB) tabellen. De gebruikte RoB instrumenten zijn gevalideerde instrumenten die worden aanbevolen door de Cochrane Collaboration:

  • AMSTAR - voor systematische reviews.
  • Cochrane - voor gerandomiseerd gecontroleerd onderzoek.
  • ACROBAT-NRS - voor observationeel onderzoek.
  • QUADAS II - voor diagnostisch onderzoek.

 

Samenvatten van de literatuur

De relevante onderzoeksgegevens van alle geselecteerde artikelen werden overzichtelijk weergegeven in evidencetabellen. De belangrijkste bevindingen uit de literatuur werden beschreven in de samenvatting van de literatuur.

 

Beoordelen van de kracht van het wetenschappelijke bewijs

Voor interventievragen (vragen over therapie of screening)

De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode. GRADE staat voor ‘Grading Recommendations Assessment, Development and Evaluation’ (zie http://www.gradeworkinggroup.org/).

 

GRADE onderscheidt vier gradaties voor de kwaliteit van het wetenschappelijk bewijs: hoog, redelijk, laag en zeer laag. Deze gradaties verwijzen naar de mate van zekerheid die er bestaat over de literatuurconclusie (Schünemann, 2013).

 

GRADE

Definitie

Hoog

  • er is hoge zekerheid dat het ware effect van behandeling dicht bij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • het is zeer onwaarschijnlijk dat de literatuurconclusie verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Redelijk

  • er is redelijke zekerheid dat het ware effect van behandeling dicht bij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • het is mogelijk dat de conclusie verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Laag

  • er is lage zekerheid dat het ware effect van behandeling dicht bij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • er is een reële kans dat de conclusie verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Zeer laag

  • er is zeer lage zekerheid dat het ware effect van behandeling dicht bij het geschatte effect van behandeling ligt zoals vermeld in de literatuurconclusie;
  • de literatuurconclusie is zeer onzeker.

 

Bij het beoordelen (graderen) van de kracht van het wetenschappelijk bewijs in richtlijnen volgens de GRADE-methodiek spelen grenzen voor klinische besluitvorming een belangrijke rol (Hultcrantz, 2017). Dit zijn de grenzen die bij overschrijding aanleiding zouden geven tot een aanpassing van de aanbeveling. Om de grenzen voor klinische besluitvorming te bepalen moeten alle relevante uitkomstmaten en overwegingen worden meegewogen. De grenzen voor klinische besluitvorming zijn daarmee niet één op één vergelijkbaar met het minimaal klinisch relevant verschil (Minimal Clinically Important Difference, MCID). Met name in situaties waarin een interventie geen belangrijke nadelen heeft en de kosten relatief laag zijn, kan de grens voor klinische besluitvorming met betrekking tot de effectiviteit van de interventie bij een lagere waarde (dichter bij het nuleffect) liggen dan de MCID (Hultcrantz, 2017).

 

Voor vragen over diagnostische tests, schade of bijwerkingen, etiologie en prognose

De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode: GRADE-diagnostiek voor diagnostische vragen (Schünemann, 2008) en een generieke GRADE-methode voor vragen over schade of bijwerkingen, etiologie en prognose. In de gehanteerde generieke GRADE-methode werden de basisprincipes van de GRADE-methodiek toegepast: het benoemen en prioriteren van de klinisch (patiënt) relevante uitkomstmaten, een systematische review per uitkomstmaat, en een beoordeling van bewijskracht op basis van de vijf GRADE-criteria (startpunt hoog; downgraden voor risk of bias, inconsistentie, indirectheid, imprecisie, en publicatiebias).

 

Formuleren van de conclusies

Voor elke relevante uitkomstmaat werd het wetenschappelijk bewijs samengevat in een of meerdere literatuurconclusies waarbij het niveau van bewijs werd bepaald volgens de GRADE-methodiek. De werkgroepleden maakten de balans op van elke interventie (overall conclusie). Bij het opmaken van de balans werden de gunstige en ongunstige effecten voor de patiënt afgewogen. De overall bewijskracht wordt bepaald door de laagste bewijskracht gevonden bij een van de kritieke uitkomstmaten. Bij complexe besluitvorming waarin naast de conclusies uit de systematische literatuuranalyse vele aanvullende argumenten (overwegingen) een rol spelen, werd afgezien van een overall conclusie. In dat geval werden de gunstige en ongunstige effecten van de interventies samen met alle aanvullende argumenten gewogen onder het kopje 'Overwegingen'.

 

Overwegingen (van bewijs naar aanbeveling)

Om te komen tot een aanbeveling zijn naast (de kwaliteit van) het wetenschappelijke bewijs ook andere aspecten belangrijk en worden meegewogen, zoals de expertise van de werkgroepleden, de waarden en voorkeuren van de patiënt, kosten, beschikbaarheid van voorzieningen en organisatorische zaken. Deze aspecten worden, voor zover geen onderdeel van de literatuursamenvatting, vermeld en beoordeeld (gewogen) onder het kopje ‘Overwegingen’.

 

Formuleren van aanbevelingen

De aanbevelingen geven antwoord op de uitgangsvraag en zijn gebaseerd op het beschikbare wetenschappelijke bewijs en de belangrijkste overwegingen, en een weging van de gunstige en ongunstige effecten van de relevante interventies. De kracht van het wetenschappelijk bewijs en het gewicht dat door de werkgroep wordt toegekend aan de overwegingen, bepalen samen de sterkte van de aanbeveling. Conform de GRADE-methodiek sluit een lage bewijskracht van conclusies in de systematische literatuuranalyse een sterke aanbeveling niet a priori uit, en zijn bij een hoge bewijskracht ook zwakke aanbevelingen mogelijk. De sterkte van de aanbeveling wordt altijd bepaald door weging van alle relevante argumenten tezamen.

 

Randvoorwaarden (Organisatie van zorg)

Bij de ontwikkeling van de module is expliciet rekening gehouden met de organisatie van zorg: alle aspecten die randvoorwaardelijk zijn voor het verlenen van zorg (zoals coördinatie, communicatie, (financiële) middelen, menskracht en infrastructuur). Randvoorwaarden die relevant zijn voor het beantwoorden van een specifieke uitgangsvraag maken onderdeel uit van de overwegingen bij de bewuste uitgangsvraag, randvoorwaarden die van invloed zijn op de implementatie van de aanbeveling zijn opgenomen in de implementatietabel.

 

Indicatorontwikkeling

Er werden geen indicatoren ontwikkeld bij deze modules.

 

Kennislacunes

Tijdens de ontwikkeling van deze module is systematisch gezocht naar onderzoek waarvan de resultaten bijdragen aan een antwoord op de uitgangsvraag. Er is nagegaan of (aanvullend) wetenschappelijk onderzoek gewenst is om de uitgangsvraag te kunnen beantwoorden. Mocht dit bij deze module het geval zijn, dan is er een aanbeveling voor het doen van onderzoek opgenomen in de bijlage Kennislacunes.

 

Commentaar- en autorisatiefase

De module worden aan de betrokken (wetenschappelijke) verenigingen, instanties en (patiënt) organisaties voorgelegd ter commentaar. De commentaren werden verzameld en besproken met de werkgroep. Naar aanleiding van de commentaren werd de conceptmodule aangepast en definitief vastgesteld door de werkgroep. De definitieve module werd aan de deelnemende (wetenschappelijke) verenigingen en (patiënt) organisaties voorgelegd voor autorisatie en door hen geautoriseerd dan wel geaccordeerd. De commentaartabel is op te vragen bij het Kennisinstituut van de Federatie Medisch Specialisten via secretariaat@kennisinstituut.nl

 

Literatuur

Brouwers MC, Kho ME, Browman GP, et al. AGREE Next Steps Consortium. AGREE II: advancing guideline development, reporting and evaluation in health care. CMAJ. 2010;182(18):E839-42. doi: 10.1503/cmaj.090449. Epub 2010 Jul 5. Review. PubMed PMID: 20603348.

Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006. Epub 2017 May 18. PubMed PMID: 28529184.

Medisch Specialistische Richtlijnen 2.0 (2012). Adviescommissie Richtlijnen van de Raad Kwalitieit. https://richtlijnendatabase.nl/over_deze_site/richtlijnontwikkeling.html.

Schünemann H, Brożek J, Guyatt G, et al. GRADE handbook for grading quality of evidence and strength of recommendations. Updated October 2013. The GRADE Working Group, 2013. Available from http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html.

Schünemann HJ, Oxman AD, Brozek J, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ. 2008;336(7653):1106-10. doi: 10.1136/bmj.39500.677199.AE. Erratum in: BMJ. 2008;336(7654). doi: 10.1136/bmj.a139. PubMed PMID: 18483053.

Ontwikkeling van Medisch Specialistische Richtlijnen: stappenplan. Kennisinstituut van de Federatie Medisch Specialisten.

Wessels M, Hielkema L, van der Weijden T. How to identify existing literature on patients' knowledge, views, and values: the development of a validated search filter. J Med Libr Assoc. 2016 Oct;104(4):320-324. PubMed PMID: 27822157; PubMed Central PMCID: PMC5079497.

Zoekverantwoording

Zoekacties zijn opvraagbaar. Neem hiervoor contact op met de Richtlijnendatabase.

Volgende:
Behandeling