Diagnostische modellen bij een vergroot ovarium
Uitgangsvraag
Welk diagnostisch model op basis van echoscopie is het meest geschikt om toe te passen voor de differentiatie tussen benigne en maligne adnex pathologie?
Aanbeveling
Overweeg voor differentiatie tussen benigne en maligne adnexpathologie bij een vergroot ovarium gebruik te maken van het International Ovarian Tumor Analaysis (IOTA) ADNEX model.
Overweeg voor de beslissing wel/ niet verwijzen naar een gynaecologische oncoloog een afkapwaarde van 40% voor het ADNEX model te hanteren om een vergelijkbare specificiteit te behouden als de Risk of Malignancy Index (RMI) (cut-off 200).
Gebruik het IOTA ADNEX model alleen bij adequate kennis en voldoende expertise van de noodzakelijk IOTA echo variabelen.
Overweeg binnen elke maatschap of vakgroep om minimaal één gynaecoloog op te leiden in het echoscopisch onderzoek van het vergroot ovarium en te trainen/scholen in het correct gebruik van de gestandaardiseerde IOTA echovariabelen en het IOTA ADNEX model.
Overwegingen
De onderstaande overwegingen en aanbevelingen gelden voor het overgrote deel van de populatie waarop de uitgangsvraag betrekking heeft.
Voor- en nadelen van de interventie en de kwaliteit van het bewijs
Op basis van de literatuuranalyse lijkt de diagnostische accuratesse van het IOTA Simple Rules model alsmede de IOTA predictiemodellen (LR2 en ADNEX) gelijk of zelfs hoger te zijn dan de diagnostische accuratesse van het RMI model voor een aantal specifieke uitkomstmaten. De bevindingen uit de literatuur worden hieronder per model beschreven. Alle bevindingen berusten op observationeel onderzoek. Het ontbreken van RCT’s binnen diagnostisch onderzoek wordt gezien als kennislacune.
1. Simple Rules model
In de bijlage ‘Diagnostische modellen’ zijn afbeeldingen van de verschillende IOTA-modellen te zien. Zie figuur 4. in de bijlage ‘Diagnostische modellen’ voor het Simple Rules model.
Mogelijk zijn de gemiddelde negatief voorspellende waarde en de sensitiviteit van het model Simple Ultrasound Rules + expert beoordeling hoger dan die van het RMI model (cut-off 200) en is er mogelijk geen verschil tussen de gemiddelde positief voorspellende waarde en specificiteit van de Simple Ultrasound Rules + expert beoordeling en het RMI model. In de praktijk betekent dit dat er meer patiënten met een maligniteit van het ovarium geselecteerd worden op basis van het Simple Rules model (met expert beoordeling voor inconclusieve tumoren), zonder dat dit leidt tot meer foutpositieve uitslagen en dus onnodige verwijzingen naar een derdelijns gynaecologisch oncologisch centrum.
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het Simple Ultrasound Rules + expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).
Mogelijk zijn de gemiddelde negatief voorspellende waarde en de sensitiviteit van het Simple Rules model (met classificatie maligne bij inconclusieve tumoren) hoger dan die van het RMI model (cut-off 200), is mogelijk de gemiddelde positief voorspellende waarde van het Simple Ultrasound Rules model lager dan die van het RMI model en is onduidelijk of er een verschil is in specificiteit tussen beide modellen. In de praktijk betekent dit dat er meer patiënten met een maligniteit van het ovarium geselecteerd worden op basis van het Simple Rules model (met classificatie maligne bij inconclusieve tumoren), doch mogelijk leidt dit tot meer fout positieve uitslagen en dus onnodige verwijzingen naar een derdelijns gynaecologisch oncologisch centrum.
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit en specificiteit voor de diagnostische accuratesse van de het Simple Rules model (met expert beoordeling voor inconclusieve tumoren) voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag gezien het observationele onderzoeksdesign en is met één niveau verlaagd vanwege het ernstige risico op bias (heterogeniteit onderzoekspopulaties en beperkingen beoordeling referentietest).
2. IOTA ADNEX model
Zie figuur 5. de bijlage ‘Diagnostische modellen’ voor een weergave van het IOTA ADNEX model.
De negatief voorspellende waarde (NPV) van het IOTA ADNEX model (cut-off 10%) is mogelijk hoger dan die van het RMI-model (cut-off 200). De positief voorspellende waarde (PPV) is mogelijk gelijk tussen het IOTA ADNEX model (cut-off 10%) en het RMI model (cut-off 200). De NPV en PPV zijn niet onderzocht voor andere afkapwaarden van het IOTA ADNEX model.
De sensitiviteit van het IOTA ADNEX model is voor de afkapwaarden 1%, 3%, 5%, 10%, 15%, 20%, 25%, 30% en 40% mogelijk hoger dan het RMI-model (cut-off 200). De sensitiviteit van het IOTA ADNEX model is mogelijk gelijk aan dat van het RMI-model (cut-off 200) bij afkapwaarden van 50%.
De specificiteit van het IOTA ADNEX model is voor de afkapwaarden 1%, 3%, 5% mogelijk lager dan het RMI model (cut-off 200). De specificiteit van het IOTA ADNEX model is voor de afkapwaarden 10%, 15%, 20%, 25%, 30%, 40% en 50% mogelijk gelijk aan het RMI-model (cut-off 200).
De NPV, PPV, sensitiviteit en specificiteit van een test zijn sterk afhankelijk van de cut-off die men kiest. Bij een lage cut-off, zoals bij het IOTA ADNEX model (bijvoorbeeld 10%) verhoog je de sensitiviteit ten koste van verlies in specificiteit. Idem vice versa, waarbij dit ook geldt voor het RMI-model.
De AUC van het IOTA ADNEX model is mogelijk significant hoger dan die van het RMI-model, dit betekent dat wanneer een cut-off wordt gekozen waarbij beide testen eenzelfde specificiteit hebben het IOTA ADNEX model altijd nog een hogere sensitiviteit heeft. Wanneer de keuze voor de cut-off zo valt dat beide testen een gelijke sensitiviteit hebben, zal de specificiteit van het IOTA ADNEX model altijd beter zijn dan die van het RMI-model.
Kort samengevat kunnen meer patiënten met een maligne ovariumtumor worden verwezen bij gebruik van het IOTA ADNEX model zonder dat dit hoeft te leiden tot een toename in het aantal fout positieve verwijzingen door de cut-off van 10% te verhogen tot bijvoorbeeld 40% (specificiteit vergelijkbaar met cut-off 200 op basis van RMI-model).
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van het ADNEX-model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).
3. IOTA LR2 model
Zie figuur 6. de bijlage ‘Diagnostische modellen’ voor een weergave van het IOTA LR2 model.
De negatief voorspellende waarde (NPV) van het IOTA LR2 model (cut-off 10%) is mogelijk gelijk aan die van het RMI-model (cut-off 200), de positief voorspellende waarde (PPV) is mogelijk lager van het LR2 model (cut-off 10%). De NPV en PPV zijn niet onderzocht voor andere afkapwaarden van het IOTA LR2 model.
De sensitiviteit van het IOTA LR2 model is voor de afkapwaarden 1%, 3%, 5%, 10%, 15%, 20%, 25% en 30% mogelijk hoger dan het RMI-model (cut-off 200). De sensitiviteit van het IOTA LR2 model is mogelijk gelijk aan dat van het RMI-model (cut-off 200) bij afkapwaarden van 40% of 50%.
De specificiteit van het IOTA LR2 model is voor de afkapwaarden 1%, 3%, 5% mogelijk lager dan het RMI-model (cut-off 200). De specificiteit van het IOTA LR2 model is voor de afkapwaarden 10%, 15%, 20%, 25%, 30%, 40% en 50% mogelijk gelijk aan het RMI-model (cut-off 200).
Dit betekent in de praktijk dat er meer terechte diagnoses van ovarium carcinoom kunnen worden gesteld bij gebruik van het LR2-model zonder dat dit per se hoeft te leiden tot een toename in het aantal foutpositieve diagnoses.
De NPV, PPV, sensitiviteit en specificiteit van een test zijn sterk afhankelijk van de cut-off die men kiest. Bij een lage cut-off zoals bij het LR2-model verhoog je je sensitiviteit ten koste van verlies in specificiteit. Idem vice versa, waarbij dit ook geldt voor het RMI-model.
De AUC van het LR2-model is mogelijk significant hoger dan die van het RMI-model, dit betekent dat wanneer een cut-off wordt gekozen waarbij beide testen eenzelfde specificiteit hebben het LR2-model altijd nog een hogere sensitiviteit heeft. Wanneer de keuze voor de cut-offs zo valt dat beide testen een gelijke sensitiviteit hebben, zal de specificiteit van het IOTA LR2 model altijd beter zijn dan die van het RMI-model.
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het LR2-model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).
4. Expert beoordeling
Mogelijk zijn de negatief voorspellende waarde, de sensitiviteit, de specificiteit en de positief voorspellende waarden van een expert beoordeling hoger dan die van het RMI-model.
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen is laag vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest).
Interpretatie resultaten literatuuranalyse
De resultaten van de literatuuranalyse suggereren dat, vergeleken met het RMI-model, het IOTA Simple Rules model en de IOTA predictiemodellen (LR2 en ADNEX), waarbij de gerapporteerde cut-off flexibel is in gebruik, van toegevoegde waarde zouden kunnen zijn in het verbeteren van de triage bij ovariumtumoren.
Op basis van het onderscheidend vermogen (discriminatie) van verschillende diagnostische modellen geniet het IOTA ADNEX model duidelijk de voorkeur boven de RMI.
Het discriminerend vermogen van een predictiemodel zoals het ADNEX-model of RMI alleen zegt niet of dit model dan ook daadwerkelijk in de klinische praktijk nuttig is om te gebruiken voor klinische besluitvorming. Daarom zijn er in de klinische besliskunde verschillende methoden ontwikkeld die in staat zijn om de juist de gevolgen/effecten van een foutpositieve en foutnegatieve classificatie te onderzoeken zoals “decision curve analysis” (Balachandran, 2015; Kerr, 2016; Localio, 2012; Saville, 2015).
Deze techniek kan ons helpen om te bepalen of een predictiemodel überhaupt de moeite waard is om te gebruiken, en welk model vanuit klinisch oogpunt de voorkeur verdient. Decision curve analysis is ook al eerder toegepast in het domein van triage bij adnextumoren. Een eerdere studie van (Wynants, 2017) toont in Figuur 7 de bijlage ‘Diagnostische modellen’, deze decision curves voor onder andere het IOTA ADNEX model en RMI. Dit figuur illustreert dat voor elke cut off van het IOTA ADNEX model variërend tussen 5 en 50% de NB (“net benefit”) als uitkomstmaat van het IOTA ADNEX model altijd hoger is dan voor het RMI model. Meer specifiek, wanneer we IOTA ADNEX gebruiken voor triage, kunnen we altijd een hoger aantal terechtpositieven correct verwijzen dan wanneer we RMI gebruiken, bij hetzelfde aantal valspositieven. Stel hypothetisch dat bij een cut-off van 40% voor IOTA ADNEX de net benefit 0.05 extra bedraagt ten opzichte van RMI, dan betekent dit dat je netto 5 meer terechtpositieven hebt per 100 vrouwen met een adnextumor, bij hetzelfde aantal foutpositieven.
Deze resultaten worden eveneens bevestigd in de studie van Calster (2020). Zie ook Figuur 8 de bijlage ‘Diagnostische modellen’. Decision curve analysis kan voor ons niet bepalen welke “threshold”of cut-off dan moet worden gekozen voor het IOTA ADNEX model in Nederland.
IOTA modellen en triage
Naast het gebruik van de IOTA-modellen voor een preoperatief onderscheid tussen een goed- of kwaadaardige adnextumor lijken de IOTA-modellen ook te kunnen worden gebruikt om een expectatief/afwachtend beleid te rechtvaardigen. Dit wordt nu onderzocht binnen de IOTA fase 5 studie (Froyman, 2019), waarbij uiteindelijk met hulp van bijvoorbeeld je risico inschatting op een maligniteit bij gebruik van het IOTA ADNEX model (bijvoorbeeld risico op een maligniteit < 1 %) een expectatief beleid te rechtvaardigen valt bij asymptomatische vrouwen met een ovariële cyste.
Een eerder gepubliceerde RCT (Nunes, 2017) laat zien dat klinische implementatie van een triageprotocol met het Simple Rules model ten opzichte van RMI in het Verenigd Koninkrijk minder vaak leidt tot onnodige heelkundige interventies binnen een populatie asymptomatische postmenopauzale patiënten met een benigne adnexcyste.
Recent gepubliceerd onderzoek (IOTA fase 5; Froyman, 2019) heeft ook laten zien dat een expectatief beleid veilig lijkt, mits een betrouwbare classificatie van een benigne adnexcyste heeft plaatsgevonden. In de nabije toekomst worden uit deze studie de resultaten verwacht over de vraag of de IOTA-modellen ook gebruikt kunnen worden om die patiënten te selecteren waarbij afwachten veilig lijkt.
Waarden en voorkeuren van patiënten (en eventueel hun verzorgers)
Een belangrijk doel voor de patiënt met een afwijkend ovarium is dat een ovariumcarcinoom zo snel mogelijk en zo goed mogelijk kan worden geïdentificeerd. Een correcte diagnose van een maligne massa in een vroeg stadium zal de kans op overleving verbeteren.
Een ander belangrijk doel voor de patiënt is het correct classificeren van een massa als benigne. Dit voorkomt dat foutpositieve patiënten ten onrechte doorverwezen worden naar een gynaecologisch oncologisch centrum en dat er besloten wordt tot onnodig aanvullend beeldvormend onderzoek en potentieel een onnodige laparotomie, met of zonder vriescoupe onderzoek.
Vergeleken met de huidige situatie (gebruik van het RMI-model), zou bij het gebruik van een IOTA model geen CA 125 meer hoeven te worden geprikt bij de patiënt en kan de diagnose in één consult worden gesteld. Dit betekent dat de patiënt geen bloedafname hoeft te ondergaan en sneller weet waar zij aan toe is, wat mogelijke angst en spanning tot aan het moment van de uitslag wegneemt. Het gebruik van CA 125 in het ADNEX-model is optioneel. Het verbetert niet het onderscheidend vermogen tussen goed- en kwaadaardig. Enkel indien er een sterke verdenking op een maligniteit bestaat en je een onderscheid wenst te maken tussen een ovariële metastase van een andere primaire tumor en een klassiek stadium 2-4 invasief ovariumcarcinoom kan dit nuttig zijn.
Een potentieel voordeel van de IOTA predictiemodellen LR2 en ADNEX ten opzichte van RMI is dat beide modellen risico’s op een maligniteit voorspellen, dit in tegenstelling tot het RMI-model dat enkel een score berekend en geen absoluut risico op een maligniteit. Zeker in het licht van “shared decision making” tussen arts en patiënt kunnen deze berekende kansen op een maligniteit mogelijk een steeds belangrijkere rol spelen binnen de besluitvorming voor de patiënt. De werkgroep wil wel benadrukken dat men voorzichtig dient te zijn in het gebruik en specifiek benoemen van kansen op een maligniteit bij de klinische besluitvorming rondom ovariumtumoren wanneer IOTA-modellen worden gehanteerd.
RMI is geen risicomodel, als gynaecoloog kan je “verschuilen” achter de waarde (wel/ geen 200) en een patiënte al dan niet verwijzen of behandelen in je eigen centrum. Toch bestaat er voor elke waarde die het RMI-model berekent ook een “kans op een maligniteit”, zoals gepubliceerd in Figuur 2 uit Testa (2014). Deze figuur en bijbehorende data zijn open acces te bekijken via https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4134495/. Het is niet mogelijk de figuur in deze richtlijn op te nemen. De meeste gynaecologen zijn niet op de hoogte van deze kansen en dus worden ze niet meegenomen in de besluitvorming met de patiënte. Testa (2014) rapporteert dat bij een RMI waarde van 200 de kans dat een patiënte een maligne ovariumtumor heeft varieert tussen de 30 en 70%, afhankelijk of je werkt in een algemeen ziekenhuis of oncologisch centrum (zie de bijlage ‘Diagnostische modellen’ - Figuur 9).
Kosten (middelenbeslag)
Meys (2018) voerde een economische evaluatie uit om de kosteneffectiviteit van het RMI model te vergelijken met de kosteneffectiviteit van het Simple Rules model met subjectieve beoordeling, het Simple Rules model waarbij inconclusieve resultaten als maligne werden beoordeeld, het LR2-model en het ADNEX model toepast op de Nederlandse setting in 2014. De studie beschreef Nederlandse, volwassen vrouwen met een vergroot ovarium die geopereerd moesten worden (n=6493). De kosten-effectiviteitsanalyse betrof de periode vanaf de detectie van de massa tot het herstel van de chirurgische ingreep (korte termijn). Geanalyseerde kosten betroffen ziekenhuiskosten, patiënt- en familie gerelateerde kosten en overige kosten, zoals afwezigheid op het werk. De resultaten lieten zien dat het Simple Rules model met subjectieve beoordeling het meest kosteneffectief lijkt te zijn, bij een willingness to pay < 350 euro per additioneel percentage correct gediagnosticeerde patiënten. Daarentegen had het RMI model de laagste kans om kosteneffectief te zijn (< 3%) en was dit model inferieur ten opzichte van subjectieve beoordeling door een expert, Simple rules met subjectieve beoordeling door een expert en het IOTA adnex model vanaf een cut off van 27% en het LR2 model vanaf een cut off van 9% (Meys, 2018).
De resultaten van de budget impact analyse varieerde van een mogelijke besparing van 4,67 miljoen euro bij het gebruik van Simple rules met subjectieve beoordeling en voorkomt 11.4% incorrecte diagnoses (fout-positieven en fout negatieven) ten opzichte van gebruik van RMI. Bij implementatie van het IOTA ADNEX model in Nederland met een cutoff van 40% zal een kostenbesparing op jaarbasis optreden van ongeveer 2 miljoen euro en zal leiden tot een 5.3% toename in het aantal correcte diagnoses ten opzichte van RMI. (Zie tabel 2 in het artikel van Meys, 2018).
Westwood en collega’s (2018) voerden eveneens een kosteneffectiviteitsanalyse in het Groot-Brittannië, waarin de IOTA-modellen kosteneffectiever bleken te zijn dan RMI. Het kosteneffectiviteitsmodel binnen deze studie prioriteert sensitiviteit boven specificiteit. Het IOTA ADNEX model bij een cut off van 10% domineert RMI. Onduidelijk blijft de disutility van een toename in het aantal vals positieven en de hieraan verbonden verwijskosten naar een oncologisch centrum.
Aanvaardbaarheid voor de overige relevante stakeholders
Er zijn geen zaken bekend.
Haalbaarheid en implementatie
Alle IOTA-modellen zijn momenteel web-based en kosteloos toegankelijk via (www.iotagroup.org), via mobile-apps (deels betaald) (i.e. Apple App store: IOTA-Models (kosteloos) en IOTA ADNEX (20 euro)/ Google PLAY: IOTA ADNEX (20 euro) en eveneens ingebouwd in high-end echotoestellen (GE Healthcare, Samsung) wat het dagelijks gebruik kan vergemakkelijken (zie de bijlage ‘Diagnostische modellen’ - figuur 10).
Vergeleken met het RMI model, is bepaling van het serum CA 125 via een bloedafname niet noodzakelijk meer bij het gebruik van een IOTA-model. Dit maakt het mogelijk om triage rondom een afwijkend adnex in één consult af te ronden. Enkel bij gebruik van het IOTA ADNEX model is het bepalen van CA 125 optioneel, doch verbeterd dit niet het onderscheid tussen een goed- en kwaadaardige ovariumtumor. Behoudens de reeds hierboven aangehaalde studie van Nunes (2017) zijn er geen andere gerandomiseerde implementatiestudies verricht die de IOTA-modellen hebben vergeleken met RMI in de dagelijkse praktijk.
Een belangrijke voorwaarde voor de implementatie van de IOTA-modellen in de dagelijkse praktijk is dat de gynaecoloog gedegen kennis van het gebruik van het IOTA-model en de definities van de echovariabelen heeft. Wetenschappelijk onderzoek suggereert dat onervaren gebruikers zonder gedegen training in de IOTA terminologie en definities vaker foutief diagnosticeren dan ervaren gebruikers (Meys, 2017b).
In Nederland is er sinds 2016 de mogelijkheid om gynaecologen en AIOS specifiek te trainen in het correct gebruik van de IOTA-modellen bij de cursus ‘Echografie van het vergrote ovarium: Nederlandse IOTA cursus’. Daarnaast zijn er internationaal ook talrijke gelegenheden waar training mogelijk is (www.iotagroup.org). Het volgen van een cursus maakt de gynaecoloog nog geen expert in IOTA modellen, het is daarnaast ook belangrijk om door voldoende exposure de benodigde expertise op te bouwen. Zie ook de module ‘Organisatie van Zorg’.
In vergelijking met de andere IOTA-modellen, kent het ADNEX-model het hoogste gebruiksgemak. In het model zijn enkel “low-cost” echovariabelen (maximale diameter (mm), maximale diameter grootste soliede component (mm), aanwezigheid van meer dan 10 loci (ja/nee), aantal papillaire structuren (1,2,3 of > 3), aanwezigheid schaduw (ja/nee), aanwezigheid ascites (ja/nee)) geïncorporeerd welke in hoge mate gelijken op de huidige echovariabelen in RMI (zie de bijlage ‘Diagnostische modellen’ - Figuur 5). Kleurendoppler, een “high-cost” echovariabele (hoge mate van interobserver variatie, sterk afhankelijk van setting echotoestel) is juist daarom verlaten. Daarbij is het ADNEX model op elke tumor toepasbaar, en is het tevens in staat om te voorspellen met welk type maligne tumor je te maken hebt (multiclass risicopredictie: i.e. benigne ovariumcyste, borderline ovariumtumor, stadium 1 invasief ovariumcarcinoom, stadium 2-4 invasief ovariumcarcinoom en een metastatische tumor naar het ovarium (zie de bijlage ‘Diagnostische modellen’ 3 - Figuur 11)). Dit is zeer belangrijk omdat de behandeling voor verschillende maligne adnextumoren anders is. Op basis van deze punten geniet het ADNEX-model volgens de werkgroep de voorkeur ten opzichte van de andere IOTA-modellen. Voorafgaand aan implementatie van het IOTA ADNEX model zal landelijk eerst nog overeenstemming moeten worden bereikt met betrekking tot de gebruikte cut-off. Cut-offs van predictiemodellen zijn niet statisch, doch flexibel. De keuze voor een bepaalde cut-off die wordt gepresenteerd in een wetenschappelijk artikel zijn enkel een stip (met bijbehorende sensitiviteit en specificiteit) op de bijgeleverde ROC curve van het model. De keuze voor een bepaalde cut-off bij gebruik van een risicomodel voor onderscheid tussen benigne en maligne ovariumtumoren is afhankelijk van veel verschillende factoren.
In de eerste en de belangrijkste plaats de optimale balans tussen sensitiviteit en specificiteit, die wenselijk wordt geacht binnen het zorglandschap rondom ovariumcarcinoom in Nederland. Er lijkt in ieder geval geen toename te moeten ontstaan in het aantal foutpositieve gevallen. Dit lijkt niet wenselijk gezien de huidige capaciteitsproblemen die zijn ontstaan na het centraliseren van de zorg voor ovariumcarcinoom in Nederland.
Met de huidige keuze voor RMI met een cut-off van 200 impliceert men dat in Nederland specificiteit boven sensitiviteit wordt geprefereerd. In dit kader lijkt een cut-off van 40% in plaats van de 10% (Van Calster, 2014) voor het IOTA ADNEX model een logische keuze aangezien de specificiteit vergelijkbaar is met RMI met een cut-off van 200. Daarentegen zullen bij een IOTA ADNEX (cut-off 40%) echter méér patiënten terecht een diagnose ovariumcarcinoom verkrijgen dan bij gebruik van RMI 200. Ook decision curve analysis onderstreept deze keuze zoals hier boven beschreven.
Dit wordt verder geïllustreerd aan de hand van tabellen 3.5 en 3.6 waarbij gebruik gemaakt is van data uit de IOTA fase 1, 1b, 2 en 3 studies. Hierin werden 2070 patiënten met een afwijkend ovarium voorafgaand aan een ingreep onderzocht in 8 niet-oncologische centra. Tabel 5 laat zien dat bij IOTA ADNEX (cut-off 40%) bij ongeveer gelijke specificiteit een hogere sensitiviteit heeft dan RMI (cut-off 200).
Tabel 5 Diagnostische accuratesse RMI (cut-off 200) en ADNEX (cut-off 40%) berekend op basis van data uit IOTA fase 1, 1b, 2 en 3 studie
Sensitiviteit en specificiteit voor RMI (cut-off 200) en het ADNEX model (cut-off 40%) voor alle patiënten (n=2070) |
||||||
Strategie |
Sensitiviteit |
95%CI |
|
Specificiteit |
95%CI |
|
RMI 200 |
59.2 |
50.9 |
67.1 |
94.8 |
91.5 |
96.8 |
ADNEX 40% |
70.8 |
60.1 |
79.6 |
96.4 |
93.9 |
97.9 |
Eveneens in de pas verschenen publicatie vanuit IOTA fase 5 werd gevonden dat het IOTA ADNEX model bij een cut off van 40% dezelfde specificiteit geniet als RMI met een cut-off van 200 (95%), doch een hogere sensitiviteit heeft (73% ten opzichte van 60%) (Van Calster, 2020).
In de klinische praktijk zal niet voor elke tumor van het ovarium een model noodzakelijk zijn om een diagnose te stellen. In veel gevallen is een dermoïdcyste, endometrioma, simpele cyste of een vergevorderd ovariumcarcinoom direct tijdens de echoscopie te herkennen zonder gebruik te maken van een model. Deze “instant diagnoses” zijn mogelijk door gebruik te maken van de zogenoemde “easy descriptors” van diezelfde IOTA groep. Afhankelijk van de studiepopulatie en dus case mix is soms 40% van alle tumoren direct classeerbaar.
De diagnostische testeigenschappen van RMI (cut-off 200) en het IOTA ADNEX model (cut-off 40%) wanneer deze “easy cases” buiten beschouwing worden gelaten worden in tabel 3.6 getoond. Ook hier is bij ongeveer gelijke specificiteit (+/-90%), de sensiviteit van IOTA ADNEX (cut-off 40%) hoger dan RMI (cut-off 200).
Tabel 6 Diagnostische accuratesse RMI (cut-off 200) en ADNEX (cut-off 40%) zonder “easy cases” berekend op basis van data uit IOTA fase 1, 1b, 2 en 3 studie
Sensitiviteit en specificiteit voor RMI (cut off 200) en het ADNEX model (cut off 40%) voor patiënten (n=1332) met een adnextumor niet classeerbaar met behulp van Easy Descriptors |
||||||
Stategie |
Sensitiviteit |
95%CI |
|
Specificiteit |
95%CI |
|
RMI 200 |
59.6 |
50.6 |
67.9 |
91.7 |
86.1 |
95.2 |
ADNEX 40% |
71.1 |
59.3 |
80.6 |
93.5 |
89.6 |
96.0 |
Uitdagingen met betrekking tot de haalbaarheid en implementatie van het IOTA ADNEX model in Nederland worden ook onderschreven in de meest recente versie van de NICE guidance: Tests in secondary care to identify people at high risk of ovarian cancer (2017).
Het IOTA ADNEX model wordt hierin ook neergezet als een zeer veel belovende diagnostische test, die op dit moment echter nog niet routinematig kan worden geïmplementeerd voor triage van patiënten met een hoog risico op ovariumcarcinoom naar een oncologisch centrum in het Verenigd Koninkrijk. Meer onderzoek lijkt nodig naar diagnostische accuratesse en de impact op klinische besluitvorming. Dit onderzoek vindt momenteel ook plaats in het Verenigd Koninkrijk: Refining Ovarian Cancer Test accuracy Scores (ROCkeTS): protocol for a prospective longitudinal test accuracy study to validate new risk scores in women with symptoms of suspected ovarian cancer. De gepubliceerde resultaten worden verwacht vanaf 2020.
Rationale/ balans tussen de argumenten voor en tegen de interventie
Op basis van de literatuuranalyse lijken de IOTA-modellen en subjectieve echoscopische beoordeling van adnextumoren door een expert veelbelovend en mogelijk van toegevoegde waarde te zijn, vergeleken met RMI (cut-off 200). De diagnostische accuratesse van deze modellen is voor een aantal modellen gelijk of veelal hoger dan het RMI model. Dit kan de huidige triage van adnextumoren in Nederland zeker bevorderen. De bewijskracht van de studies is echter laag, een bekend fenomeen binnen diagnostisch wetenschappelijk onderzoek, daarbij het ontbreekt aan gerandomiseerd onderzoek (RCT’s) binnen dit onderzoeksdomein.
Het IOTA ADNEX model ten opzichte van andere IOTA-modellen, zoals Simple Rules en LR2, geniet momenteel de voorkeur mede door:
- De toepasbaarheid op alle ovariumtumoren.
- Het gebruik van “low-cost” echovariabelen.
- Gebruiksgemak.
- Multiclass risicopredictie.
De belangrijke vereiste voor het gebruik van IOTA modellen in de dagelijkse praktijk is adequate kennis van het correct gebruik van de IOTA modellen en definities van echovariabelen die worden toegepast binnen deze modellen. Dit werd nogmaals onderstreept in Meys (2017) waaruit bleek dat onervaren gebruikers vaker foutief diagnosticeren dan ervaren gebruikers. Training en onderwijs in gynaecologische echoscopie van het afwijkend adnex is een belangrijke voorwaarde naast aanwezigheid van een breed draagvlak bij de zorgprofessionals voordat implementatie van IOTA modellen, bij voorkeur het IOTA ADNEX model (cut-off 40%), in de dagelijkse praktijk in Nederland kan worden doorgevoerd en triage op basis van RMI (cut-off 200) definitief kan worden verlaten.
Onderbouwing
Achtergrond
Het Risk of Malignancy Index (RMI) model wordt gebruikt om een onderscheid te maken tussen een goed -of kwaadaardige ovariumtumor voorafgaand aan chirurgie. Bij een cut-off waarde van 200 kan met een sensitiviteit van 70 tot 75% en een specificiteit van 85 tot 90% de diagnose ovariumcarcinoom (inclusief borderline tumoren) worden gesteld. Dit betekent dat bij gebruik van het RMI model potentieel 25% van alle ovariumcarcinomen kunnen worden gemist. Adequate triage is essentieel aangezien de zorg voor patiënten met ovariumcarcinoom in Nederland is gecentraliseerd in oncologische centra. Meer recent zijn er nieuwe echoscopische predictiemodellen vanuit het International Ovarian Tumor Analysis (IOTA) consortium (https://www.iotagroup.org/) ontwikkeld met het doel om deze triage te verbeteren. Dit betreffen een tweetal risicomodellen namelijk het IOTA LR2 model en het IOTA ADNEX model, dat naast een onderscheid tussen een benigne en maligne adnextumor, ook verder kan differentiëren tussen verschillende vormen van maligne tumoren (borderline tumor, stadium 1 invasief ovariumcarcinoom, stadium 2 tot 4 invasief ovariumcarcinoom of metastatische tumoren naar het ovarium van een andere primaire tumor). Daarnaast bestaan er de IOTA Simple Rules, een model dat op basis van morfologische echoscopische kenmerken van een tumor een onderscheid kan maken tussen goed- en kwaadaardig. Deze Simple Rules zijn toepasbaar in ongeveer 80% van alle ovariumtumoren. Voor de groep tumoren waarop de Simple Rules niet toepasbaar zijn is een tweestaps strategie noodzakelijk waarbij die tumoren bij voorkeur worden beoordeeld door een expert in gynaecologische echoscopie of waarbij veiligheidshalve deze geclassificeerd worden als kwaadaardig. In deze module zullen de diagnostische testkenmerken (negatief voorspellende waarde, positief voorspellende waarde, sensitiviteit, specificiteit, oppervlakte (AUC) onder de receiver-operator characteristic (ROC)-curve) van de deze nieuwe modellen (LR2, ADNEX, Simple Rules), in vergelijking met het RMI model, worden uitgewerkt.
Conclusies
Diagnostische accuratesse Simple Ultrasound Rules + expert beoordeling versus RMI
Laag GRADE |
Mogelijk is de gemiddelde negatief voorspellende waarde van de Simple Ultrasound Rules + expert beoordeling hoger (=94,0%) dan de negatief voorspellende waarde van het RMI model (cut-off: 200) (=81,2%).
(Meys, 2017a; Sayasneh, 2016; Testa, 2014)
Mogelijk is er geen verschil in de gemiddelde positief voorspellende waarde van de Simple Ultrasound Rules + expert beoordeling (=84,9%) en de positief voorspellende waarde van het RMI-model (cut-off: 200) (=80,7%).
(Meys, 2017a; Sayasneh, 2016; Testa, 2014)
Mogelijk is de sensitiviteit van het Simple Ultrasound Rules model + expert beoordeling hoger (sensitiviteit: 86% tot 92%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 67% tot 72%).
(Meys, 2017a; Sayasneh, 2016; Testa, 2014)
Mogelijk is er geen verschil in specificiteit tussen het Simple Ultrasound Rules model + expert beoordeling (specificiteit: 89% tot 94%) en het RMI model (cut-off: 200) (specificiteit: 79% tot 94%).
(Meys, 2017a; Sayasneh, 2016; Testa, 2014) |
Diagnostische accuratesse Simple Ultrasound Rules model + MAL versus RMI
Laag GRADE |
Mogelijk is de gemiddelde negatief voorspellende waarde van het Simple Ultrasound Rules model + MAL hoger (=95,6%) dan de negatief voorspellende waarde van het RMI model (cut-off: 200) (=81,6%).
(Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014)
Mogelijk is de gemiddelde positief voorspellende waarde van het Simple Ultrasound Rules model + MAL lager (=71,4%) dan de positief voorspellende waarde van het RMI model (cut-off: 200) (=80,9%).
(Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014) Mogelijk is de sensitiviteit van het Simple Ultrasound Rules model + MAL hoger (sensitiviteit: 90% tot 95%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60% tot 72%).
(Meys, 201a7; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020)
Mogelijk is er geen verschil is in specificiteit tussen het Simple Ultrasound Rules model + MAL (specificiteit: 68% tot 87%) en het RMI model (cut-off: 200) (specificiteit: 79% tot 95%).
(Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020)
Mogelijk is de diagnostisch prestatie van het Simple Ultrasound Rules model + MAL bepaald middels de oppervlakte onder de ROC-curve (AUC), slechter dan het RMI model (cut-off: 200).
(Mulder, 2020) |
Diagnostische accuratesse ADNEX model (verschillende cut-offs) versus RMI (cut-off: 200)
Laag GRADE |
Mogelijk is de gemiddelde negatief voorspellende waarde van het ADNEX-model (cut-off: 10%) hoger (=98,4%) dan de negatief voorspellende waarde van het RMI model (cut-off: 200) (=86,2%).
(Meys, 2017a; Sayasneh, 2016)
Mogelijk is er geen verschil in de gemiddelde positief voorspellende waarde tussen het ADNEX-model (cut-off: 10%) (=66,3%) en de positief voorspellende waarde van het RMI-model (cut-off: 200) (=71,1%).
(Meys, 2017a; Sayasneh, 2016)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 1%) hoger (sensitiviteit: 99 tot 100%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60 tot 72%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 3%) hoger (sensitiviteit: 95 tot 100%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 5%) hoger (sensitiviteit: 93 tot 99%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60 tot 72%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 10%) hoger (sensitiviteit: 91% tot 98%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60% tot 72%).
(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 15%) hoger (sensitiviteit: 87 tot 94%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 20%) hoger (sensitiviteit: 84 tot 91%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 25%) hoger (sensitiviteit: 80%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX model (cut-off: 30%) hoger (sensitiviteit: 77 tot 86%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60 tot 72%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de sensitiviteit van het ADNEX-model (cut-off: 40%) hoger (sensitiviteit: 73%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is er geen verschil in de sensitiviteit van het ADNEX-model (cut-off: 50%) (sensitiviteit: 67%)) en het RMI-model (cut-off: 200) (sensitiviteit: 72%).
(Van Calster, 2020)
Mogelijk is de specificiteit van het ADNEX-model (cut-off: 1%) lager (specificiteit: 12%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 94 tot 95%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de specificiteit van het ADNEX-model (cut-off: 3%) lager (specificiteit: 31 tot 60%) dan de specificiteit van het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is de specificiteit van het ADNEX-model (cut-off: 5%) lager (specificiteit: 53 tot 76%) dan de specificiteit van het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 10%) (specificiteit: 62% tot 85%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 79% tot 95%).
(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 15%) (specificiteit: 75 tot 89%) en het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 20%) (specificiteit: 79 tot 92%) en het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 25%) (specificiteit: 93%) en het RMI model (cut-off: 200) (specificiteit: 95%)
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 30%) (specificiteit: 84 tot 94%) en het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).
(Sayasneh, 2016; Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 40%) (specificiteit: 96%) en de specificiteit van het RMI model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het ADNEX-model (cut-off: 50%) (specificiteit: 97%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020) Mogelijk is de diagnostisch prestatie van het ADNEX-model, bepaald middels de oppervlakte onder de ROC-curve (AUC), beter dan het RMI-model (cut-off: 200).
(Meys, 2017; Van Calster, 2020) |
Diagnostische accuratesse LR2 model (cut-off: 10%) versus RMI (cut-off: 200)
Laag GRADE |
Mogelijk is er geen verschil in negatief voorspellende waarde tussen het LR2 model (cut-off: 10%) (=96,5%) en de negatief voorspellende waarde van het RMI-model (cut-off: 200) (=89,3%).
(Meys, 2017a; Sayasneh, 2016; Van Holsbeke, 2012)
Mogelijk is de positief voorspellende waarde van het LR2-model (cut-off: 10%) lager (=70,9%) dan de positief voorspellende waarde van het RMI model (cut-off: 200) (=82,4%).
(Meys, 2017a; Sayasneh, 2016; Van Holsbeke, 2012)
Mogelijk is de sensitiviteit van het LR2 model (cut-off: 1%) hoger (sensitiviteit: 99%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het LR2 model (cut-off: 3%) hoger (sensitiviteit: 95%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%)
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het LR2-model (cut-off: 5%) hoger (sensitiviteit: 91%) dan de sensitiviteit van het RMI model (cut-off: 200) (sensitiviteit: 60%)
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het LR2-model (cut-off: 10%) hoger (sensitiviteit: 86% tot 93%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60% tot 72%).
(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012)
Mogelijk is de sensitiviteit van het LR2-model (cut-off: 15%) hoger (sensitiviteit: 83%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het LR2-model (cut-off: 20%) hoger (sensitiviteit: 80%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het LR2-model (cut-off: 25%) hoger (sensitiviteit: 78%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is de sensitiviteit van het LR2-model (cut-off: 30%) hoger (sensitiviteit: 74%) dan de sensitiviteit van het RMI-model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020)
Mogelijk is er geen verschil in de sensitiviteit van het LR2-model (cut-off: 40%) (sensitiviteit: 68%) en het RMI-model (cut-off: 200) (sensitiviteit: 60-72%).
(Van Calster, 2020)
Mogelijk is er geen verschil in de sensitiviteit van het LR2-model (cut-off: 50%) (sensitiviteit: 63%) en het RMI-model (cut-off: 200) (sensitiviteit: 60%).
(Van Calster, 2020) Mogelijk is de specificiteit van het LR2-model (cut-off: 1%) lager (specificiteit: 13%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is de specificiteit van het LR2-model (cut-off: 3%) lager (specificiteit: 58%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is de specificiteit van het LR2-model (cut-off: 5%) lager (specificiteit: 73%) dan de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 10%) (specificiteit: 79% tot 90%) en de specificiteit van het RMI model (cut-off: 200) (specificiteit: 94 tot 95%).
(Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 15%) (specificiteit: 90%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 20%) (specificiteit: 92%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 25%) (specificiteit: 93%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 30%) (specificiteit: 93.8%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 40%) (specificiteit: 95%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is er geen verschil tussen de specificiteit van het LR2-model (cut-off: 50%) (specificiteit: 96%) en de specificiteit van het RMI-model (cut-off: 200) (specificiteit: 95%).
(Van Calster, 2020)
Mogelijk is de diagnostisch prestatie van het LR2-model (cut-off: 10%), bepaald middels de oppervlakte onder de ROC-curve, beter dan het RMI-model (cut-off: 200).
(Meys, 2017a) |
Diagnostische accuratesse expert beoordeling versus RMI (cut-off: 200)
Laag GRADE |
Mogelijk is de negatief voorspellende waarde van een expert beoordeling (=95%) hoger dan de negatief voorspellende waarde van het RMI-model (cut-off: 200) (=83%).
(Meys, 2017a)
Mogelijk is de positief voorspellende waarde van een expert beoordeling (=83%) hoger dan de positief voorspellende waarde van het RMI-model (cut-off: 200) (=65%).
(Meys, 2017a)
Mogelijk is de sensitiviteit van een expert beoordeling (=90%) hoger dan de sensitiviteit van het RMI-model (cut-off: 200) (=71%).
(Meys, 2017a)
Mogelijk is specificiteit van een expert beoordeling (=91%) hoger dan de specificiteit van het RMI-model (cut-off: 200) (=79%).
(Meys, 2017a)
Mogelijk is de diagnostisch prestatie van een expert beoordeling, bepaald middels de oppervlakte onder de ROC-curve, beter dan het RMI-model (cut-off: 200).
(Meys, 2017a) |
Samenvatting literatuur
1
1.1 Simple Ultrasound Rules
1.1a Simple Ultrasound Rules + expert beoordeling
In totaal zijn drie publicaties gevonden die het verschil in diagnostische accuratesse tussen het Simple Ultrasound Rules + expert beoordeling model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (Meys, 2017a; Sayasneh, 2016; Testa, 2014). In deze vergelijking werden inconclusieve tumoren beoordeeld door een expert. In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 2.984 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie van 39,2% (n=1.169) zien voor kwaadaardige ovariumcarcinomen. Alle studies rapporteerde terecht positieven, terecht negatieven, foutpositieven en foutnegatieven van waaruit de sensitiviteit en specificiteit bepaald kon worden. In de literatuuranalyse zijn alleen studies opgenomen die accuratesse maten van de Simple Ultrasound Rules + expert beoordeling vergeleken met het RMI model, afgezet tegen histopathologie.
1.1b Simple Ultrasound Rules + MAL
In totaal zijn vijf publicaties gevonden die het verschil in diagnostische accuratesse tussen het Simple Ultrasound Rules model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020). In deze vergelijking werden inconclusieve tumoren als maligne tumoren meegenomen (SR+MAL). In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 8015 vrouwen geanalyseerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie van 33,5% (n=2683) zien voor kwaadaardige ovariumcarcinomen. Alle studies, behalve de studie van Calster (2020), rapporteerden het aantal terecht positieven, terecht negatieven, foutpositieven en foutnegatieven. In de literatuuranalyse zijn alleen studies opgenomen die accuratesse maten van de Simple Ultrasound Rules + MAL vergeleken met het RMI model, afgezet tegen histopathologie.
1.2 ADNEX model
In totaal zijn drie publicaties gevonden die het verschil in diagnostische accuratesse tussen het ADNEX model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (en borderline carcinomen) (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020). In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden. Drie studies rapporteerden de sensitiviteit van het ADNEX model bij cut-off 10% (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020). Daarnaast rapporteerde Van Calster (2020) ook de diagnostische accuratesse van het ADNEX model bij afkapwaarden 1%, 3%, 5%, 15%, 20%, 25%, 30%, 40% en 50%. Van Calster (2020) rapporteerde de resultaten voor het ADNEX model mét en zonder CA125. Beide resultaten worden getoond, in de samenvatting gaan we uit van een model mét CA125. Bij de andere studies wordt gerapporteerd dat CA125 een van de parameters in het model was, maar het is onduidelijk dit een verplichte parameter was. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 5841 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie van 30,1% (n=1761) zien voor kwaadaardige ovariumcarcinomen. Alle studies, behalve Van Calster (2020), rapporteerden het aantal terecht positieven, terecht negatieven, foutpositieven en foutnegatieven. In de literatuuranalyse zijn alleen studies opgenomen die de accuratesse maten van het ADNEX model vergeleken met het RMI model, afgezet tegen histopathologie. De studie van Meys (2017) analyseerde het verschil in diagnostische accuratesse tussen het ADNEX-model en het RMI model door een pairwise analyse uit te voeren over de oppervlakte onder de receiver operating characteristics (ROC)-curve (AUC).
1.3 LR2-model (cut-off: 10%)
In totaal zijn vier publicaties gevonden die het verschil in diagnostische accuratesse tussen het LR2-model en het RMI model onderzochten voor het diagnosticeren van kwaadaardige ovariumcarcinomen (en borderline carcinomen) (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012). In de studies werd voor het RMI model een afkapwaarde van 200 aangehouden en voor het LR2-model een afkapwaarde van 10%. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 6483 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet een gemiddelde prevalentie zien van 29,4% (n=1908) voor kwaadaardige ovariumcarcinomen. Twee studies, behalve Meys (2017a) en Van Calster (2020),rapporteerden het aantal terecht positieven, terecht negatieven, foutpositieven en foutnegatieven. In de literatuuranalyse zijn alleen studies opgenomen die accuratesse maten van het ADNEX model vergeleken met het RMI model, afgezet tegen histologie. Alleen de studie van Meys (2017a) analyseerde het verschil in diagnostische accuratesse tussen het ADNEX-model en het RMI model door een pairwise analyse uit te voeren over de oppervlakte onder de receiver operating characteristics (ROC)-curve (AUC).
1.4 Expert beoordeling
In totaal is één publicatie gevonden die het verschil in diagnostische accuratesse tussen een expert beoordeling en het RMI model onderzocht voor het diagnosticeren van kwaadaardige ovariumcarcinomen (en borderline carcinomen) (Meys, 2017a). In de studie werd een subjectieve beoordeling gemaakt door een expert op het gebied van echoscopie en diagnostiek voor het beoordelen van een (kwaadaardig) ovariumcarcinoom, en voor het RMI model werd een afkapwaarde van 200 aangehouden. Histopathologie werd geselecteerd als referentiestandaard. In totaal werden 326 vrouwen geïncludeerd met een echoscopisch vergroot adnex. Histopathologie liet zien een gemiddelde prevalentie zien van 35,3% (n=115) voor kwaadaardige ovariumcarcinomen. De studie rapporteerde de positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en voor de diagnostische prestaties werd een pairwise analyse uitgevoerd over de oppervlakte onder de receiver operating characteristics (ROC)-curve.
Resultaten
2.1
2.1a Simple Ultrasound Rules + expert beoordeling
2.1a.1 Negatief voorspellende waarde
In totaal hadden 1.729 vrouwen volgens de Simple Ultrasound Rules + expert beoordeling een negatieve uitslag (=57,9%). De negatief voorspellende waarde van het Simple Ultrasound Rules model + expert beoordeling was 94,0%; n=1.626 terecht negatieven. In totaal hadden 2.003 vrouwen volgens het RMI model (cut-off 200) een negatieve uitslag (=67,3%). De negatief voorspellende waarde van het RMI model was 81,2%; n=1.626 terecht negatieven (zie Figuur 1). Niet getoetst op statistische significantie.
2.1a.2 Positief voorspellende waarde
In totaal hadden 1.255 vrouwen volgens de Simple Ultrasound Rules + expert beoordeling een positieve uitslag (=42,1%). De positief voorspellende waarde van de Simple Ultrasound Rules + expert beoordeling was 84,9%; n=1.066 terecht positieven. In totaal hadden 981 vrouwen volgens het RMI model (cut-off 200) een positieve uitslag (=32,9%). De positief voorspellende waarde van het RMI model was 80,7%; n=792 terecht positieven (zie Figuur 1). Niet getoetst op statistische significantie.
2.1a.3 Sensitiviteit
De sensitiviteit van de Simple Ultrasound Rules + expert beoordeling varieerde van 86% tot 92%. De sensitiviteit van het RMI model (cut-off 200) varieerde van 67% tot 72% (zie Figuur 1). Niet getoetst op statistische significantie.
2.1a.4 Specificiteit
De specificiteit van de Simple Ultrasound Rules + expert beoordeling varieerde van 89% tot 94%. De specificiteit van het RMI model (cut-off: 200) varieerde van 79% tot 94% (zie Figuur 1). Niet getoetst op statistische significantie.
Figuur 1 Diagnostische accuratesse van de Simple Ultrasound Rules + expert beoordeling en het RMI model (cut-off: 200)
Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven
Bewijskracht van de literatuur
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het Simple Ultrasound Rules + Expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.
2.1b Simple Ultrasound Rules SR+MAL
2.1b.1 Negatief voorspellende waarde
In totaal hadden 1502 vrouwen volgens de Simple Ultrasound Rules SR+MAL een negatieve uitslag (=47,7%). De negatief voorspellende waarde van het Simple Ultrasound Rules SR+MAL model was 95,6%; n=1436 terecht negatieven (zie Figuur 2.1). In totaal hadden 2124 vrouwen volgens het RMI model (cut-off: 200) een negatieve uitslag (=68,1%). De negatief voorspellende waarde van het RMI model was 81,6%; n=1733 terecht negatieven (zie Figuur 2.2). Niet getoetst op statistische significantie.
2.1b.2 Positief voorspellende waarde
In totaal hadden 1650 vrouwen volgens de Simple Ultrasound Rules SR+MAL een positieve uitslag (=52,3%). De positief voorspellende waarde van de Simple Ultrasound Rules was 71,4%; n=1.172 terecht positieven (zie Figuur 2.1). In totaal hadden 1023 vrouwen volgens het RMI model (cut-off: 200) een positieve uitslag (=31,9%). De positief voorspellende waarde van het RMI model was 80,9%; n=828 terecht positieven (zie Figuur 2.2). Niet getoetst op statistische significantie.
2.1b.3 Sensitiviteit
De sensitiviteit van de Simple Ultrasound Rules SR+MAL varieerde van 90% tot 95% (Figuur 2.1). De sensitiviteit van het RMI model (cut-off: 200) varieerde van 60% tot 72% (zie Figuur 2.2.). Niet getoetst op statistische significantie.
2.1b.4 Specificiteit
De specificiteit van de Simple Ultrasound Rules varieerde van 68% tot 87% (Figuur 2.1). De specificiteit van het RMI model (cut-off: 200) varieerde van 79% tot 95% (zie Figuur 2.2). Niet getoetst op statistische significantie.
Figuur 2.1 Diagnostische accuratesse van de Simple Ultrasound Rules + MAL
Figuur 2.2 Diagnostische accuratesse van het RMI model (cut-off: 200)
Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven; MAL, inclonclusieve tumoren worden meegenomen als maligne tumoren. De studie van Calster 2020 rapporteerde geen aantallen TP, TN, FP, FN. Alleen de gepoolde sensitiviteit en specificiteit zoals gerapporteerd zijn toegevoegd aan de figuur ter informatie.
2.1b.5 AUC
Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve (AUC), tussen het SR+MAL model en het RMI model (cut-off 200) is onderzocht in Mulder (2020).
De AUC van het RMI model (cut-off 200) (0,896 (95%CI 0,842 tot 0,950)) was significant hoger dan dat van het SR+MAL model (0,793 (95%CI 0,722 tot 0,865)) in de studie van Mulder (2020) onder n=168 vrouwen met een ovariumtumor (P<0,01).
Bewijskracht van de literatuur
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het Simple Ultrasound Rules model (SR+MAL) voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit onderzoekspopulaties en beperkingen beoordeling referentietest). De bewijskracht is ‘Laag’.
2.2 ADNEX model
2.2.1 Negatief voorspellende waarde
In totaal hadden 428 vrouwen volgens het ADNEX model (cut-off: 10%) een negatieve uitslag (=45,7%). De negatief voorspellende waarde van het ADNEX model was 98,4%; n=421 terecht negatieven. In totaal hadden 391 vrouwen volgens het RMI model (cut-off: 200) een negatieve uitslag (=67,3%). De negatief voorspellende waarde van het RMI model was 86,2%; n=337 terecht negatieven (zie Figuur 3). Niet getoetst op statistische significantie.
Er werden geen studies geïncludeerd waarin de negatief voorspellende waarde van het ADNEX model bij een andere afkapwaarde dan 10% werden bestudeerd.
2.2.2 Positief voorspellende waarde
In totaal hadden 1.862 vrouwen volgens het ADNEX model (cut-off: 10%) een positieve uitslag (=55,7%). De positief voorspellende waarde van het ADNEX model (cut-off: 200) was 66,4%; n=1.236 terecht positieven. In totaal hadden 1.505 vrouwen volgens het RMI model een positieve uitslag (=50,9%). De positief voorspellende waarde van het RMI model was 71,1%; n=1.081 terecht positieven (zie Figuur 3). Niet getoetst op statistische significantie.
Er werden geen studies geïncludeerd waarin de positief voorspellende waarde van het ADNEX model bij een andere afkapwaarde dan 10% werden bestudeerd.
2.2.3 Sensitiviteit
Drie studies rapporteerden de sensitiviteit van het ADNEX model vergeleken met het RMI model (cut-off: 200). Meys (2017) vergeleek ADNEX met CA 125 (cut-off: 10%) met RMI (cut-off: 200). Sayasneh (2016) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20 en 30%) met RMI (cut-off: 200). Van Calster (2020) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 1 toont de gerapporteerde sensitiviteit van het ADNEX model vergeleken met het RMI model (cut-off: 200) uit deze studies, waarbij Tabel 1a ADNEX mét CA 125 betreft en Tabel 1b ADNEX zonder CA 125.
De sensitiviteit van het RMI model (cut-off: 200) varieerde van 60% tot 72%. De gerapporteerde sensitiviteit van het ADNEX model was voor alle afkapwaarden t/m 40% hoger dan de sensitiviteit van het RMI model (cut-off: 200). De sensitiviteit van het ADNEX model met cut-off 50% was mogelijk gelijk aan RMI (cut-off: 200). Niet getoetst op statistische significantie.
2.2.4 Specificiteit
Drie studies rapporteerden de specificiteit van het ADNEX model vergeleken met het RMI model (cut-off: 200). Meys (2017) vergeleek ADNEX met CA 125 (cut-off: 10%) met RMI (cut-off: 200). Sayasneh (2016) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20 en 30%) met RMI (cut-off: 200). Van Calster (2020) vergeleek ADNEX met en zonder CA 125 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 1 toont de gerapporteerde specificiteit van het ADNEX model vergeleken met het RMI model (cut-off: 200) uit deze studies, waarbij Tabel 1a: ADNEX mét CA 125 betreft en Tabel 1b ADNEX zonder CA 125.
De specificiteit van het RMI model (cut-off: 200) varieerde van 79% tot 95%. De gerapporteerde specificiteit van het ADNEX model was voor de afkapwaarden 1%, 3% en 5% lager dan RMI (cut-off: 200). De gerapporteerde specificiteit van het ADNEX model was voor de afkapwaarden 10%, 15%, 20%, 25%, 30%, 40% en 50% mogelijk gelijk aan de specificiteit van het RMI model (cut-off: 200). Niet getoetst op statistische significantie.
2.1.5 AUC
Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve (AUC), tussen het ADNEX model en het RMI model is onderzocht in twee studies (Meys, 2017a; Van Calster, 2020).
Meys (2017) liet op basis van logistische regressie zien dat het gemiddelde verschil in oppervlakte onder de ROC-curve statistisch significant verschilde tussen het ADNEX model en het RMI model, ß= 0,075; 95%BI= (0,40 tot 0,109); p<0,0001, statistisch significant in het voordeel van het ADNEX model.
Van Calster (2020) analyseerde de AUC van de modellen op basis van het 95% betrouwbaarheidsinterval van het overall verschil in AUC tussen de verschillende modellen (LR2, ADNEX met CA125, ADNEX zonder CA125) en RMI. Een positieve waarde indiceert hier een voorkeur voor het IOTA model vergeleken met RMI. Tabel 2 laat de resultaten zien, alle IOTA modellen lieten een hogere AUC zien dan RMI.
Figuur 3 Diagnostische accuratesse van het ADNEX model en het RMI model
Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven
Tabel 1a. Diagnostische accuratesse ADNEX model met CA 125 (verschillende afkapwaarden) vs. RMI 200
Risk threshold |
Model |
Sensitivity (95% CI) |
Specificity (95% CI) |
|
RMI |
|
|
200 |
Van Calster, 2020 |
60.4% (53.7–66.8) |
95.3% (92.8–96.9) |
|
Meys, 2017a |
71% (62-79) |
79% (72-84) |
|
Sayasneh, 2016 |
72% (60–81) |
94% (90–97) |
|
|
|
|
|
IOTA ADNEX with CA125 |
|
|
1% |
Van Calster, 2020 |
99.1% (97.8–99.6) |
12.0% (7.2–19.2) |
|
Sayasneh, 2016 |
100.0% (97.4–100.0) |
11.9% (9.1–15.5) |
3% |
Van Calster, 2020 |
94.7% (90.1–97.2) |
59.7% (50.2–68.5) |
|
Sayasneh, 2016 |
100.0% (97.4–100.0) |
30.6% (26.3–35.3) |
5% |
Van Calster, 2020 |
93.3% (88.2–96.3) |
76.4% (70.7–81.3) |
|
Sayasneh, 2016 |
99.0% (94.9–99.8) |
53.2% (48.2–58.1) |
10% |
Van Calster, 2020 |
91.2% (84.8–95.1) |
85.3% (80.9–88.8) |
|
Meys, 2017a |
98% (93-100) |
62% (55-68) |
|
Sayasneh, 2016 |
97.3% (93.5–98.9) |
67.7% (63.0–72.0) |
15% |
Van Calster, 2020 |
87.3% (79.9–92.3) |
89.0% (85.1–92.0) |
|
Sayasneh, 2016 |
94.4% (90.0–97.0) |
75.2% (70.7–79.2) |
20% |
Van Calster, 2020 |
83.5% (74.4–89.8) |
91.5% (88.1–93.9) |
|
Sayasneh, 2016 |
90.6% (85.2–94.1) |
79.3% (75.1–83.0) |
25% |
Van Calster, 2020 |
80.2% (71.6–86.7) |
93.1% (90.1–95.3) |
|
|
|
|
30% |
Van Calster 2020 |
77.3% (67.9–84.5) |
94.4% (91.6–96.4) |
|
Sayasneh, 2016 |
86.3% (80.4–90.6) |
83.9% (80.1–87.2) |
40% |
Van Calster 2020 |
73.0% (63.4–80.8) |
95.8% (93.4–97.3) |
|
|
|
|
50% |
Van Calster 2020 |
66.7% (57.0–75.1) |
97.1% (95.5–98.1) |
|
|
|
|
CI, confidence interval; LR2, logistic regression model 2; ADNEX, Assessment of Different NEoplasias in the adneXa.
Tabel 1b. Diagnostische accuratesse ADNEX model zonder CA 125 (verschillende afkapwaarden) vs. RMI 200
Risk threshold |
Model |
Sensitivity (95% CI) |
Specificity (95% CI) |
|
RMI |
|
|
200 |
Van Calster, 2020 |
60.4% (53.7–66.8) |
95.3% (92.8–96.9) |
|
Sayasneh, 2016 |
72% (60–81) |
94% (90–97) |
|
|
|
|
|
IOTA ADNEX without CA125 |
|
|
1% |
Van Calster, 2020 |
98.8% (97.4–99.4) |
11.4% (6.9–18.3) |
|
Sayasneh, 2016 |
100.0% (97.4–100.0) |
12.4% (9.5–16.0) |
3% |
Van Calster, 2020 |
96.3% (93.2–98.0) |
55.8% (45.5–65.7) |
|
Sayasneh, 2016 |
100.0% (97.4–100.0) |
28.0% (23.9–32.6) |
5% |
Van Calster, 2020 |
93.7% (88.5–96.7) |
74.6% (68.5–80.0) |
|
Sayasneh, 2016 |
98.9% (95.7–99.7) |
54.7% (49.9–59.3) |
10% |
Van Calster, 2020 |
91.1% (84.5–95.1) |
84.5% (80.1–88.0) |
|
Sayasneh, 2016 |
96.7% (92.9–98.5) |
67.1% (62.5–71.3) |
15% |
Van Calster, 2020 |
87.7% (80.2–92.7) |
88.4% (84.3–91.5) |
|
Sayasneh, 2016 |
94.5% (90.1–97.0) |
72.7% (68.2–76.7) |
20% |
Van Calster, 2020 |
83.4% (75.0–89.3) |
90.3% (86.9–92.9) |
|
Sayasneh, 2016 |
90.7% (85.5–94.1) |
77.6% (73.4–81.3) |
25% |
Van Calster, 2020 |
79.8% (70.2–86.9) |
92.0% (88.9–94.4) |
|
|
|
|
30% |
Van Calster 2020 |
77.9% (68.4–85.2) |
93.2% (90.2–95.3) |
|
Sayasneh, 2016 |
84.6% (78.6–89.2) |
83.4% (80.0–86.6) |
40% |
Van Calster 2020 |
72.8% (63.0–80.8) |
95.0% (92.4–96.8) |
|
|
|
|
50% |
Van Calster 2020 |
66.8% (55.8–76.2) |
96.3% (94.1–97.6) |
|
|
|
|
CI, confidence interval; LR2, logistic regression model 2; ADNEX, Assessment of Different NEoplasias in the adneXa.
Tabel 2. AUC IOTA modellen vs. RMI 200 in studie van Calster 2020 .
Model |
AUC (95%CI) |
Verschil met RMI |
RMI |
0.89 (95%CI 0.85 to 0.92)
|
n.v.t. |
LR2 |
0.92 (95%CI 0.89 to 0.94)
|
0.011 to 0.042 |
ADNEX zonder CA125 |
0.94 (95%CI 0.91 to 0.95)
|
0.028 to 0.060 |
ADNEX met CA125 |
0.94 (95%CI 0.92 to 0.96) |
0.037 to 0.067 |
Bewijskracht van de literatuur
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van de het ADNEX-model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.
2.3 LR2 model
2.3.1 Negatief voorspellende waarde
In totaal hadden 829 vrouwen volgens het LR2 model (cut-off: 10%) een negatieve uitslag (=66,2%). De negatief voorspellende waarde van het LR2 model was 96,5%; n=800 terecht negatieven. In totaal hadden 980 vrouwen volgens het RMI model een negatieve uitslag (=78,3%). De negatief voorspellende waarde van het RMI model was 89,3%; n=875 terecht negatieven (zie Figuur 4). Niet getoetst op statistische significantie.
Meys (2017a) rapporteerde geen exacte aantallen terecht en vals positieven/negatieven voor het LR2 model en kon daardoor niet worden opgenomen in de berekening in Figuur 4. De negatief voorspellende waarde van het LR2 model (cut-off: 10%) in de studie van Meys (2017a) was 95% (95%CI 91-98%) en 83% (95%CI 77-88) van het RMI (cut-off: 200).
Er werden geen studies geïncludeerd waarin de negatief voorspellende waarde van het LR2 model bij een andere afkapwaarde dan 10% werd bestudeerd.
2.3.2 Positief voorspellende waarde
In totaal hadden 423 vrouwen volgens het LR2 model (cut-off: 10%) een positieve uitslag (=33,7%). De positief voorspellende waarde van het LR2 model was 70,9%; n=300 terecht positieven. In totaal hadden 272 vrouwen volgens het RMI model een positieve uitslag (=21,7%). De positief voorspellende waarde van het RMI model was 82,4%; n=224 terecht positieven (zie Figuur 4). Niet getoetst op statistische significantie.
Meys (2017a) rapporteerde geen exacte aantallen terecht en vals positieven/negatieven voor het LR2 model en kon daardoor niet worden opgenomen in de berekening in Figuur 4. De positief voorspellende waarde van het LR2 model (cut-off: 10%) in de studie van Meys (2017a) was 71% (95%CI 63-78%) en 65% (95%CI 56-73) van het RMI (cut-off: 200).
Er werden geen studies geïncludeerd waarin de positief voorspellende waarde van het LR2 model bij een andere afkapwaarde dan 10% werd bestudeerd.
2.3.3 Sensitiviteit
Vier studies rapporteerden de sensitiviteit van het LR2 model. Meys (2017), Sayasneh (2016) en Van Holskbeke (2012) vergeleken LR2 (cut-off: 10%) met RMI (cut-off: 200). Van Calster (2020) vergeleek LR2 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 3 toont de gerapporteerde sensitiviteit van het LR2 model vergeleken met het RMI model (cut-off: 200) uit deze studies.
De sensitiviteit van het RMI model (cut-off: 200) varieerde van 60% tot 72%. De gerapporteerde sensitiviteit van het LR2 model was voor alle afkapwaarden t/m 30% hoger dan de sensitiviteit van het RMI model (cut-off: 200). De sensitiviteit van het ADNEX model met cut-offs 40% en 50% was mogelijk gelijk aan RMI (cut-off: 200). Niet getoetst op statistische significantie.
2.3.4 Specificiteit
Vier studies rapporteerden de specificiteit van het LR2 model. Meys (2017), Sayasneh (2016) en Van Holskbeke (2012) vergeleken LR2 (cut-off: 10%) met RMI (cut-off: 200). Van Calster (2020) vergeleek LR2 (cut-offs: 1, 3, 5, 10, 15, 20, 25, 30, 40, 50%) met RMI (cut-off 200). Tabel 3 toont de gerapporteerde specificiteit van het LR2 model vergeleken met het RMI model (cut-off: 200) uit deze studies.
De specificiteit van het RMI model (cut-off) varieerde van 94-95%. De gerapporteerde specificiteit van het LR2 model was voor alle afkapwaarden t/m 5% lager dan de specificiteit van het RMI model (cut-off: 200). De specificiteit van het LR2 model met cut-offs 10, 15, 20, 25, 30, 40 en 50% was mogelijk gelijk aan het RMI model (cut-off: 200). Niet getoetst op statistische significantie.
Figuur 4 Diagnostische accuratesse van het LR2 model en het RMI model
Beide modellen zijn onderzocht in dezelfde onderzoekspopulatie en niet getoetst op statistische significantie. Afkortingen: TP, terecht positieven; TN, terecht negatieven, FN, Fout negatieven; FP, fout positieven
Tabel 3. Diagnostische accuratesse LR2 (verschillende afkapwaarden) vs. RMI 200
Risk threshold |
Model |
Sensitivity (95% CI) |
Specificity (95% CI) |
|
RMI |
|
|
200 |
Van Calster, 2020 |
60.4% (53.7–66.8) |
95.3% (92.8–96.9) |
|
Van Holsbeke, 2012 |
67% (61-73) |
95% (93-96) |
|
Meys, 2017a |
71% (62-79) |
79% (72-84) |
|
Sayasneh, 2016 |
72% (60-81) |
94% (90-97) |
|
|
|
|
|
LR2 model |
|
|
1% |
Van Calster, 2020 |
98.6% (97.4–99.2) |
13.3% (10.2–17.2) |
3% |
Van Calster, 2020 |
94.7% (92.9–96.1) |
58.4% (53.5–63.1) |
5% |
Van Calster, 2020 |
90.8% (87.8–93.2) |
73.3% (68.4–77.6) |
10% |
Van Calster, 2020 |
85.6% (80.1–89.7) |
87.2% (84.0–89.8) |
|
Van Holsbeke, 2012 |
92% (88-95) |
86% (83-88) |
|
Meys, 2017a |
93% (86-97) |
79% (73-84) |
|
Sayasneh, 2016 |
88% (78-94) |
90% (84-94) |
15% |
Van Calster, 2020 |
82.5% (76.5–87.2) |
90.2% (87.7–92.3) |
20% |
Van Calster, 2020 |
80.1% (74.2–84.9) |
92.1% (89.9–93.9) |
25% |
Van Calster, 2020 |
77.5% (71.7–82.4) |
93.0% (91.0–94.6) |
30% |
Van Calster, 2020 |
73.6% (67.7–78.8) |
93.8% (92.1–95.2) |
40% |
Van Calster, 2020 |
68.1% (61.9–73.8) |
95.4% (93.8–96.5) |
50% |
Van Calster, 2020 |
62.7% (57.2–67.9) |
96.2% (94.8–97.2) |
CI, confidence interval; LR2, logistic regression model 2; ADNEX, Assessment of Different NEoplasias in the adneXa.
2.3.5 AUC
Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve, tussen het LR2 model en het RMI model is onderzocht in één studie (Meys, 2017a). Logistische regressie liet zien dat het gemiddelde verschil in oppervlakte onder de ROC-curve statistische significant verschilde tussen het LR2 model en het RMI model, ß= 0,069; 95%BI= (0,0029 tot 0,110); p=0,0009, statistisch significant in het voordeel van het LR2 model.
Bewijskracht van de literatuur
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van het LR2 model voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.
2.4 Expert beoordeling
2.4.1 Negatief voorspellende waarde
De negatief voorspellende waarde van een expert beoordeling was 95%. De negatief voorspellende waarde van het RMI model (cut-off: 200) was 83%. Niet getoetst op statistische significantie.
2.4.2 Positief voorspellende waarde
De positief voorspellende waarde van een expert beoordeling was 83%. De positief voorspellende waarde van het RMI model (cut-off: 200) was 65%. Niet getoetst op statistische significantie.
2.4.3 Sensitiviteit
De sensitiviteit van een expert beoordeling was 90%. De sensitiviteit van het RMI model (cut-off: 200) was 71%. Niet getoetst op statistische significantie.
2.4.4 Specificiteit
De specificiteit van een expert beoordeling was 91%. De specificiteit van het RMI model (cut-off: 200) was 79%. Niet getoetst op statistische significantie.
2.4.5 AUC
Het verschil in diagnostische accuratesse, bepaald aan de hand van de oppervlakte onder de ROC-curve, tussen een expert beoordeling en het RMI model (cut-off: 200) is onderzocht in één studie (Meys, 2017a). Logistische regressie liet zien dat het gemiddelde verschil in oppervlakte onder de ROC-curve statistisch significant verschilde tussen een expert beoordeling en het RMI model, ß= 0,102; 95%BI= (0,062 tot 0,141); p<0,0001, statistisch significant in het voordeel van de expert beoordeling.
Bewijskracht van de literatuur
De bewijskracht voor de uitkomstmaten positief voorspellende waarde, negatief voorspellende waarde, sensitiviteit, specificiteit en AUC voor de diagnostische accuratesse van expert beoordeling voor het differentiëren van goed- of kwaadaardige ovariumcarcinomen start op ‘hoog’ en is met twee niveaus verlaagd vanwege het ernstige risico op bias (heterogeniteit, kleine onderzoekspopulaties en beperkingen referentietest). De bewijskracht is ‘Laag’.
Zoeken en selecteren
Om de uitgangsvraag te kunnen beantwoorden is een systematische literatuuranalyse verricht naar de volgende zoekvraag:
Wat is de diagnostische accuratesse van het Simple Ultrasound Rules model, LR2 model, ADNEX model of expert echoscopie vergeleken met het RMI model voor de differentiatie tussen benigne en maligne adnex pathologie?
P: vrouwen met echoscopisch vergroot adnex (> 3cm);
I: simple rules model + maligne classificatie van de inconclusieve tumoren (SR+MAL), Simple rules model + expert beoordeling, LR2 model, ADNEX model, expert echoscopie;
C: risk of Malignancy Index (RMI);
R: histopathologische uitslag;
O: negatief voorspellende waarde, positief voorspellende waarde, sensitiviteit, specificiteit, oppervlakte onder de receiver-operator characteristic (ROC)-curve.
Relevante uitkomstmaten
De werkgroep achtte de sensitiviteit en specificiteit voor de besluitvorming cruciale uitkomstmaten en de positief voorspellende waarde, negatief voorspellende waarde en oppervlakte onder de receiver-operator characteristic (ROC)-curve voor de besluitvorming belangrijke uitkomstmaten.
De werkgroep definieerde niet a priori de genoemde uitkomstmaten, maar hanteerde de in de studies gebruikte definities.
Een klinisch relevant verschil van de diagnostische accuratesse tussen de verschillende modellen werd gedefinieerd als wanneer de gerapporteerde ranges elkaar niet overlappen of bij ≥ 10% verschil in de diagnostische accuratesse tussen de modellen.
Zoeken en selecteren (Methode)
In de databases Medline (via OVID), Embase (via Embase.com) en de Cochrane Library (via Wiley) is op 3 augustus 2020 met relevante zoektermen gezocht vanaf het jaar 1990 naar studies die de diagnostische waarde van het Simple Ultrasound Rules model (met/zonder SA (subjective assessment), ADNEX model en het LR2 model beschrijven bij vrouwen met een echoscopisch vergroot adnex. De zoekverantwoording is weergegeven onder het tabblad ‘Verantwoording’. De literatuurzoekactie leverde 126 treffers op. Studies werden geselecteerd op grond van de volgende selectiecriteria: vrouwen met een vergroot adnex gedefinieerd als > 3 cm; bepaling van de diagnostische accuratesse van één van de volgende modellen: Simple Ultrasound Rules (met/zonder SA (subjective assessment)), ADNEX model en het LR2 model; in vergelijking met het RMI model en afgezet tegen histopathologie. Op basis van titel en abstract werden in eerste instantie 60 studies geselecteerd. Na raadpleging van de volledige tekst, werden vervolgens 56 studies geëxcludeerd (zie exclusietabel onder het tabblad verantwoording) en vier studies definitief geselecteerd. Twee systematische reviews (Westwood, 2018; Meys, 2016) en twee individuele studies (Mulder, 2020; Van Calster, 2020). Studies die geïncludeerd waren in de systematische reviews en voldeden aan bovenstaande inclusiecriteria werden uitgewerkt in de systematische literatuuranalyse. Alleen studies waarin een diagnostisch model werd vergeleken met het RMI model, afgezet tegen histopathologie, in eenzelfde onderzoekspopulatie kwamen in aanmerking voor inclusie. Wanneer meerdere publicaties dezelfde onderzoekspopulatie beschrijven, werden de data uit de meest recente publicatie gebruikt voor de datasynthese. In totaal werden zes individuele studies opgenomen in de literatuuranalyse (Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020; Van Holsbeke, 2012). De diagnostisch accuratesse van de Simple Ultrasound Rules werd onderzocht in vijf publicaties (Meys, 2017a; Mulder, 2020; Sayasneh, 2016; Testa, 2014; Van Calster, 2020), het ADNEX model in drie publicaties (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020) en het LR2 model in vier publicaties (Meys, 2017a; Sayasneh, 2016; Van Calster, 2020; Van Holsbeke, 2012).
Referenties
- Balachandran VP, Gonen M, Smith JJ, DeMatteo RP. Nomograms in oncology: more than meets the eye. Lancet Oncol 2015;16:e173–e80.
- Froyman W, Landolfo C, De Cock B, Wynants L, Sladkevicius P, Testa AC, Van Holsbeke C, Domali E, Fruscio R, Epstein E, Dos Santos Bernardo MJ, Franchi D, Kudla MJ, Chiappa V, Alcazar JL, Leone FPG, Buonomo F, Hochberg L, Coccia ME, Guerriero S, Deo N, Jokubkiene L, Kaijser J, Coosemans A, Vergote I, Verbakel JY, Bourne T, Van Calster B, Valentin L, Timmerman D. Risk of complications in patients with conservatively managed ovarian tumours (IOTA5): a 2-year interim analysis of a multicentre, prospective, cohort study. Lancet Oncol. 2019 Mar;20(3):448-458.
- Kerr KF, Brown MD, Zhu K, Janes H. . Assessing the clinical impact of risk prediction models with decision curves: guidance for correct interpretation and appropriate use. J Clin Oncol 2016;34:2534–40.
- Localio AR, Goodman S. Beyond the usual prediction accuracy metrics: reporting results for clinical decision making. Ann Intern Med 2012;157:294–5.
- Meys EM, Kaijser J, Kruitwagen RF, Slangen BF, Van Calster B, Aertgeerts B, et al. Subjective assessment versus ultrasound models to diagnose ovarian cancer: A systematic review and meta-analysis. Eur J Cancer. 2016;58:17-29.
- Meys EM, Jeelof LS, Achten NM, Slangen BF, Lambrechts S, Kruitwagen RF, Van Gorp T. Estimating the risk of malignancy in adnexal masses: external validation of the ADNEX model and comparison with other frequently used ultrasound methods. Ultrasound Obstet Gynecol 2017a;49:784-792.
- Meys E, Rutten I, Kruitwagen R, Slangen B, Lambrechts S, Mertens H, Nolting E, Boskamp D, Van Gorp T. Simple Rules, Not So Simple: The Use of International Ovarian Tumor Analysis (IOTA) Terminology and Simple Rules in Inexperienced Hands in a Prospective Multicenter Cohort Study. Ultraschall Med. 2017b Dec;38(6):633-641.
- Meys EMJ, Jeelof LS, Ramaekers BLT, Dirksen CD, Kooreman LFS, Slangen BFM, Kruitwagen RFPM, Van Gorp T. Economic evaluation of an expert examiner and different ultrasound models in the diagnosis of ovarian cancer. Eur J Cancer. 2018 Sep;100:55-64.
- Mulder EE, Gelderblom ME, Schoot D, Vergeldt TF, Nijssen DL, Piek JM. External validation of Risk of Malignancy Index compared to IOTA Simple Rules. Acta Radiol. 2020 Jun 20:284185120933990.
- Nunes N, Ambler G, Foo X, Naftalin J, Derdelis G, Widschwendter M, Jurkovic D. Comparison of two protocols for the management of asymptomatic postmenopausal women with adnexal tumours - a randomised controlled trial of RMI/RCOG versus Simple Rules. Br J Cancer. 2017 Feb 28;116(5):584-591.
- Sayasneh A, Ferrara L, De Cock B, Saso S, Al-Memar M, Johnson S, Kaijser J, Carvalho J, Husicka R, Smith A, Stalder C, Blanco MC, Ettore G, Van Calster B, Timmerman D, Bourne T. Evaluating the risk of ovarian cancer before surgery using the ADNEX model: a multicentre external validation study. Br J Cancer. 2016 Aug 23;115(5):542-8.
- Saville BR, Lewis RJ. Decision curve analysis. JAMA 2015;313:409–10
- Testa A, Kaijser J, Wynants L, Fischerova D, Van Holsbeke C, Franchi D, Savelli L, Epstein E, Czekierdowski A, Guerriero S, Fruscio R, Leone FP, Vergote I, Bourne T, Valentin L, Van Calster B, Timmerman D. Strategies to diagnose ovarian cancer: new evidence from phase 3 of the multicentre international IOTA study. Br J Cancer. 2014 Aug 12;111(4):680-8.
- Van Calster B, Valentin L, Froyman W, Landolfo C, Ceusters J, Testa AC, Wynants L, Sladkevicius P, Van Holsbeke C, Domali E, Fruscio R, Epstein E, Franchi D, Kudla MJ, Chiappa V, Alcazar JL, Leone FPG, Buonomo F, Coccia ME, Guerriero S, Deo N, Jokubkiene L, Savelli L, Fischerová D, Czekierdowski A, Kaijser J, Coosemans A, Scambia G, Vergote I, Bourne T, Timmerman D. Validation of models to diagnose ovarian cancer in patients managed surgically or conservatively: multicentre cohort study. BMJ. 2020 Jul 30;370:m2614.
- Van Holsbeke C, Van Calster B, Bourne T, Ajossa S, Testa AC, Guerriero S, Fruscio R, Lissoni AA, Czekierdowski A, Savelli L, Van Huffel S, Valentin L, Timmerman D. External validation of diagnostic models to estimate the risk of malignancy in adnexal masses. Clin Cancer Res. 2012 Feb 1;18(3):815-25.
- Westwood M, Ramaekers B, Lang S, Grimm S, Deshpande S, de Kock S, et al. Risk scores to guide referral decisions for people with suspected ovarian cancer in secondary care: a systematic review and cost-effectiveness analysis. Health Technol Assess. 2018;22(44):1-264.
- Wynants L, Timmerman D, Verbakel JY, et al. Clinical utility of risk models to refer patients with adnexal masses to specialized oncology care: multicenter external validation using decision curve analysis. Clin Cancer Res 2017;23:5082-90.
Evidence tabellen
Evidence table for intervention studies (randomized controlled trials and non-randomized observational studies (cohort studies, case-control studies, case series))1
This table is also suitable for diagnostic studies (screening studies) that compare the effectiveness of two or more tests. This only applies if the test is included as part of a test-and-treat strategy – otherwise the evidence table for studies of diagnostic test accuracy should be used.
Study reference |
Study characteristics |
Patient characteristics 2 |
Intervention (I) |
Comparison / control (C) 3
|
Follow-up |
Outcome measures and effect size 4 |
Comments |
Meys, 2017a |
Type of study: Retrospective observational study Setting and country: Single setting, Netherlands
Funding and conflicts of interest: ‘All authors report no conflict of any financial interest.’ Academic Fund, Maastricht University Medical Center+, The Netherlands and the CZ Fund, The Netherlands.
|
Inclusion criteria
Exclusion criteria: -Patients were excluded when no pathology result was obtained, when the pathology result was known before the ultrasound examination (from transabdominal biopsy in the case of metastasis), when pathology was obtained>120 days after the ultrasound examination and when a patient had previously undergone a bilateral oophorectomy. Patients with a previous hysterectomy who were 50 years of age or older and patients with amenorrhea of more than 1 year were defined as postmenopausal. N total at baseline: N= 326
|
Simple Ultrasound Rules (SR) Risk Malignacy Index (cutoff 200) Adnex Model
|
Pathology was the clinical reference standard used for all patients in this study |
Length of follow-up: NR
Loss-to-follow-up: -
Incomplete outcome data: -
|
Sensitivity SR: 0.89, 95% CI, 0.81–0.94 RMI (cut off 200): 0.71, 95% CI, 0.62–0.79 SR+MAL: 0.93, 95%CI 0.86-0.97 ADNEX: 0.98, 95%CI 0.93-1.00 Specificity SR: 0.90, 95% CI, 0.85–0.94 RMI (cut off 200): 0.79, 95% CI, 0.72–0.84 SR+MAL: 0.68, 95%CI 0.61-0.70 ADNEX: 0.62, 95%CI 0.55-0.69 |
Although the test performance of subjective assessment by an expert remains superior, the ADNEX model can help in the differentiation between benign and malignant ovarian tumors. |
Mulder, 2020 |
Type of study: retrospective (?) cohort study.
Setting and country: single centre, tertiary care, the Netherlands.
Funding and conflict of interest: The authors declare no potential conflicts of interest with respect to the research, authorship, and/or publication of this article. The authors received no financial support for the research, authorship, and/or publication of this article. |
Inclusion criteria: women diagnosed with ovarian tumor(s). Patients had been referred from general practitioner or other hospitals to tertiary care.
Exclusion criteria: none reported.
N total at baseline: 202 |
IOTA Simple rules model + MAL (inconclusive tumours were classified as malignant in analysis) vs. RMI model (cutoff 200). |
Histological diagnosis of removed tissue, or classified as benign when patient was dismissed for further treatment after expectant management. Histological diagnosis of borderline tumour was classified as malignant in statistical analysis. |
Length of follow-up: NR
Loss-to-follow-up: N=20, no further information.
Incomplete outcome data: N=14 (N=3 (no IOTA SR calculated), n=3 (no serum CA125 measured), n=5 (still in follow-up), n=3 (death due to non-ovarian cancer related causes)).
|
Sensitivity: SR + MAL: 90.0 (95%CI 77.4-96.3) RMI200: 72.0 (95%CI 57.3-83.3)
Specificity: SR +MAL: 68.6 (95%CI 59.4-76.7) RMI200: 90.7 (95%CI 83.6-95.0)
PPV: SR+MAL: 54.9 (95%CI 43.5-65.8) RMI200: 76.7 (95%CI 21.5-35.5)
NPV: SR+MAL: 94.2 (95%CI 34.2-56.5) RMI200: 88.4 (95%CI 64.5-78.5)
AUC: SR+MAL: 0.793 (0.722-0.865) RMI200: 0.896 (0.842-0.950)
|
N for analysis=168
The 95%CI NPV is probably a typo in het paper of Mulder (2020): 94.2 (95%CI 34.2-56.5) |
Sayasneh, 2016 |
Type of study: prospective cross-sectional cohort study Setting and country: multicentre , UK
Funding and conflicts of interest: ‘All authors report no conflict of interest.’ Imperial College London
|
Inclusion criteria patients presenting with at least one adnexal mass that underwent transvaginal ultrasonography at one of the participating centres. In the event of bilateral adnexal masses, the mass with the most complex ultrasound morphology was included. If both masses had similar ultrasound morphology, the largest mass, or the one most easily accessible by ultrasonography was included Exclusion criteria: -exclusion criteria were (i) pregnancy, (ii) patients examined by a consultant with a special interest in gynaecological ultrasound, (iii) refusal of transvaginal ultrasonography, (iv) cytology rather than histology as an outcome, and (v) failure to undergo surgery within 120 days of the ultrasound examination N total at baseline: N= 962
|
LR2- model RMI model (cutoff 200) SR+MA
|
histological diagnosis of removed tissues |
Length of follow-up: 6 months
Loss-to-follow-up: -
Incomplete outcome data: -
|
Sensitivity SR: 0.86, 95% CI, 0.77–0.93 RMI (cut off 200): 0.72, 95% CI, 0.60–0.81 SR+MAL: 0.91, 95%CI 0.81-0.96 ADNEX: 0.97, 95%CI 0.94-0.99 LR2: 0.88, 95%CI 0.78-0.94 Specificity SR: 0.94, 95% CI, 0.89–0.97 RMI (cut off 200): 0.94, 95% CI, 0.90–0.97 SR+MAL: 0.91, 95%CI 0.81-0.96 ADNEX: 0.68, 95%CI 0.63-0.72 LR2: 0.90, 95%CI 0.84-0.94 |
Overall, the test performance of IOTA prediction models and rules as well as the RMI was maintained in examiners with varying levels of training and experience |
Testa, 2014 |
Type of study: cross-sectional diagnostic accuracy study with prospective data collection.
Setting and country: multicentre, Belgium
Funding and conflicts of interest: The authors declare no conflict of interest. |
Inclusion criteria Patients were eligible if they presented with at least one adnexal mass (ovarian, para-ovarian or tubal), underwent transvaginal ultrasound examination by a principal investigator at one of the participating centres and were then selected for surgical intervention by the managing clinician. Patients were examined following the research protocol if they gave informed consent Exclusion criteria: Exclusion criteria were surgical removal of the mass 4120 days after the ultrasound examination, pregnancy at scan and data inconsistencies that persisted after final manual data checks. N total at baseline: N= 2403
|
RMI model (cutoff 200) SR+MA Simple Ultrasound Rules (SR)
|
The reference standard was the histologic classification of the excised mass as malignant or benign |
Length of follow-up: NR Loss-to-follow-up: -
Incomplete outcome data: -
|
Sensitivity SR: 0.92, 95% CI, 0.90–0.93 RMI (cut off 200): 0.67, 95% CI, 0.64–0.70 SA+MAL: 0.95, 95%CI 0.94-97. Specificity SR: 0.89, 95% CI, 0.87–0.91 RMI (cut off 200): 0.91, 95% CI, 0.89–0.92 SA+MAL: 0.74, 95%CI 0.72-0.76 |
This study shows all IOTA strategies had excellent diagnostic performance in comparison with RMI. The IOTA strategy chosen may be determined by clinical preference |
Van Holsbeke, 2012 |
Type of study: prospective multicentre cross-sectional study Setting and country: multicentre,
Funding and conflicts of interest: The authors declare no conflict of interest. |
Inclusion criteria NR Exclusion criteria: Bilateral adnexal masses, the mass with the most complex ultrasound morphology was included in our statistical analysis. If both masses had similar ultrasound morphology, the largest one or the one most easily accessible by ultrasound was included. Patients who were pregnant, refused transvaginal ultrasonography, or did not undergo surgical removal of the mass within 120 days after the ultrasound examination were excluded. analysis.N total at baseline: N= 997
|
LR2
|
method of choice for characterizing ovarian pathology as benign or malignant |
Length of follow-up: 4 months Loss-to-follow-up: -
Incomplete outcome data: -
|
Sensitivity LR2: 0.92, 95% CI, 0.88–0.95 RMI (cut off 200): 0.67, 95% CI, 0.61–0.73 Specificity LR2: 0.86, 95% CI, 0.83–0.88 RMI (cut off 200): 0.95, 95% CI, 0.93–0.96 |
External validation shows that the IOTA models outperform other models, including the current reference test RMI, for discriminating between benign and malignant adnexal masses. |
Van Calster, 2020 |
Type of study: multicentre prospective cohort study
Setting and country: 36 oncology referral centres (tertiary centres with a specific gynaecological oncology unit) or other types of centres)
Funding and conflicts of interest:
|
Inclusion criteria: All patients aged 18 or older at recruitment and presented with at least one adnexal mass (ovarian, para-ovarian, or tubal) on ultrasound examination. Informed consent was obtained and then local clinicians examined patients following a standardised research protocol.
Exclusion criteria: lesions presumed to be physiological if the largest diameter was less than 3 cm, refusal to provide informed consent, or withdrawal of informed consent. We excluded patients if they had an adnexal mass that was already being followed up in the recruitment centre before the start of the study.
N total at baseline: N= 4905
NB: N=8519 recruited to IOTA5, n=25 withdrew consen, n=2777 patients excluded because centra provided insufficient patient numbers or quality of data. N=5717 patients remained, of which n=812 already included in follow-up and therefore excluded here. Therefore in total n=4905 patients were included in final sample.
Information on CA125 was missing in 2620 of the 4905 (53%) patients: 835 of 2579 (32%) missing values when surgery was suggested and 1785 of 2326 (77%) missing values when conservative management was suggested.
The outcome was benign for 3441 (70%) patients, malignant for 978 (20%), and uncertain for 486 (10%) patients
|
LR2, simple rules (inconclusive tumors were classified as malignant), SRRisk, ADNEX without CA125, and ADNEX with CA125
|
RMI = control
Gold standard = Either based on histology in patients who underwent surgery, or on results of clinical and ultrasound follow-up at 12 (±2) months |
Length of follow-up: 12 (±2) months
Loss-to-follow-up:
Incomplete outcome data:
|
AUC Test between model vs. RMI reported as 95% confidence intervals of the overall difference in AUC between models for the primary analysis and for all subgroups. Positive values favor the first model.
RMI: 0.89 (95%CI 0.85 to 0.92)
LR2: 0.92 (0.89 to 0.94) LR2 vs RMI 0.011 to 0.042
SRRisk: 0.94 (0.91 to 0.95) SRRisk vs RMI 0.022 to 0.059
ADNEX without CA125: 0.94 (0.91 to 0.95) ADNEX without CA125 vs RMI 0.028 to 0.060
ADNEX with CA125: 0.94 (0.92 to 0.96) ADNEX with CA125 vs RMI 0.037 to 0.067
Sensitivity: Not tested for differences between model and RMI.
RMI 200 60.4% (53.7–66.8)
Simple Rules: 90% (86% to 94%)
See for sensitivity of LR2, SRRisk, ADNEX, ADNEX + CA125 at different thresholds of risk table 5 of supplementary files or enclosed in guideline module.
Specificity Not tested for differences between model and RMI.
RMI 200: 95.3% (92.8–96.9)
Simple Rules: 87% (83% to 91%).
See for specificity of LR2, SRRisk, ADNEX, ADNEX + CA125 at different thresholds of risk table 5 of supplementary files or enclosed in guideline module.
|
Author conclusion: Our study found the ADNEX models and SRRisk are the best models to distinguish between benign and malignant masses in all patients presenting with an adnexal mass, including those managed conservatively.
Additional information: IOTA phase 5 study recruitment took place from January 2012 to October 2016. The current interim analysis includes patients recruited until 1 March 2015 and follow-up data until 30 June 2017
We encouraged centres to measure the level of serum CA125 in all patients, but this was not a requirement for inclusion in the study. Measurement of CA125 was left to clinical judgment and local protocols.
Borderline tumours were classified as malignant.
Primary analysis included patients with imputed data for missing values of CA-125 and some outcome variables. |
Notes:
- Prognostic balance between treatment groups is usually guaranteed in randomized studies, but non-randomized (observational) studies require matching of patients between treatment groups (case-control studies) or multivariate adjustment for prognostic factors (confounders) (cohort studies); the evidence table should contain sufficient details on these procedures.
- Provide data per treatment group on the most important prognostic factors ((potential) confounders).
- For case-control studies, provide sufficient detail on the procedure used to match cases and controls.
- For cohort studies, provide sufficient detail on the (multivariate) analyses used to adjust for (potential) confounders.
Risk of bias assessment diagnostic accuracy studies (QUADAS II, 2011)
Research question: Welk diagnostisch model op basis van echoscopie is het meest geschikt om toe te passen voor de differentiatie tussen benigne en maligne adnex pathologie?
Study reference |
Patient selection
|
Index test |
Reference standard |
Flow and timing |
Comments with respect to applicability |
Meys, 2017a
|
Was a consecutive or random sample of patients enrolled? Yes
Was a case-control design avoided? Unclear
Did the study avoid inappropriate exclusions? Unclear
|
Were the index test results interpreted without knowledge of the results of the reference standard? Unclear
If a threshold was used, was it pre-specified? Yes
|
Is the reference standard likely to correctly classify the target condition? Yes
Were the reference standard results interpreted without knowledge of the results of the index test? Unclear
|
Was there an appropriate interval between index test(s) and reference standard? Yes
Did all patients receive a reference standard? Yes
Did patients receive the same reference standard? Yes
Were all patients included in the analysis? Unclear |
Are there concerns that the included patients do not match the review question? Unclear
Are there concerns that the index test, its conduct, or interpretation differ from the review question? No
Are there concerns that the target condition as defined by the reference standard does not match the review question? Unclear
|
CONCLUSION: Could the selection of patients have introduced bias?
RISK: UNCLEAR |
CONCLUSION: Could the conduct or interpretation of the index test have introduced bias?
RISK: LOW |
CONCLUSION: Could the reference standard, its conduct, or its interpretation have introduced bias?
RISK: LOW |
CONCLUSION Could the patient flow have introduced bias?
RISK: UNCLEAR |
|
|
Mulder, 2020
|
Was a consecutive or random sample of patients enrolled? Unclear (probably consecutive)
Was a case-control design avoided? Unclear
Did the study avoid inappropriate exclusions? Unclear
|
Were the index test results interpreted without knowledge of the results of the reference standard? Unclear
If a threshold was used, was it pre-specified? Yes
|
Is the reference standard likely to correctly classify the target condition? Yes
Were the reference standard results interpreted without knowledge of the results of the index test? Unclear
|
Was there an appropriate interval between index test(s) and reference standard? Yes
Did all patients receive a reference standard? Yes
Did patients receive the same reference standard? No, n=43 patients in expectant management were assumed to be benign, hence no histological results were available.
Were all patients included in the analysis? Unclear |
Are there concerns that the included patients do not match the review question? Unclear, most patients underwent surgery.
Are there concerns that the index test, its conduct, or interpretation differ from the review question? No
Are there concerns that the target condition as defined by the reference standard does not match the review question? No
|
|
CONCLUSION: Could the selection of patients have introduced bias?
RISK: UNCLEAR |
CONCLUSION: Could the conduct or interpretation of the index test have introduced bias?
RISK: LOW |
CONCLUSION: Could the reference standard, its conduct, or its interpretation have introduced bias?
RISK: LOW |
CONCLUSION Could the patient flow have introduced bias?
RISK: UNCLEAR |
|
Testa, 2014 |
Was a consecutive or random sample of patients enrolled? Yes
Was a case-control design avoided? Unclear
Did the study avoid inappropriate exclusions? Unclear
|
Were the index test results interpreted without knowledge of the results of the reference standard? Unclear
If a threshold was used, was it pre-specified? Yes
|
Is the reference standard likely to correctly classify the target condition? Yes
Were the reference standard results interpreted without knowledge of the results of the index test? Unclear
|
Was there an appropriate interval between index test(s) and reference standard? Unclear
Did all patients receive a reference standard? Yes
Did patients receive the same reference standard? Yes Were all patients included in the analysis? Yes |
Are there concerns that the included patients do not match the review question? Unclear
Are there concerns that the index test, its conduct, or interpretation differ from the review question? No
Are there concerns that the target condition as defined by the reference standard does not match the review question? No
|
|
CONCLUSION: Could the selection of patients have introduced bias?
RISK: UNCLEAR |
CONCLUSION: Could the conduct or interpretation of the index test have introduced bias?
RISK: LOW |
CONCLUSION: Could the reference standard, its conduct, or its interpretation have introduced bias?
RISK: LOW |
CONCLUSION Could the patient flow have introduced bias?
RISK: UNCLEAR |
|
Van Holsbeke, 2012 |
Was a consecutive or random sample of patients enrolled? Yes
Was a case-control design avoided? Unclear
Did the study avoid inappropriate exclusions? Unclear
|
Were the index test results interpreted without knowledge of the results of the reference standard? Yes
If a threshold was used, was it pre-specified? Yes
|
Is the reference standard likely to correctly classify the target condition? Yes
Were the reference standard results interpreted without knowledge of the results of the index test? Yes
|
Was there an appropriate interval between index test(s) and reference standard? Unclear
Did all patients receive a reference standard? Yes
Did patients receive the same reference standard? Yes
Were all patients included in the analysis? Yes |
Are there concerns that the included patients do not match the review question? Unclear
Are there concerns that the index test, its conduct, or interpretation differ from the review question? No
Are there concerns that the target condition as defined by the reference standard does not match the review question? No
|
|
CONCLUSION: Could the selection of patients have introduced bias?
RISK: UNCLEAR |
CONCLUSION: Could the conduct or interpretation of the index test have introduced bias?
RISK: LOW |
CONCLUSION: Could the reference standard, its conduct, or its interpretation have introduced bias?
RISK: LOW |
CONCLUSION Could the patient flow have introduced bias?
RISK: LOW |
|
Sayasneh, 2016 |
Was a consecutive or random sample of patients enrolled? Yes
Was a case-control design avoided? Unclear
Did the study avoid inappropriate exclusions? Unclear
|
Were the index test results interpreted without knowledge of the results of the reference standard? Unclear
If a threshold was used, was it pre-specified? Yes
|
Is the reference standard likely to correctly classify the target condition? Yes
Were the reference standard results interpreted without knowledge of the results of the index test? Unclear
|
Was there an appropriate interval between index test(s) and reference standard? Unclear
Did all patients receive a reference standard? Yes
Did patients receive the same reference standard? Yes
Were all patients included in the analysis? Yes |
Are there concerns that the included patients do not match the review question? No
Are there concerns that the index test, its conduct, or interpretation differ from the review question? Yes
Are there concerns that the target condition as defined by the reference standard does not match the review question? No
|
|
CONCLUSION: Could the selection of patients have introduced bias?
RISK: UNCLEAR |
CONCLUSION: Could the conduct or interpretation of the index test have introduced bias?
RISK: LOW |
CONCLUSION: Could the reference standard, its conduct, or its interpretation have introduced bias?
RISK: LOW |
CONCLUSION Could the patient flow have introduced bias?
RISK: UNCLEAR |
|
Van Calster, 2020 |
Was a consecutive or random sample of patients enrolled? Yes
Was a case-control design avoided? Yes
Did the study avoid inappropriate exclusions? Unclear, study centres with >30% of unusable data were excluded. Cut-off seems arbitrary. |
Were the index test results interpreted without knowledge of the results of the reference standard? Unclear, Pathologists were blinded to ultrasound predictor variables and model predictions, but might have received information on the subjective assessment by the ultrasound examiner when clinically relevant.
If a threshold was used, was it pre-specified? Yes.
|
Is the reference standard likely to correctly classify the target condition? Yes
Were the reference standard results interpreted without knowledge of the results of the index test? Unclear
|
Was there an appropriate interval between index test(s) and reference standard? Unclear
Did all patients receive a reference standard? Yes.
Did patients receive the same reference standard? No, only in patients who underwent surgery could histopathology confirm results. This was not possible in patients treated conservatively (follow-up).
Were all patients included in the analysis? Yes, a selection of patients with more or less complete data were selected based on prespecified criteria. |
Are there concerns that the included patients do not match the review question? No.
Are there concerns that the index test, its conduct, or interpretation differ from the review question? No.
Are there concerns that the target condition as defined by the reference standard does not match the review question? No.
|
|
CONCLUSION: Could the selection of patients have introduced bias?
RISK: Unclear |
CONCLUSION: Could the conduct or interpretation of the index test have introduced bias?
RISK: Unclear |
CONCLUSION: Could the reference standard, its conduct, or its interpretation have introduced bias?
RISK: Unclear |
CONCLUSION Could the patient flow have introduced bias?
RISK: Unclear |
|
Judgments on risk of bias are dependent on the research question:
some items are more likely to introduce bias than others, and may be given more weight in the final conclusion on the overall risk of bias per domain:
Patient selection:
- Consecutive or random sample has a low risk to introduce bias.
- A case control design is very likely to overestimate accuracy and thus introduce bias.
- Inappropriate exclusion is likely to introduce bias.
Index test:
- This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.
- Selecting the test threshold to optimise sensitivity and/or specificity may lead to overoptimistic estimates of test performance and introduce bias.
Reference standard:
- When the reference standard is not 100% sensitive and 100% specific, disagreements between the index test and reference standard may be incorrect, which increases the risk of bias.
- This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.
Flow and timing:
- If there is a delay or if treatment is started between index test and reference standard, misclassification may occur due to recovery or deterioration of the condition, which increases the risk of bias.
- If the results of the index test influence the decision on whether to perform the reference standard or which reference standard is used, estimated diagnostic accuracy may be biased.
- All patients who were recruited into the study should be included in the analysis, if not, the risk of bias is increased.
Tabel Exclusie na het lezen van het volledige artikel
Auteur en jaartal |
Redenen van exclusie |
Abdel Wahab, 2020 |
Voldoet niet aan PICO |
Abudia, 2010 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Akdeniz, 2009 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Ameye, 2012 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Ardila, 2019 |
Case report en narrative review |
Arun-Muthuvel, 2014 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Asif, 2004 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Auekitrungrueng, 2019 |
Voldoet niet aan PICO |
Bouzari, 2011 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Campos, 2016 |
Voldoet niet aan PICO |
Dasari, 2013 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Davies, 1993 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Di Legge, 2012 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Dochez, 2019 |
Voldoet niet aan PICO |
Dodge, 2012 |
Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018) |
Dodge, 2012 |
Geen systematisch review (narrative review) |
Engelen, 2008 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Fruhauf, 2019 |
Narrative review |
Geomini, 2009 |
Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018) |
Hada, 2020 |
Voldoet niet aan PICO |
Hakansson, 2012 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Harry, 2009 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Ionescu, 2018 |
Voldoet niet aan PICO |
Jacobs, 1990 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Jacobs, 1993 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Kaijser, 2013 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Kaijser, 2014 |
Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018) |
Karlsen, 2012 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Karlsen, 2015 |
Voldoet niet aan PICO |
Koneczny, 2017 |
Voldoet niet aan PICO |
Leelahakorn, 2005 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Lu, 2020 |
Voldoet niet aan PICO |
Lycke, 2018 |
Voldoet niet aan PICO |
Manjunath, 2001 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Melo, 2018 |
Voldoet niet aan PICO |
Meys, 2015 |
Dubbele |
Meys, 2017 |
Reeds geïncludeerd in Westwood (2018) |
Morgante, 1999 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Moszynski, 2014 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Nowosielski, 2017 |
Geen systematisch review (narrative review) |
Nunes, 2014 |
Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018) |
Obeidat, 2004 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Ong, 2013 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Radosa, 2014 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Rossi, 2011 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Rossi, 2014 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Sayasneh, 2013 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Sayasneh, 2013 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Stukan, 2015 |
Keuze voor meest recente systematische reviews van Meys (2016) en Westwood (2018) |
Stukan, 2019 |
Voldoet niet aan PICO |
Szubert, 2020 |
Voldoet niet aan PICO |
Terzic, 2011 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Terzic, 2020 |
Narrative review |
Testa, 2014 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Timmerman, 2010 |
Dubbele |
Timmerman, 2011 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Tingulstad, 1996 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Tingulstad, 1999 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Ulusoy, 2007 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Van Calster, 2012 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
van den Akker, 2011 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Van Holsbeke, 2007 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
van Nimwegen, 2020 |
Systematisch review over pediatrische ovariumtumoren |
van Trappen, 2007 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Wynants, 2017 |
Voldoet niet aan PICO |
Yavuzcan, 2013 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Yazbek, 2006 |
Gepubliceerd binnen search periode van reviews van Meys (2016) en Westwood (2018) |
Zhang, 2019 |
Voldoet niet aan PICO |
Verantwoording
Autorisatiedatum en geldigheid
Laatst beoordeeld : 11-03-2021
Laatst geautoriseerd : 11-03-2021
Geplande herbeoordeling : 01-01-2027
Bij het opstellen van de module heeft de werkgroep een inschatting gemaakt over de maximale termijn waarop herbeoordeling moet plaatsvinden en eventuele aandachtspunten geformuleerd die van belang zijn bij een toekomstige herziening (update). De geldigheid van de richtlijnmodule komt eerder te vervallen indien nieuwe ontwikkelingen aanleiding zijn een herzieningstraject te starten.
Module[1] |
Regiehouder(s)[2] |
Jaar van autorisatie |
Eerstvolgende beoordeling actualiteit richtlijn[3] |
Frequentie van beoordeling op actualiteit[4] |
Wie houdt er toezicht op actualiteit[5] |
Relevante factoren voor wijzigingen in aanbeveling[6] |
Diagnostische modellen |
NVOG |
2020 |
2022 |
Elke 2 jaar |
NVOG |
Ontwikkelingen in het vakgebied; publicaties ROCkeTS studie, ACCEPT studie; meta-analyse IOTA modellen van Kalsteren. |
[1] Naam van de module
[2] Regiehouder van de module (deze kan verschillen per module en kan ook verdeeld zijn over meerdere regiehouders)
[3] Maximaal na vijf jaar
[4] (half)Jaarlijks, eens in twee jaar, eens in vijf jaar
[5] regievoerende vereniging, gedeelde regievoerende verenigingen, of (multidisciplinaire) werkgroep die in stand blijft
[6] Lopend onderzoek, wijzigingen in vergoeding/organisatie, beschikbaarheid nieuwe middelen
Algemene gegevens
De richtlijnontwikkeling werd ondersteund door het Kennisinstituut van de Federatie Medisch Specialisten en werd gefinancierd uit de Stichting Kwaliteitsgelden Medisch Specialisten (SKMS). De financier heeft geen enkele invloed gehad op de inhoud van de richtlijn.
De richtlijnmodule is goedgekeurd door:
- Stichting Bekkenbodem4All
Doel en doelgroep
Doel
Het doel is om gynaecologen te voorzien van een landelijk gedragen richtlijn voor het voorkomen en het behandelen van vrouwen met een (benigne) vergroot ovarium en die voldoet aan de eisen van een AGREE-instrument volgens de EBRO-methode. De te ontwikkelen richtlijn voorziet in de meest recente 'evidence based' informatie over het onderwerp (benigne) vergroot ovarium.
Met het opstellen van een dergelijke richtlijn wordt beoogd de onduidelijkheid en onzekerheid over het diagnosticeren en behandelen van een (benigne) ovariumcyste weg te nemen.
Doelgroep
Patiëntencategorie
De richtlijn geldt voor alle pre- en postmenopauzale vrouwen met een vergroot ovarium (vanaf de menarche), bij wie niet eerder een maligniteit (mamma, ovarium, GE) werd vastgesteld.
Richtlijngebruikers
Deze richtlijn is geschreven voor alle leden van de beroepsgroep van gynaecologen. Daarnaast kan deze richtlijn ingezien en gebruikt worden door alle zorgverleners die te maken krijgen met vrouwen met een vergroot ovarium.
Samenstelling werkgroep
Samenstelling werkgroep update 2018
- Dr. P.M.A.J. Geomini, gynaecoloog, werkzaam in het Máxima Medisch Centrum te Eindhoven, NVOG, voorzitter richtlijncommissie
- Dr. D. van den Broek, klinisch chemicus, werkzaam bij het NKI te Amsterdam, NVKC
- Dr. J. Kaijser, gynaecoloog, werkzaam bij het Ikazia ziekenhuis te Rotterdam, NVOG
- Dr. A.J. Krüse, gynaecoloog, werkzaam bij Isala te Zwolle, NVOG
- Dr. C.A.R. Lok, gynaecoloog, werkzaam bij het NKI te Amsterdam, NVOG
- Dr. A. Stiekema, AIOS gynaecologie, werkzaam bij het Academisch Medisch Centrum te Amsterdam, NVOG
- M. Bosch, belangenbehartiging en PR Stichting Bekkenbodem4All, Stichting Bekkenbodem4All
Met ondersteuning van
- dr. E.J.M. den Breejen, senior adviseur, Kennisinstituut van de Federatie Medisch Specialisten
- dr. A. Bijlsma-Rutte, adviseur, Kennisinstituut van de Federatie Medisch Specialisten
- dr. W.J. Harmsen, adviseur Kennisinstituut van de Federatie Medisch Specialisten
Oude samenstelling werkgroep
- Mw. dr. P.M.A.J. Geomini, gynaecoloog, Maxima Medisch Centrum, Veldhoven (voorzitter)
- Dhr. prof. dr. H.A.M. Brölmann, gynaecoloog, VU Medisch Centrum, Amsterdam
- Dhr. dr. F.P.H.L.J. Dijkhuizen, gynaecoloog, ziekenhuis Rijnstate, Arnhem
- Dhr. dr. T. Van Gorp, gynaecologisch oncoloog, Maastricht Universitair Medisch Centrum, Maastricht
- Mw. dr. C.A.R. Lok, gynaecologisch oncoloog, Centrum Gynaecologische Oncologie, Amsterdam
- Mw. drs. B.M. Pijlman, gynaecoloog, Jeroen Bosch Ziekenhuis, Den Bosch
- Mw. Dr. F. Vernooij, AIOS Obstetrie & Gynaecologie, epidemioloog, Meander Medisch Centrum, Amersfoort
- Mw. dr. Y.M. de Mooij, AIOS, VU Medisch Centrum, Amsterdam
- Ir. T.A. van Barneveld, klinisch epidemioloog, Orde van Medisch Specialisten, Utrecht
- Dhr. drs. K.Y. Heida, richtlijnondersteuner Nederlandse Vereniging voor Obstetrie en Gynaecologie, Utrecht
- Mw. drs. M.E.P.F. Rückert, richtlijnondersteuner Nederlandse Vereniging voor Obstetrie en Gynaecologie, Utrecht
- Mw. drs. C.A.L. van Rijn, richtlijnondersteuner Nederlandse Vereniging voor Obstetrie en Gynaecologie, Utrecht
Extern advies
- Mw. drs. M. Wessels, informatiespecialist, Orde van Medisch Specialisten, Utrecht
Belangenverklaringen
De KNMG-code ter voorkoming van oneigenlijke beïnvloeding door belangenverstrengeling is gevolgd. Alle werkgroepleden hebben schriftelijk verklaard of zij in de laatste drie jaar directe financiële belangen (betrekking bij een commercieel bedrijf, persoonlijke financiële belangen, onderzoeksfinanciering) of indirecte belangen (persoonlijke relaties, reputatiemanagement, kennisvalorisatie) hebben gehad. Een overzicht van de belangen van werkgroepleden en het oordeel over het omgaan met eventuele belangen vindt u in onderstaande tabel. De ondertekende belangenverklaringen zijn op te vragen bij het secretariaat van het Kennisinstituut van de Federatie Medisch Specialisten.
Belangenverklaringen werkgroep update 2018
Werkgroeplid |
Functie |
Nevenfuncties |
Gemelde belangen |
Ondernomen actie |
Geomini* |
Gynaecoloog |
Geen |
mede organisator van Nederlandse IOTA cursus (gericht op implementeren IOTA regels voor echo beschrijving bij vergroot adnex) 1e auteur review: Geomini et al. The accuracy of risk scores in predicting ovarian malignancy: a systematic review. Obstet Gynecol. 2009 Feb;113:384-94. |
Geen |
Kruse |
Gynaecoloog-oncoloog, Isala, Zwolle |
Geen |
Geen |
Geen |
Kaijser |
gynaecoloog Ikazia Ziekenhuis Rotterdam |
Cursusinstructeur: echografie van het vergrote ovarium: Nederlandse IOTA cursus. Specialistische echocursus voor afwijkingen in de adnexiele regio. Jaarlijkse eendaags cursus voor gynaecologen en AIOS mede georganiseerd door Biomedic-Samsung, Nederland. Locatie Almere. Medio Juni 2019 zal dit voor de 4e maal plaatsvinden. Sprekersvergoeding à 500 euro. |
Klinisch werkzaam met Samsun WS80 echotoestel met geïntegreerd IOTA ADNEX model voor differentiatie van adnextumoren. Toestel wordt door Ikazia Ziekenhuis via officieel huurcontract afgenomen bij Biomedic Samsung, Nederland |
Geen trekker (1e auteur) bij module over diagnostische modellen (UV4) |
Lok |
Gynaecologisch-oncoloog Antoni van Leeuwenhoek - Nederlands Kanker Instituut |
Geen betaalde nevenfuncties Begeleiding van promovendi |
2 jaar geleden (kleine) subsidie (4x5000 euro) van Fujirebio gehad om een onderzoeker parttime HE4 te laten onderzoeken. Geen voorwaarden aan subsidie verbonden. Ging louter om het gebruiken van hun apparatuur voor analyse van samples. Huidig onderzoek wordt niet gefinancierd door Fujirebio.
Heeft eerder ook subsidies ontvangen voor onderzoek, waarbij de subsidies altijd aan het instituut werden uitbetaald om een onderzoeker van de betalen. Geen persoonlijk financieel gewin. Ging louter om het gebruik van technologieën van de betreffende industrie, geen voorwaarden verbonden aan de publicaties. Heeft zowel positieve als negatieve bevindingen over gepubliceerd.
Huidig onderzoek dat raakvlakken met de richtlijn heeft: onderzoek naar RMI en IOTA en het meten van markers, waarmee de selectie van patiënten zou kunnen worden verbeterd. Geen sponsoring van de industrie voor deze studie.
Heb wel over HE4 gepubliceerd, maar ook over CA-125 en RMI. Betreft louter wetenschappelijke publicaties van trial resultaten etc. Geen opiniestukken. Deze publicaties werden niet gesponsord door de industrie. Hier hangt m.i. geen intellectueel belang aan vast omdat zowel de voor- als nadelen van bv HE4 gewoon zijn gepubliceerd. |
Geen trekker (1e auteur) bij module over tumormarkers (UV3). |
Broek |
Klinisch chemicus/afdelingshoofd Algemeen klinisch laboratorium (fulltime) Antoni van Leeuwenhoek, Amsterdam |
Vakdeskundige Raad van Accreditatie ten behoeve van IS015189 (Detachering vanuit AVL, betaald) Lid commissie slimme en snelle diagnostiek (onbetaald) Lid flexpool ZonMW call vroege opsporing (vergoeding aan AVL, nu geen deelname aan ronde) Lid METC (onbetaald) Voorzitter instituut review board (onbetaald) Lid commissie moleculaire biologische diagnostiek NVKC (onbetaald) Voor alle werkzaamheden waar een vergoeding tegenover staat komt deze ten goede aan de werkgever. |
Geen Ik ben betrokken bij onderzoek dat wordt gefinancierd door fondsen en/of industrie, echter de onderwerpen van deze studies richten zich op moleculaire analyses in bloed of andere lichaamsvloeistoffen. Er zijn geen projecten die aan het onderwerp van deze richtlijn raken. |
Geen |
Bosch |
Vice Voorzitter en PR Stichting Bekkenbodem4All |
Geen |
Wij behartigen belangen van patiënten en geven voorlichting en ondersteuning aan mannen, vrouwen en kinderen met bekkenbodemproblemen in de breedste zin van het woord, zonder eigen belang of financieel belang. |
Geen |
Stiekema |
AIOS Gynaecologie, Amsterdam UMC locatie AMC Meibergdreef |
Geen |
Afgerond promotieonderzoek februari 2016 naar de rol van biomarker van HE4 bij onder andere het vergrote ovarium. Financiering voor dit onderzoek voor een heel klein deel (kits om laboratorium bepalingen uit te voeren) via Fujirebio. Deze contacten zijn na 2016 beëindigd. |
Geen trekker (1e auteur) bij module over tumormarkers (UV3). |
*voorzitter richtlijncommissie
Inbreng patiëntenperspectief
Er werd aandacht besteed aan het patiëntenperspectief door een afgevaardigde van de patiëntenvereniging Stichting Bekkenbodem4All in de werkgroep deel te laten nemen. De modules worden tevens voor commentaar voorgelegd aan de Patiëntenfederatie Nederland en aan de Stichting Bekkenbodem4All.
Methode ontwikkeling
Evidence based
Implementatie
In de verschillende fasen van het ontwikkelproces is rekening gehouden met de implementatie van de richtlijnmodule en de praktische uitvoerbaarheid van de aanbevelingen. Daarbij is uitdrukkelijk gelet op factoren die de invoering van de module in de praktijk kunnen bevorderen of belemmeren. De implementatietabel is te vinden in de bijlagen. Er werden geen indicatoren ontwikkeld bij deze modules.
Werkwijze
AGREE
Deze module is opgesteld conform de eisen vermeld in het rapport Medisch Specialistische Richtlijnen 2.0 van de adviescommissie Richtlijnen van de Raad Kwaliteit. Dit rapport is gebaseerd op het AGREE II instrument (Appraisal of Guidelines for Research & Evaluation II; Brouwers, 2010), dat een internationaal breed geaccepteerd instrument is. Voor een stap-voor-stap beschrijving hoe een evidence-based module tot stand komt wordt verwezen naar het stappenplan Ontwikkeling van Medisch Specialistische Richtlijnen van het Kennisinstituut van de Federatie Medisch Specialisten.
Knelpuntenanalyse
Uit de inventarisatie van de knelpunten door werkgroep bleek dat er een noodzaak was voor revisie en updaten van verschillende richtlijnmodules uit de richtlijn het Vergrote Ovarium (2013). Tijdens deze inventarisatie zijn er knelpunten aangedragen door relevante partijen via een schriftelijke Invitational conference. Een verslag hiervan is opgenomen in de bijlagen.
Uitgangsvraag en uitkomstmaten
Op basis van de uitkomsten van de knelpuntenanalyse zijn door de werkgroepleden en de adviseur uitgangsvragen opgesteld. Vervolgens inventariseerde de werkgroep welke uitkomstmaten voor de patiënt relevant zijn, waarbij zowel naar gewenste als ongewenste effecten werd gekeken. De werkgroep waardeerde deze uitkomstmaten volgens hun relatieve belang bij de besluitvorming rondom aanbevelingen, als cruciaal (kritiek voor de besluitvorming), belangrijk (maar niet kritiek) en onbelangrijk. Indien mogelijk definieerde de werkgroep tenminste voor de cruciale uitkomstmaten welke verschillen zij klinisch (patiënt) relevant vonden.
Strategie voor zoeken en selecteren van literatuur
Aan de hand van specifieke zoektermen werd gezocht naar gepubliceerde wetenschappelijke studies in (verschillende) elektronische databases. Tevens werd aanvullend gezocht naar studies aan de hand van de literatuurlijsten van de geselecteerde artikelen. In eerste instantie werd gezocht naar studies met de hoogste mate van bewijs. De werkgroepleden selecteerden de via de zoekactie gevonden artikelen op basis van vooraf opgestelde selectiecriteria. De geselecteerde artikelen werden gebruikt om de uitgangsvraag te beantwoorden. De geselecteerde databases waarin is gezocht en de gehanteerde selectiecriteria zijn te vinden in de module met desbetreffende uitgangsvraag. De zoekstrategie is opvraagbaar bij de Richtlijnendatabase, zie het tabblad ‘Zoekverantwoording’ voor verdere details.
Kwaliteitsbeoordeling individuele studies
Individuele studies werden systematisch beoordeeld, op basis van op voorhand opgestelde methodologische kwaliteitscriteria, om zo het risico op vertekende studieresultaten (risk of bias) te kunnen inschatten. Deze beoordelingen kunt u vinden in de Risk of Bias (RoB) tabellen. De gebruikte RoB instrumenten zijn gevalideerde instrumenten die worden aanbevolen door de Cochrane Collaboration:
- AMSTAR - voor systematische reviews.
- Cochrane - voor gerandomiseerd gecontroleerd onderzoek.
- ACROBAT-NRS - voor observationeel onderzoek.
- QUADAS II - voor diagnostisch onderzoek.
Samenvatten van de literatuur
De relevante onderzoeksgegevens van alle geselecteerde artikelen werden overzichtelijk weergegeven in evidencetabellen. De belangrijkste bevindingen uit de literatuur werden beschreven in de samenvatting van de literatuur.
Beoordelen van de kracht van het wetenschappelijke bewijs
Voor interventievragen (vragen over therapie of screening)
De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode. GRADE staat voor ‘Grading Recommendations Assessment, Development and Evaluation’ (zie http://www.gradeworkinggroup.org/).
GRADE onderscheidt vier gradaties voor de kwaliteit van het wetenschappelijk bewijs: hoog, redelijk, laag en zeer laag. Deze gradaties verwijzen naar de mate van zekerheid die er bestaat over de literatuurconclusie (Schünemann, 2013).
GRADE |
Definitie |
Hoog |
|
Redelijk |
|
Laag |
|
Zeer laag |
|
Bij het beoordelen (graderen) van de kracht van het wetenschappelijk bewijs in richtlijnen volgens de GRADE-methodiek spelen grenzen voor klinische besluitvorming een belangrijke rol (Hultcrantz, 2017). Dit zijn de grenzen die bij overschrijding aanleiding zouden geven tot een aanpassing van de aanbeveling. Om de grenzen voor klinische besluitvorming te bepalen moeten alle relevante uitkomstmaten en overwegingen worden meegewogen. De grenzen voor klinische besluitvorming zijn daarmee niet één op één vergelijkbaar met het minimaal klinisch relevant verschil (Minimal Clinically Important Difference, MCID). Met name in situaties waarin een interventie geen belangrijke nadelen heeft en de kosten relatief laag zijn, kan de grens voor klinische besluitvorming met betrekking tot de effectiviteit van de interventie bij een lagere waarde (dichter bij het nuleffect) liggen dan de MCID (Hultcrantz, 2017).
Voor vragen over diagnostische tests, schade of bijwerkingen, etiologie en prognose
De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode: GRADE-diagnostiek voor diagnostische vragen (Schünemann, 2008) en een generieke GRADE-methode voor vragen over schade of bijwerkingen, etiologie en prognose. In de gehanteerde generieke GRADE-methode werden de basisprincipes van de GRADE-methodiek toegepast: het benoemen en prioriteren van de klinisch (patiënt) relevante uitkomstmaten, een systematische review per uitkomstmaat, en een beoordeling van bewijskracht op basis van de vijf GRADE-criteria (startpunt hoog; downgraden voor risk of bias, inconsistentie, indirectheid, imprecisie, en publicatiebias).
Formuleren van de conclusies
Voor elke relevante uitkomstmaat werd het wetenschappelijk bewijs samengevat in een of meerdere literatuurconclusies waarbij het niveau van bewijs werd bepaald volgens de GRADE-methodiek. De werkgroepleden maakten de balans op van elke interventie (overall conclusie). Bij het opmaken van de balans werden de gunstige en ongunstige effecten voor de patiënt afgewogen. De overall bewijskracht wordt bepaald door de laagste bewijskracht gevonden bij een van de kritieke uitkomstmaten. Bij complexe besluitvorming waarin naast de conclusies uit de systematische literatuuranalyse vele aanvullende argumenten (overwegingen) een rol spelen, werd afgezien van een overall conclusie. In dat geval werden de gunstige en ongunstige effecten van de interventies samen met alle aanvullende argumenten gewogen onder het kopje 'Overwegingen'.
Overwegingen (van bewijs naar aanbeveling)
Om te komen tot een aanbeveling zijn naast (de kwaliteit van) het wetenschappelijke bewijs ook andere aspecten belangrijk en worden meegewogen, zoals de expertise van de werkgroepleden, de waarden en voorkeuren van de patiënt, kosten, beschikbaarheid van voorzieningen en organisatorische zaken. Deze aspecten worden, voor zover geen onderdeel van de literatuursamenvatting, vermeld en beoordeeld (gewogen) onder het kopje ‘Overwegingen’.
Formuleren van aanbevelingen
De aanbevelingen geven antwoord op de uitgangsvraag en zijn gebaseerd op het beschikbare wetenschappelijke bewijs en de belangrijkste overwegingen, en een weging van de gunstige en ongunstige effecten van de relevante interventies. De kracht van het wetenschappelijk bewijs en het gewicht dat door de werkgroep wordt toegekend aan de overwegingen, bepalen samen de sterkte van de aanbeveling. Conform de GRADE-methodiek sluit een lage bewijskracht van conclusies in de systematische literatuuranalyse een sterke aanbeveling niet a priori uit, en zijn bij een hoge bewijskracht ook zwakke aanbevelingen mogelijk. De sterkte van de aanbeveling wordt altijd bepaald door weging van alle relevante argumenten tezamen.
Randvoorwaarden (Organisatie van zorg)
Bij de ontwikkeling van de module is expliciet rekening gehouden met de organisatie van zorg: alle aspecten die randvoorwaardelijk zijn voor het verlenen van zorg (zoals coördinatie, communicatie, (financiële) middelen, menskracht en infrastructuur). Randvoorwaarden die relevant zijn voor het beantwoorden van een specifieke uitgangsvraag maken onderdeel uit van de overwegingen bij de bewuste uitgangsvraag, randvoorwaarden die van invloed zijn op de implementatie van de aanbeveling zijn opgenomen in de implementatietabel.
Indicatorontwikkeling
Er werden geen indicatoren ontwikkeld bij deze modules.
Kennislacunes
Tijdens de ontwikkeling van deze module is systematisch gezocht naar onderzoek waarvan de resultaten bijdragen aan een antwoord op de uitgangsvraag. Er is nagegaan of (aanvullend) wetenschappelijk onderzoek gewenst is om de uitgangsvraag te kunnen beantwoorden. Mocht dit bij deze module het geval zijn, dan is er een aanbeveling voor het doen van onderzoek opgenomen in de bijlage Kennislacunes.
Commentaar- en autorisatiefase
De module worden aan de betrokken (wetenschappelijke) verenigingen, instanties en (patiënt) organisaties voorgelegd ter commentaar. De commentaren werden verzameld en besproken met de werkgroep. Naar aanleiding van de commentaren werd de conceptmodule aangepast en definitief vastgesteld door de werkgroep. De definitieve module werd aan de deelnemende (wetenschappelijke) verenigingen en (patiënt) organisaties voorgelegd voor autorisatie en door hen geautoriseerd dan wel geaccordeerd. De commentaartabel is op te vragen bij het Kennisinstituut van de Federatie Medisch Specialisten via secretariaat@kennisinstituut.nl
Literatuur
Brouwers MC, Kho ME, Browman GP, et al. AGREE Next Steps Consortium. AGREE II: advancing guideline development, reporting and evaluation in health care. CMAJ. 2010;182(18):E839-42. doi: 10.1503/cmaj.090449. Epub 2010 Jul 5. Review. PubMed PMID: 20603348.
Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006. Epub 2017 May 18. PubMed PMID: 28529184.
Medisch Specialistische Richtlijnen 2.0 (2012). Adviescommissie Richtlijnen van de Raad Kwalitieit. https://richtlijnendatabase.nl/over_deze_site/richtlijnontwikkeling.html.
Schünemann H, Brożek J, Guyatt G, et al. GRADE handbook for grading quality of evidence and strength of recommendations. Updated October 2013. The GRADE Working Group, 2013. Available from http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html.
Schünemann HJ, Oxman AD, Brozek J, et al. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ. 2008;336(7653):1106-10. doi: 10.1136/bmj.39500.677199.AE. Erratum in: BMJ. 2008;336(7654). doi: 10.1136/bmj.a139. PubMed PMID: 18483053.
Ontwikkeling van Medisch Specialistische Richtlijnen: stappenplan. Kennisinstituut van de Federatie Medisch Specialisten.
Wessels M, Hielkema L, van der Weijden T. How to identify existing literature on patients' knowledge, views, and values: the development of a validated search filter. J Med Libr Assoc. 2016 Oct;104(4):320-324. PubMed PMID: 27822157; PubMed Central PMCID: PMC5079497.
Zoekverantwoording
Zoekacties zijn opvraagbaar. Neem hiervoor contact op met de Richtlijnendatabase.