Schildkliercarcinoom

Initiatief: NIV Aantal modules: 44

Diagnostiek - Beeldvormende technieken

Uitgangsvraag

Wat is de plaats van de ACR TI-RADS-classificatie bij de radiologische diagnostiek van schildkliernodus (en verslaglegging hiervan)?

Aanbeveling

Gebruik bij klinisch manifeste schildkliernoduli de ACR TI-RADS om de nodus te beschrijven en te classificeren.

  • Bij een ACR TI-RADS 1 en TI-RADS 2 nodus adviseert de werkgroep geen FNAC of follow-up te verrichten.
  • Bij een ACR TI-RADS 5 laesie adviseert de werkgroep FNAC te verrichten bij een nodus >1cm en follow-up volgens ACR TI-RADS bij een nodus van > 0.5 cm.
  • Bij een ACR TI-RADS 3 en TI-RADS 4 nodus geeft de werkgroep in overweging om de geldende ACR TI-RADS adviezen te volgen voor follow-up of FNA, zie link. Gezien het lager risico op maligniteit, kan echter ook afgezien worden van FNAC of follow-up.
  • Bij alle patiënten dient o.a. rekening gehouden te worden met te verwachten gezondheidswinst voor de patiënt, leeftijd en comorbiditeit

Verricht geen routinematige nadere diagnostiek, follow-up of FNAC bij patiënten met een schildklier incidentaloom op CT of MRI, tenzij er infiltratieve groei buiten het schildklierparenchym zichtbaar is of onverklaarde cervicale lymfadenopathie.

Verricht geen routinematige nadere diagnostiek, follow-up of FNAC bij patiënten met een schildklier incidentaloom op echografie, tenzij er sprake is van een ACR TI-RADS 5 nodus. Voer voor een ACR TI-RADS5 incidentaloom het beleid zoals beschreven bij de klinisch manifeste noduli (zie Aanbeveling 1).

Benoem de ACR TI-RADS bij incidentalomen niet in het echoverslag, tenzij er sprake is van een (sterk suspecte) ACR TI-RADS 5 nodus.

Indien incidentalomen in het radiologisch verslag gerapporteerd worden: benoem het expliciet in het verslag als er geen nadere analyse noodzakelijk is.

 

Verricht een FNAC van een FDG-PET avide schildkliernodus van groter dan 1 cm, gezien de relatief hoge vooraf kans op een maligniteit, tenzij dit klinisch niet relevant is vanwege morbiditeit, dit een autonoom functionerende nodus is (zie module Diagnostiek - Laboratoriumonderzoek), hoge leeftijd, dan wel wensen van de patiënt. Overweeg eenmalige echografische follow-up van een FDG-PET avide schildkliernodus tussen 0.5 cm en 1 cm. De grootte van de nodus kan het beste worden beoordeeld op een echo.

Gebruik geen ACR TI-RADS bij een FDG-avide nodus om het follow-up of FNA-advies te bepalen, gezien het risico op maligniteit relatief hoog is onafhankelijk van echografische karakteristieken.

 

Probeer bij multipele noduli onderscheid te maken tussen de klinisch manifeste nodus/noduli en asymptomatische noduli

Verricht FNA/follow-up zoals hierboven aanbevolen/in overweging gegeven volgens de ACR TI-RADS criteria van de klinisch manifeste nodus in de multinodulaire schildklier

Verricht FNA/follow-up zoals hierboven aanbevolen/in overweging gegeven volgens ACR TI-RADS criteria indien de klinisch manifeste nodus niet aangewezen kan worden of twijfelachtig is en er sprake is van klachten.

 

Flowchart

Bovenstaande aanbevelingen kunnen gedeeltelijk worden samengevat in de volgende flowchart, zie bij Flowchart – Diagnostiek. Autonome toxische noduli vallen hier niet onder.

Overwegingen

Voor- en nadelen van de interventie en de kwaliteit van het bewijs

In totaal zijn er elf studies (d.w.z. één systematische review en 10 individuele studies) beschreven die de plaats van de ACR TI-RADS-classificatie bij de radiologische diagnostiek van schildkliernodus vergelijken met cytologisch en/of histologisch onderzoek bij patiënten met een schildkliernodus.

Over het algemeen berusten de studies op retrospectieve data, worden ze uitgevoerd in verschillende populaties, worden verschillende criteria gebruikt als definitie voor maligne cytologie, varieert de prevalentie van maligniteiten, is de radiologische diagnostiek door verschillende personen uitgevoerd, en wordt in slechts een deel van de patiënten ook postoperatieve histologische data meegenomen in de analyse. Mede door deze factoren variëren de sensitiviteit en specificiteit. Dezelfde geldt ook voor de positief voorspellende waarde en negatief voorspellende waarde. De bewijskracht voor deze uitkomsten wordt gegradeerd met GRADE laag.
Er is slechts 1 studie (Middleton 2021) waarbij de sensitiviteit van ACR TI-RADS wordt gemeten aan de hand van FNAC én follow-up van noduli, in plaats van alleen FNA.

Geen van de studies vond plaats in een Nederlandse populatie.

 

Sensitiviteit van ACR TI-RADS bij FNAC en follow-up

Middleton (2021) heeft in een studie maligne noduli geïncludeerd welke op basis van ACR TI-RADS FNAC of follow-up zouden krijgen. Het percentage maligne noduli welke FNAC zou krijgen was 68% (240/352). Het percentage maligne noduli welke follow-up of FNAC zou krijgen was 89% (314/352) bij alle maligne noduli, en 94% (272/288) bij maligne noduli groter dan 1 cm. Deze informatie is niet beschreven in de samenvatting van de literatuur, omdat dit buiten het bereik van de PICO-vraag valt.

 

Vergelijking van ACR TI-RADS met andere classificatiesystemen

Er zijn meerdere echografische classificatiesystemen ontwikkeld in de afgelopen jaren. In Nederland wordt nu al veel gebruik gemaakt van de ACR TI-RADS. Het doel van de ACR TI-RADS is niet om alle schildkliercarcinomen te detecteren, omdat dit zal resulteren in een hoog aantal overbodige FNA’s. Er is bewust gekozen voor een hogere specificiteit ten koste van de sensitiviteit. Het risico op het missen van klinisch relevante schildkliernoduli wordt zo klein mogelijk gehouden door de echografische follow-up.

In een systematische review van Castellana (2020) had de ACR TI-RADS een goede prestatie in vergelijking met andere classificatiesystemen. De ACR TI-RADS had een positieve likelihood ratio van 1.9, vergeleken met 1.2 voor de ATA en 1.4 voor EU-TI-RADS. De negatieve likelihood ratio was 0.4 voor ACR TI-RADS, en 0.4 voor ATA en 0.6 voor EU-TI-RADS. De werkgroep kiest daarom voor gebruik van de ACR TI-RADS in deze richtlijn.

 

Bij toeval gevonden nodus beeldvormend onderzoek

In de vorige richtlijn werd verdere evaluatie van incidentalomen in de schildklier afgeraden, tenzij FDG-PET avide. Naast de artikelen die zijn beschreven in de samenvatting van de literatuur, zijn er nog andere artikelen van belang bij het beantwoorden van de uitgangsvraag. Deze studies rapporteren gegevens separaat voor incidentaloom vs. symptomatische nodus. Er zijn geen studies waarin naar de rol van ACR TI-RADS is gekeken in de subpopulaties incidentalomen en symptomatische/klinische manifeste noduli. Wel zijn er studies waarin het risico op maligniteit wordt vergeleken in deze subpopulaties. In een systematische review van 18 observationele studies (Chooi, 2022) werd geen verschil gevonden tussen het risico op maligniteit tussen incidentalomen en symptomatische noduli. Er is daarom geen reden om aan te nemen dat de waarde van ACR TI-RADS anders is bij klinisch manifeste noduli dan bij incidentalomen.

Gezien de hoge prevalentie van schildkliernoduli in de asymptomatische populatie kan een hoge prevalentie van incidentalomen op beeldvormend onderzoek worden verwacht. Echografie is de meest sensitieve techniek voor het aantonen van schildkliernoduli. De meeste incidentalomen zullen worden gezien met echografie, met een afnemende prevalentie op CT, MRI en FDG-PET/CT. Er is geen bewijs voor gezondheidswinst bij een routinematige analyse van incidentalomen. Het vermelden van een ACR TI-RADS classificatie bij incidentalomen dient hierom vermeden te worden, omdat dit de indruk kan geven dat de nodus nader analyse behoeft. In het classificatiesysteem worden namelijk follow-up en FNAC adviezen gegeven voor ACR TI-RADS 3 t/m TI-RADS 5 laesies afhankelijk van de grootte.

 

FDG-PET avide schildkliernodus

Focale FDG-avide schildklier incidentalomen hebben een relatief hoge kans op maligniteit. In een systematische review van 50 studies (de Leijer, 2021) bleek 31% van de FDG-avide noduli (die onderzocht zijn) maligne. FDG-avide schildkliernoduli hebben een relatief hoger risico op maligniteit dan andere noduli welke niet middels FDG-PET zijn gedetecteerd (Felder, 2021). Bovendien zijn er aanwijzingen dat schildkliercarcinomen met FDG-aviditeit een slechtere levensverwachting hebben in vergelijking met carcinomen zonder FDG-aviditeit (Schreinemakers, 2012).Vanwege de hoge kans op maligniteit vormen deze een uitzondering op de ACR TI-RADS beoordeling en adviezen t.a.v. follow-up en FNA, zie link. Er wordt geadviseerd om FNAC te verrichten bij FDG avide schildkliernoduli >1 cm waarbij de overige morbiditeit en prognose van de patiënt in acht genomen worden. FDG-PET scans vinden frequent plaats bij patiënten met een niet-schildklier maligniteit, waardoor het aannemelijk is dat in bepaalde gevallen een eventueel schildkliercarcinoom geen invloed zal hebben op de overleving. In een retrospectieve analyse (Pattison, 2018) was van 362 FDG-avide schildklierlaesies follow-up beschikbaar. Slechts 1 patiënt overleed als gevolg van het FDG-avide schildkliercarcinoom. De meeste overlijdens waren het gevolg van de primaire maligniteit waarvoor de PET werd verricht (92%), of andere oorzaken niet gerelateerd aan maligniteit (7%). In een ander soortgelijk retrospectief cohort (Piek, 2021) werden 1003 FDG-avide incidentalomen onderzocht. Hiervan overleed slechts 1 patiënten als gevolg van het FDG-avide schildkliercarcinoom.

 

Multinodulaire schildklier

Patiënten met multipele noduli hebben een vergelijkbaar risico op maligniteit als patiënten met een solitaire nodus. Ook bij een multinodulaire schildklier moet gepoogd worden een onderscheid te maken tussen een klinisch manifeste nodus en incidentalomen. Dit zal bij een eenduidig palpabele afwijking makkelijker zijn dan bij meer diffuse klachten, vooral als dit correleert met een duidelijke dominante nodus op echografie. Vaak zal het niet mogelijk zijn om de klachten te herleiden tot 1 symptomatische nodus. In de regel is het niet nodig om FNA van meer dan 1 nodus in dezelfde setting te verrichten indien er sprake is van een multi nodulair struma. Om tot de keuze te komen van welke nodus FNAC moet worden verricht kan overleg tussen de echografist en de aanvrager van meerwaarde zijn.

 

Echografie lymfeklieren
Echografie is de primaire modaliteit voor evaluatie van cervicale lymfeklieren bij schildkliernoduli en schildkliercarcinoom. De grootte van lymfeklieren is minder belangrijk dan hun morfologie als het gaat om het inschatten van het risico op lymfkliermetastasen. Suspecte echografische kenmerken zijn: cysteuze verandering, focale echogene foci/calcificaties, corticale hyperechogeniciteit, abnormale vascularisatie, ronde vorm, verstreken hilus. Cysteuze verandering in een lymfeklier wordt beschouwd als vrijwel 100% specifiek voor metastase bij een bewezen primair schildkliercarcinoom. Bij het beoordelen van lymfeklieren moet rekening worden gehouden met clusters van lymfeklierniveaus die chirurgische implicaties hebben bij een eventuele halsklierdissectie: level VI, level II-III-IV links en rechts, level V links en rechts. Van suspecte lymfeklieren wordt geadviseerd om FNAC te verrichten (Chung, 2022).

 

Waarden en voorkeuren van patiënten (en evt. hun verzorgers)

De implementatie van ACR TI-RADS voor beslissingen over verdere diagnostiek en follow-up van klinisch relevante schildkliernoduli zal resulteren in minder cytologische puncties en meer follow-up dan voorheen, aangezien in de vorige richtlijn vrijwel altijd FNAC werd geadviseerd van een palpabele nodus. Dit kan onzekerheid geven bij de patiënt; voor een deel van de symptomatische noduli zal geen cytologie beschikbaar zijn. Daartegenover staat dat ook de cytologie een belangrijk percentage niet-diagnostische en inconclusieve resultaten kent. Niet zelden resulteert FNAC in een (hemi)thyreoïdectomie voor een benigne nodus. Bij de echografische follow-up volgens ACR TI-RADS worden veranderingen en groei van de nodus in kaart gebracht, en zo nodig wordt alsnog gepuncteerd. Bovendien zijn er studies waaruit blijkt dat de grootte van gedifferentieerd schildkliercarcinoom pas invloed heeft op de overleving vanaf een grootte van 2.5 cm (Nguyen, 2018).

Bij ongerustheid van de patiënt kan na zorgvuldige afweging gekozen worden om alsnog FNAC te verrichten van een nodus, ongeacht de ACR TI-RADS classificatie.

Voor de oudere patiënt en patiënten met een slechte prognose door comorbiditeit is belangrijk om samen te beslissen over de zin van verdere diagnostiek en hierin terughoudend te zijn.

 

Aanvaardbaarheid, haalbaarheid en implementatie

Er zijn relatief weinig randvoorwaarden aan de implementatie van ACR TI-RADS (Tessler, 2017). Het gebruik van ACR TI-RADS zal waarschijnlijk wel meer echotijd en verslagtijd kosten, gezien verschillende echografische karakteristieken gescoord moeten worden. Omdat niet in elke symptomatische nodus geprikt wordt, zal de implementatie van ACR TI-RADS resulteren in meer follow-up echo in plaats van FNA, en minder onnodige (hemi)thyreoïdectomiën.

De echografist zal bekendheid met het scoresysteem moeten verkrijgen met de hierbij behorende valkuilen. Het gebruik van de ACR lexicon (Grant, 2015) en ACR atlas is een goede eerste stap hiervoor, zie link. De ACR TI-RADS is een relatief nieuwe classificatie, waardoor het aannemelijk is dat de expertise hierin zal toenemen bij daadwerkelijke implementatie en gebruik van de ACR TI-RADS. Het gebruik van een standaard echoverslag of gestructureerde verslaglegging kan bijdragen aan de implementatie van ACR TI-RADS, zie voorbeeldverslag.  Een juiste ACR TI-RADS classificatie is essentieel voor de keuze tussen FNA, follow-up of geen follow-up. De echo wordt bij voorkeur uitgevoerd door iemand met ervaring op het gebied van echografie van schildkliernoduli.

De meeste echo’s van de schildklier worden gesuperviseerd dan wel verricht door radiologen. In steeds meer (opleidings)centra is het gebruikelijk geworden om de ACR TI-RADS toe te passen, en dit maakt zodoende al onderdeel van de opleiding tot radioloog. Echografie is een dynamisch onderzoek, waarbij de beelden achteraf lastig nogmaals geïnterpreteerd kunnen worden. Een volledige radiologische aanvraag is essentieel voor de echografist om het onderzoek adequaat uit te voeren. In de aanvraag wordt in ieder geval vermeld: vraagstelling voor het onderzoek, of er een vermoeden is op een symptomatische/klinische manifeste schildkliernodus, of deze ook palpabel is voor de onderzoeker, bijkomende klachten welke gerelateerd kunnen zijn aan een evt. schildkliernodus, relevante voorgeschiedenis, voorafgaande operaties aan de schildklier, voorafgaande beeldvorming uit een ander centrum.

 

Rationale van de aanbeveling:

In de diverse studies wordt geen onderscheid gemaakt tussen gebruik van ACR TI-RADS bij symptomatische/klinische manifeste noduli en incidentalomen. De bewijskracht voor de uitkomsten wordt gegradeerd met GRADE laag. Daarnaast is er een grote variatie in de uitkomstmaten. Dit betreft situaties waarbij ACR TI-RADS wordt vergeleken met histologie. In de praktijk wordt ACR TI-RADS gebruikt als voorselectie om het beleid bij noduli te bepalen.

Het percentage maligne noduli waarvan FNAC of follow-up plaatsvindt op basis van ACR TI-RADS bedraagt 89%, en 94% indien dit beperkt wordt tot maligne noduli >1 cm (Middleton 2018).

 

Gezien de hoge prevalentie van schildkliernoduli in de bevolking kan een hoge prevalentie van incidentalomen op beeldvormend onderzoek worden verwacht. Hierbij dient overwogen te worden dat de prevalentie van indolent schildkliercarcinoom hoog is, en dat sommige van deze carcinomen niet klinisch relevant zijn omdat zij een zodanig indolent beloop hebben dat zij geen consequenties hebben voor de overleving en de kwaliteit van leven van de patiënt. Er is geen bewijs dat routinematige analyse van bij toeval gevonden noduli gezondheidswinst oplevert. Er is ook geen bewijs dat vroege detectie van of screening op schildkliercarcinoom gezondheidswinst oplevert.

Het gebruik van ACR TI-RADS bij incidentalomen dient vermeden te worden, omdat dit verwarring kan geven over eventueel follow-up en FNA-beleid en leidt tot veelvuldige diagnostiek en overdiagnostiek en onzekerheid bij de patiënt. De werkgroep adviseert hierop één uitzondering te maken: bij een zeer suspecte incidenteel gevonden schildkliernodus (ACR TI-RADS 5) dient wel FNAC verricht te worden indien deze groter is dan 1 cm. Het geschatte risico op maligniteit in deze groep is ca. 35%, vergelijkbaar met een FDG-avide nodus.

 

FDG-avide schildkliernoduli hebben een kans van 31% op maligniteit. Dit is onafhankelijk van de echografische karakteristieken. Als de FDG-PET verricht werd vanwege een andere maligniteit, moet de prognose van de patiënt in acht genomen worden bij de beslissing om FNAC te verrichten van de nodus. Wanneer besloten wordt om af te zien van een FNAC, kan men overwegen een echografische follow-up te verrichten wanneer er ingeschat wordt dat hieraan klinische gevolgen verbonden zijn. De kans op overlijden als gevolg van een schildkliercarcinoom is laag in deze groep.

 

Bij multipele noduli en symptomen is het beleid gebaseerd op de overwegingen bij symptomatische/klinisch manifeste noduli.

Onderbouwing

Er wordt toenemend gebruik gemaakt van echografische classificatiesystemen voor schildkliernoduli. Separate echografische kenmerken hebben een beperkte sensitiviteit en specificiteit; door deze te combineren wordt getracht een betere risicostratificatie te verkrijgen. Met name de ACR TI-RADS wordt in steeds meer centra gebruikt in Nederland, zie link. De ACR TI-RADS is in 2017 gepubliceerd en heeft als voornaamste doel om alle schildkliernoduli te classificeren middels echo én te voorzien van follow-up en FNA-aanbevelingen. In dit classificatiesysteem is bewust gekozen voor iets meer terughoudendheid in FNAC van noduli waarvan verwacht wordt dat deze geen invloed zullen hebben op de overleving van de patiënt. Het is een op punten gebaseerd systeem waarbij verschillende echografische criteria beoordeeld en gescoord worden, waarbij de classificatie varieert van TI-RADS 1 (minst suspect) t/m TI-RADS 5 (meest suspect). De manier waarop ACR TI-RADS toegepast wordt in Nederland is wisselend, variërend van gebruik bij incidentalomen tot symptomatische schildkliernoduli. De exacte plaats van de TI-RADS classificatie is in Nederland nog niet bepaald. Zoals eerder beschreven maken we onderscheid tussen noduli die bij toeval worden gevonden op beeldvorming, de incidentalomen, en klinisch manifeste noduli. Deze laatste categorie behoeft nader onderzoek, tenzij er vanwege bijvoorbeeld comorbiditeit en prognose geen klinische relevantie voor is.

Low GRADE

The sensitivity of ACR TI-RADS in selecting thyroid nodules for FNA in patients with suspected thyroid cancer, ranges from 40% to 100%, using histology and/or cytology as reference.

 

Source: Castellana (2020), Gacayan (2021), Paker (2021), Seminati (2021), McClean (2021), Sparano (2021), Watkins (2021), Pandya (2019), Ahmadi (2018), De Melo (2020), Soylemez (2021), Barbosa (2019)

 

Low GRADE

The specificity of ACR TI-RADS in selecting thyroid nodules for FNA in patients with suspected thyroid cancer, ranges from 41% to 81%, using histology and/or cytology as reference.

 

Source: Castellana (2020), Gacayan (2021), Paker (2021), Seminati (2021), McClean (2021), Sparano (2021), Watkins (2021), Pandya (2019), Ahmadi (2018), De Melo (2020), Soylemez (2021), Barbosa (2019)

 

Low GRADE

The positive predictive value of ACR TI-RADS in selecting thyroid nodules for FNA in patients with suspected thyroid cancer, ranges from 9% to 82%, using histology and/or cytology as reference.

 

Source: Castellana (2020), Gacayan (2021), Paker (2021), Seminati (2021), McClean (2021), Sparano (2021), Watkins (2021), Pandya (2019), De Melo (2020), Barbosa (2019)

 

Description of systematic review

Castellana (2020) performed a systematic review and meta-analysis to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using histology as reference standard. The US RSS ACR-TI-RADS was compared with four other US RSS. Studies meeting the inclusion criteria were eligible for inclusion. Studies focusing on paediatric patients or specific subgroups were excluded, see exclusion criteria. The search was performed in March 2019. In total 12 retrospective cohort studies evaluating 18 750 thyroid nodules were included. The prevalence for malignancy ranges from 4% to 54% per study.

Seven studies reported sensitivity and specificity of ACR TI-RADS. This was 49% to 91% and 49% to 77%, respectively (point-estimates) for selecting thyroid nodules for FNA. Analysis of malignant nodules with follow-up recommendation was not performed in the systematic review. However, the included study of Middleton (2018) did assess the percentage of malignant nodules that would be either biopsied or followed.

The study is limited by the fact that histology was not performed in all noduli, and publication bias was not assessed.

 

Description of primary studies

Gacayan (2021) performed a cross-sectional study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid nodules, using cytology as reference standard.

The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion. If the cytology report of the FNA was inadequate or non-diagnostic, patients were excluded, see exclusion criteria. In total 197 thyroid nodules of 121 patients (85% female) were included. The prevalence of malignancy was 9%.

The study is limited by the fact that histology was not performed in all noduli and the relatively small sample size.

 

Paker (2021) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid nodules, using histology as reference standard. The US RSS ACR TI-RADS was of interest. Selected criteria for in- and exclusion are presented in the evidence tables. If thyroidectomies were performed due to non-thyroid disease and non-differentiated thyroid lesions, patients were excluded, see exclusion criteria. In total 238 thyroid nodules of 216 patients (80% female) were included. The prevalence for malignancy was 48%.

The study is limited by the fact that histology was not performed in all noduli, and the relatively small sample size.

 

Seminati (2021) performed a prospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using cytology as reference standard. The US RSS ACR TI-RADS was of interest. Selected criteria for in- and exclusion are presented in the evidence tables. In total 480 thyroid nodules of 448 patients were included. The prevalence of malignancy was 8%.

The study is limited by the fact that histology was not performed in all nodules.

 

McClean (2021) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using histology as reference standard. The US RSS ACR TI-RADS was of interest. Selected criteria for in- and exclusion are presented in the evidence tables. If US or FNA were not reported, patients were excluded, see exclusion criteria. In total 308 thyroid nodules of 296 patients (77% female) were included. The prevalence of malignancy was 44%. Importantly, data collection was performed by one author, who was blinded to the final histology of the nodule.

The study is limited by the fact that histology was not performed in all noduli.

 

Sparano (2021) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using cytology and histology as reference standards. The US RSS ACR TI-RADS was of interest. Selected criteria for in- and exclusion are presented in the evidence tables. If US or FNA were not reported, patients were excluded, see exclusion criteria. In total 6474 thyroid nodules of 6401 patients (78% female) were included. The prevalence for malignancy was 5%. The study is limited by the fact that histology was not performed in all noduli, and the relatively low prevalence of malignancy.

 

Watkins (2021) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using histology as reference standard. The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion. If ultrasound demonstrating diffuse thyroid disease or if it was not considered possible to reliably correlate imaging and histopathology, due to, e.g. suboptimal image quality, patients were excluded, see exclusion criteria. In total 215 thyroid nodules of 212 patients (76% female) were included. The prevalence of malignancy was 35%. Importantly, data collection was performed by one author, who was blinded to the final histology of the nodule.

The study is limited by the fact that histology was not performed in all nodules, and the relatively small sample size.

 

Pandya (2019) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using cytology as reference standard. The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion. For patients who underwent FNA of several nodules in one procedural visit, only the first nodule sampled was included, see exclusion criteria. In total 1947 thyroid nodules (76% female) were included. The prevalence of malignancy was 13%.

The study is limited by the fact that histology was not performed in all nodules.

 

Ahmadi (2018) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using histology as reference standard. The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion. Exclusion criteria were; more than four nodules, no discrete thyroid nodule, pre-op ultrasound imaging not available, and poor quality ultrasound imaging.

In total 323 thyroid nodules of 213 patients (76% female) were included. The prevalence of malignancy was 27%. Importantly, all ultrasound features were evaluated retrospectively at a single institution, where the incidence of malignancy was relatively high.

 

De Melo (2020, i.e., Araruna Bezerra de Melo) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid nodules. The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion. Exclusion criteria were; US images were not available or did not allow a proper retrospective classification.

In total 1112 thyroid nodules of 803 patients (80% female) were included. Of these patients 117 (237 noduli) underwent surgery. Outcomes were based on this population. The prevalence of malignancy was 66%. A limitation of the current study was that results were based on a subpopulation.

 

Soylemez (2021; i.e., Orhan Soylemez) performed a prospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid nodules, using cytology as reference standard. The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion. Exclusion criteria were; patients aged <18 years were not included in the study. Nodules with non-diagnostic (Bethesda 1) cytology results were also excluded. In total 1010 thyroid nodules (72% female) were included. The prevalence of malignancy was 8%.

The study is limited by the fact that histology was not performed in all nodules, and the relatively low prevalence.

 

Barbosa (2019) performed a retrospective cohort study to investigate the diagnostic performance of ultrasound (US) risk stratification system (RSS) compared with fine-needle aspiration procedures (FNA) in patients with thyroid noduli, using cytology as reference standard. The US RSS ACR TI-RADS was of interest. Patients meeting the inclusion criteria were eligible for inclusion, which included only patients with previous indeterminate cytology. Exclusion criteria were; lack or absence of information on the US, FNAC or histology. In total 140 thyroid nodules of 139 patients (85% female) were included. The prevalence of malignancy was 47%.

The study is limited by the fact that histology was not performed in all noduli, and the relatively small sample size.

 

Results

Outcomes for diagnostic values are summarized per outcome measure. An overview of the results per study can be found here.

 

Sensitivity

The sensitivity of the ACR TI-RADS classification in detecting malignancy in thyroid nodules, ranges from 40% to 100% in all studies together, see Figure 1.

 

Specificity

The specificity of the ACR TI-RADS classification in detecting malignancy in thyroid nodules, ranges from 41% to 81% in all studies together, see Figure 1.

 

Figure 1. Overview of diagnostic values per study

 

Positive predictive value

The positive predictive value (PPV) of the ACR TI-RADS classification in detecting malignancy in thyroid nodules, ranges from 9% to 82% in all studies together, see Table 1.

 

Negative predictive value

The negative predictive value (NPV) of the ACR TI-RADS classification in detecting malignancy in thyroid nodules, ranges from 32% to 95% in all studies together, see Table 1.

 

Table 1. Overview of positive – and negative predictive value per study

Study

PPV

lower

upper

NPV

lower

upper

Review

 

 

 

 

 

 

Grani,2019

0,13

0,11

0,15

0,58

0,54

0,63

Ha, 2018

0,52

0,49

0,55

0,90

0,87

0,92

Ha, 2018

0,40

0,38

0,42

0,90

0,89

0,91

Middelton, 2018

0,14

0,13

0,15

0,94

0,93

0,94

Ruan, 2019

0,56

0,55

0,64

0,72

0,70

0,74

Wu, 2019

0,68

0,65

0,70

0,82

0,77

0,87

Xu, 2018

0,54

0,51

0,56

0,67

0,63

0,68

Additional studies

 

 

 

 

 

 

Gacayan, 2021

0,17

0,15

0,19

1

n.r.

n.r

Paker, 2021

0,63

n.r.

n.r.

0,76

n.r

n.r

Seminati, 2021

0,13

0,08

0,189

0,95

0,91

0,98

Sparano, 2021

0,09

0,08

0,10

0,93

0,92

0,94

Mclean, 2021

0,62

0,54

0,70

0,76

0,68

0,82

Watkins, 2021

0,49

0,45

0,53

0,94

0,82

0,98

Pandya, 2021

0,11

0,10

0,12

0,95

0,93

0,96

de Melo, 2022

0,82

0,74

0,9

0,32

0,44

0,56

barbosa, 2019

0,77

0,66

0,84

0,75

0,67

0,81

PPV= positive predictive value, NPV = negative predictive value, lower= lower limit of 95% CI, upper= upper limit of 95%CI,

 

Level of evidence of the literature

The level of evidence (GRADE method) is determined per comparison and diagnostic outcome measure and is based on results from diagnostic accuracy studies and therefore starts at level “high”. Subsequently, the level of evidence was downgraded if there were relevant shortcomings in one of the several GRADE domains: risk of bias, inconsistency, indirectness, imprecision, and publication bias.

 

The level of evidence regarding the outcome measures sensitivity started as high, because results were from diagnostic accuracy studies. The level of evidence was downgraded by two levels because of risk of bias (reference test was not performed in all included patients because of study design limitation), and imprecision (wide 95%CI, -1). The level of evidence for the outcome ‘sensitivity’ is low.

 

The level of evidence regarding the outcome measures specificity started as high, because results were from diagnostic accuracy studies. The level of evidence was downgraded by two levels because of risk of bias (reference test was not performed in all included patients), and imprecision (wide 95%CI, -1). The level of evidence for the outcome ‘specificity’ is low.

 

The level of evidence regarding the outcome measures positive predictive value started as high, because results were from diagnostic accuracy studies. The level of evidence was downgraded by two levels because of risk of bias (reference test was not performed in all included patients), and imprecision (wide 95%CI, -1). The level of evidence for the outcome ‘positive predictive value’ is low.

 

The level of evidence regarding the outcome measures negative predictive value started as high, because results were from diagnostic accuracy studies. The level of evidence was downgraded by two levels because of risk of bias (reference test was not performed in all included patients), and imprecision (wide 95%CI, -1). The level of evidence for the outcome ‘negative predictive value’ is low.

A systematic review of the literature was performed to answer the following question:

What are benefits/harms of the American College of Radiology TI-RADS, versus cytology, histology, pathology, in patients with suspected differentiated thyroid cancer after surgery on diagnostic values?

 

P:         patients with thyroid nodule(s),

I:          American College of Radiology TI-RADS,

C:         cytology, pathology

R:         histology

O:        negative predictive value, positive predicated value, diagnostic value

 

Relevante uitkomstmaten

De werkgroep achtte de aanwezigheid van zo min mogelijk fout-positieven voor de besluitvorming een cruciale uitkomstmaat. Gezien de hoge prevalentie van schildkliernoduli en indolent schildkliercarcinoom is het van belang zo min mogelijk fout-positieve uitslagen te hebben. Bij de bepaling van sensitiviteit van TI-RADS voor maligniteit zal niet alleen gekeken worden naar noduli waarvan FNAC is verricht, maar ook noduli die echografische follow-up zouden krijgen van een achteraf maligne nodus. Gezien de epidemiologie en langzame groei van het schildkliercarcinoom is follow-up van een kleinere suspecte nodus verdedigbaar.

 

Zoeken en selecteren (Methode)

In de databases Medline (via OVID), Embase (via Embase.com) en de Cochrane Library (via Wiley)] is op 22 juni 2022 met relevante zoektermen gezocht op de elementen schildkliercarcinoom/schildkliernodus en Thyroid Imaging Reporting and Data System (TI-RADS). De zoekverantwoording is weergegeven onder het tabblad Verantwoording. De literatuurzoekactie leverde 562 treffers op. Studies werden geselecteerd op grond van de volgende selectiecriteria:
- patiënten met schildkliernodus die radiologisch (echo) onderzoek heeft ondergaan
- ACR TI-RADS voor diagnose
- cytologie of histologie voor diagnose
- de diagnostische waardes zijn gerapporteerd.

 

Op basis van titel en abstract werd in eerste instantie 1 recente review geselecteerd. Dit literatuuronderzoek was uitgevoerd in maart 2019. Om deze reden zijn vervolgens 24 additionele studies vanaf 2019 voorgeselecteerd. Na raadpleging van de volledige tekst, werden vervolgens 14 studies geëxcludeerd (zie exclusietabel onder het tabblad Verantwoording), en 10 studies definitief geselecteerd.

 

Resultaten

Elf onderzoeken zijn opgenomen in de literatuuranalyse. De belangrijkste studiekarakteristieken en resultaten zijn opgenomen in de evidence tabellen. De beoordeling van de individuele studieopzet (risk of bias) is opgenomen in de risk-of-biastabellen. Noot: de gouden standaard is postoperatieve histologie.

 

  1. Ahmadi S, Oyekunle T, Jiang X', Scheri R, Perkins J, Stang M, Roman S, Sosa JA. A DIRECT COMPARISON OF THE ATA AND TI-RADS ULTRASOUND SCORING SYSTEMS. Endocr Pract. 2019 May;25(5):413-422. doi: 10.4158/EP-2018-0369. Epub 2019 Jan 18. PMID: 30720343.
  2. Barbosa TLM, Junior COM, Graf H, Cavalvanti T, Trippia MA, da Silveira Ugino RT, de Oliveira GL, Granella VH, de Carvalho GA. ACR TI-RADS and ATA US scores are helpful for the management of thyroid nodules with indeterminate cytology. BMC Endocr Disord. 2019 Oct 29;19(1):112. doi: 10.1186/s12902-019-0429-5. PMID: 31664992; PMCID: PMC6819341.
  3. Castellana M, Castellana C, Treglia G, Giorgino F, Giovanella L, Russ G, Trimboli P. Performance of Five Ultrasound Risk Stratification Systems in Selecting Thyroid Nodules for FNA. J Clin Endocrinol Metab. 2020 May 1;105(5):dgz170. doi: 10.1210/clinem/dgz170. PMID: 31690937.
  4. Chooi JE, Ravindiran A, Balasubramanian SP. The influence of incidental detection of thyroid nodule on thyroid cancer risk and prognosis-A systematic review. Clin Endocrinol (Oxf). 2022 Feb;96(2):246-254. doi: 10.1111/cen.14575. Epub 2021 Aug 11. PMID: 34378225.
  5. Chung SR, Baek JH, Rho YH, Choi YJ, Sung TY, Song DE, Kim TY, Lee JH. Sonographic Diagnosis of Cervical Lymph Node Metastasis in Patients with Thyroid Cancer and Comparison of European and Korean Guidelines for Stratifying the Risk of Malignant Lymph Node. Korean J Radiol. 2022 Nov;23(11):1102-1111. doi: 10.3348/kjr.2022.0358. Epub 2022 Sep 16. PMID: 36126955; PMCID: PMC9614289.
  6. Felder GJ, Naeem M, Shady W, Shetty AS, Fraum TJ, Itani M. Risk Stratification of 18F-Fluorodeoxyglucose-Avid Thyroid Nodules Based on ACR Thyroid Imaging Reporting and Data System. J Am Coll Radiol. 2021 Mar;18(3 Pt A):388-394. doi: 10.1016/j.jacr.2020.08.021. Epub 2020 Oct 31. PMID: 33137296.
  7. Gacayan RJ, Kasala R, Puno-Ramos P, Mojica DJ, Castro K. Comparison of the Diagnostic Performance of Ultrasound-Based Thyroid Imaging Reporting and Data System (TIRADS) Classification with American Thyroid Association (ATA) Guidelines in the Prediction of Thyroid Malignancy in a Single Tertiary Center in Manila, Philippines. J ASEAN Fed Endocr Soc. 2021;36(1):69-75. doi: 10.15605/jafes.036.01.14. Epub 2021 May 27. PMID: 34177091; PMCID: PMC8214349.
  8. Grant EG, Tessler FN, Hoang JK, Langer JE, Beland MD, Berland LL, Cronan JJ, Desser TS, Frates MC, Hamper UM, Middleton WD, Reading CC, Scoutt LM, Stavros AT, Teefey SA. Thyroid Ultrasound Reporting Lexicon: White Paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) Committee. J Am Coll Radiol. 2015 Dec;12(12 Pt A):1272-9. doi: 10.1016/j.jacr.2015.07.011. Epub 2015 Sep 26. PMID: 26419308.
  9. de Leijer JF, Metman MJH, van der Hoorn A, Brouwers AH, Kruijff S, van Hemel BM, Links TP, Westerlaan HE. Focal Thyroid Incidentalomas on 18F-FDG PET/CT: A Systematic Review and Meta-Analysis on Prevalence, Risk of Malignancy and Inconclusive Fine Needle Aspiration. Front Endocrinol (Lausanne). 2021 Oct 20;12:723394. doi: 10.3389/fendo.2021.723394. PMID: 34744999; PMCID: PMC8564374.
  10. McClean S, Omakobia E, England RJA. Comparing ultrasound assessment of thyroid nodules using BTA U classification and ACR TIRADS measured against histopathological diagnosis. Clin Otolaryngol. 2021 Nov;46(6):1286-1289. doi: 10.1111/coa.13831. Epub 2021 Jul 21. PMID: 34181817.
  11. Araruna Bezerra de Melo R, Menis F, Calsavara VF, Stefanini FS, Novaes T, Saieg M. The impact of the use of the ACR-TIRADS as a screening tool for thyroid nodules in a cancer center. Diagn Cytopathol. 2022 Jan;50(1):18-23. doi: 10.1002/dc.24904. Epub 2021 Nov 19. PMID: 34797612.
  12. Middleton WD, Teefey SA, Tessler FN, Hoang JK, Reading CC, Langer JE, Beland MD, Szabunio MM, Desser TS. Analysis of Malignant Thyroid Nodules That Do Not Meet ACR TI-RADS Criteria for Fine-Needle Aspiration. AJR Am J Roentgenol. 2021 Feb;216(2):471-478. doi: 10.2214/AJR.20.23123. Epub 2020 Dec 16. PMID: 32603228.
  13. Nguyen XV, Roy Choudhury K, Tessler FN, Hoang JK. Effect of Tumor Size on Risk of Metastatic Disease and Survival for Thyroid Cancer: Implications for Biopsy Guidelines. Thyroid. 2018 Mar;28(3):295-300. doi: 10.1089/thy.2017.0526. Epub 2018 Feb 22. PMID: 29373949.
  14. Orhan Soylemez UP, Gunduz N. Diagnostic Accuracy of Five Different Classification Systems for Thyroid Nodules: A Prospective, Comparative Study. J Ultrasound Med. 2022 May;41(5):1125-1136. doi: 10.1002/jum.15802. Epub 2021 Aug 9. PMID: 34370333.
  15. Pandya A, Caoili EM, Jawad-Makki F, Wasnik AP, Shankar PR, Bude R, Haymart MR, Davenport MS. Retrospective Cohort Study of 1947 Thyroid Nodules: A Comparison of the 2017 American College of Radiology TI-RADS and the 2015 American Thyroid Association Classifications. AJR Am J Roentgenol. 2020 Apr;214(4):900-906. doi: 10.2214/AJR.19.21904. Epub 2020 Feb 18. PMID: 32069084.
  16. Paker M, Goldman T, Masalha M, Shlizerman L, Mazzawi S, Ashkenazi D, Ghanayim R. A Comparison of Two Widely Used Risk Stratification Systems for Thyroid Nodule Sonographic Evaluation. Isr Med Assoc J. 2021 Nov;23(11):714-719. PMID: 34811987.
  17. Pattison DA, Bozin M, Gorelik A, Hofman MS, Hicks RJ, Skandarajah A. 18F-FDG-Avid Thyroid Incidentalomas: The Importance of Contextual Interpretation. J Nucl Med. 2018 May;59(5):749-755. doi: 10.2967/jnumed.117.198085. Epub 2017 Oct 12. PMID: 29025986.
  18. Piek MW, de Boer JP, Vriens MR, van Leeuwaarde RS, Stokkel M, Hartemink KJ, van Duijnhoven F, Kessels R, van der Ploeg IMC. Retrospective Analyses of 18FDG-PET/CT Thyroid Incidentaloma in Adults: Incidence, Treatment, and Outcome in a Tertiary Cancer Referral Center. Thyroid. 2021 Nov;31(11):1715-1722. doi: 10.1089/thy.2021.0226. Epub 2021 Sep 3. PMID: 34340567.
  19. Schreinemakers JM, Vriens MR, Munoz-Perez N, Guerrero MA, Suh I, Rinkes IH, Gosnell J, Shen WT, Clark OH, Duh QY. Fluorodeoxyglucose-positron emission tomography scan-positive recurrent papillary thyroid cancer and the prognosis and implications for surgical management. World J Surg Oncol. 2012 Sep 17;10:192. doi: 10.1186/1477-7819-10-192. PMID: 22985118; PMCID: PMC3539949.
  20. Seminati D, Capitoli G, Leni D, Fior D, Vacirca F, Di Bella C, Galimberti S, L'Imperio V, Pagni F. Use of Diagnostic Criteria from ACR and EU-TIRADS Systems to Improve the Performance of Cytology in Thyroid Nodule Triage. Cancers (Basel). 2021 Oct 29;13(21):5439. doi: 10.3390/cancers13215439. PMID: 34771602; PMCID: PMC8582424.
  21. Sparano C, Verdiani V, Pupilli C, Perigli G, Badii B, Vezzosi V, Mannucci E, Maggi M, Petrone L. Choosing the best algorithm among five thyroid nodule ultrasound scores: from performance to cytology sparing-a single-center retrospective study in a large cohort. Eur Radiol. 2021 Aug;31(8):5689-5698. doi: 10.1007/s00330-021-07703-5. Epub 2021 Feb 18. PMID: 33599836; PMCID: PMC8270877.
  22. Tessler FN, Middleton WD, Grant EG, Hoang JK, Berland LL, Teefey SA, Cronan JJ, Beland MD, Desser TS, Frates MC, Hammers LW, Hamper UM, Langer JE, Reading CC, Scoutt LM, Stavros AT. ACR Thyroid Imaging, Reporting and Data System (TI-RADS): White Paper of the ACR TI-RADS Committee. J Am Coll Radiol. 2017 May;14(5):587-595. doi: 10.1016/j.jacr.2017.01.046. Epub 2017 Apr 2. PMID: 28372962.
  23. Watkins L, O'Neill G, Young D, McArthur C. Comparison of British Thyroid Association, American College of Radiology TIRADS and Artificial Intelligence TIRADS with histological correlation: diagnostic performance for predicting thyroid malignancy and unnecessary fine needle aspiration rate. Br J Radiol. 2021 Jul 1;94(1123):20201444. doi: 10.1259/bjr.20201444. Epub 2021 Jun 9. PMID: 33989038; PMCID: PMC8248201.

Evidence table for systematic review of RCTs and observational studies (intervention studies)

Study reference

Study characteristics

Patient characteristics

Intervention (I)

Comparison / control (C)

 

Follow-up

Outcome measures and effect size

Comments

Castellana, 2020

 

 

 

SR and meta-analysis of retrospective cohort study

 

Literature search up to March 2019

 

A: Negro, 2017

B: Yoon, 2017

C: Ha, 2018

D: Ha, 2018

E: Middleton,

2018

F: Persichetti,

2018

G: Xu, 2018

H: Grani, 2019

I: Mohammadi,

2019

J: Ruan, 2019

K: Trimboli,

2019

L: Wu, 2019

 

 

Study design: retrospective cohort studies

 

Setting and Country:

Hospital, worldwide

 

 

Source of funding and conflicts of interest:

None.

 

Inclusion criteria SR: studies reporting the diagnostic performance of at least 1 of

the US RSSs in thyroid nodules were included if meeting both

of the following criteria: (i) the diagnosis of benign nodules

was based either on histology or core-needle biopsy (CNB)

or cytology, and (ii) the diagnosis of malignant nodules was

not based on cytology only

 

 

Exclusion criteria SR:

Studies focusing on pediatric patients or specific subgroups of

thyroid nodules (ie, indeterminate), as well as studies using cytology

as the only reference standard for both malignant and

benign nodules

 

12 studies included

 

 

Important patient characteristics at baseline:

included studies had sample sizes ranges from 424 to 4696 thyroid nodules. 4378 malignant and 14 372 benign nodules

were included in the present review.

 

Prevalence ranges from 4% to 54%

 

 

N, mean age

n.a.

 

Sex:

n.a.

 

Groups comparable at baseline?

No, stratified analyses are performed

Describe intervention:

 

A: AACE

B: ATA

C: ACR-TIRADs, ATRA, K-TIRADs

D: AACE, ACR-TIRADs, ATRA, K-TIRADs

E: ACR-TIRADs, ATRA, K-TIRADs

F: AACE, ATA

G: all TIRADs

H: all test

I:ATA

J: ACR-TIRADs, ATA

K: EU-TIRADs

L : ACR-TIRADs

 

Describe control:

 

histology, cytology (FNA) all studies

End-point of follow-up:

 

N.a.

 

 

For how many participants were no complete outcome data available?

n.a. retrospective.

 

If data was missing, authors were contacted via email.

 

 

 

Outcome measure-1

Defined as ACR-TIRADs

 

Effect measure: sensitivity [95% CI]:

 

Grani,2019= 0.83 (0.67-0.94)

ha, 2018= 0.82 (0.76-0.86)

ha, 2018=0.75 (0.70-0.79)

middelton, 2018= 0.68 (0.63-0.73)

ruan, 2019=0.53 (0.48-0.58)

wu, 2019= 0.91 (0.88-0.94)

xu, 2018= 0.49 (0.46-0.52)

 

Effect measure: specificity [95% CI]:

 

Grani,2019= 0.56 (0.52-0.61)

ha, 2018= 0.69 (0.65-0.72)

ha, 2018= 0.67 (0.65-0.70)

middelton, 2018= 0.63 (0.51-0.55)

ruan, 2019= 0.77 (0.73-0.80)

wu, 2019= 0.49 (0.43-0.55)

xu, 2018= 0.71 (0.68-0.73)

 

 

 

 

 

 

 

 

Facultative:

 

Brief description of author’s conclusion

 

Personal remarks on study quality, conclusions, and other issues (potentially) relevant to the research question

 

Level of evidence: GRADE (per comparison and outcome measure) including reasons for down/upgrading

 

Sensitivity analyses (excluding small studies; excluding studies with short follow-up; excluding low quality studies; relevant subgroup-analyses); mention only analyses which are of potential importance to the research question

 

Heterogeneity: clinical and statistical heterogeneity; explained versus unexplained (subgroupanalysis)

 

Table of quality assessment for systematic reviews of RCTs and observational studies

Based on AMSTAR checklist (Shea et al.; 2007, BMC Methodol 7: 10; doi:10.1186/1471-2288-7-10) and PRISMA checklist (Moher et al 2009, PLoS Med 6: e1000097; doi:10.1371/journal.pmed1000097)

  1. Research question (PICO) and inclusion criteria should be appropriate and predefined
  2. Search period and strategy should be described; at least Medline searched; for pharmacological questions at least Medline + EMBASE searched
  3. Potentially relevant studies that are excluded at final selection (after reading the full text) should be referenced with reasons
  4. Characteristics of individual studies relevant to research question (PICO), including potential confounders, should be reported
  5. Results should be adequately controlled for potential confounders by multivariate analysis (not applicable for RCTs)
  6. Quality of individual studies should be assessed using a quality scoring tool or checklist (Jadad score, Newcastle-Ottawa scale, risk of bias table etc.)
  7. Clinical and statistical heterogeneity should be assessed; clinical: enough similarities in patient characteristics, intervention and definition of outcome measure to allow pooling? For pooled data: assessment of statistical heterogeneity using appropriate statistical tests (e.g. Chi-square, I2)?
  8. An assessment of publication bias should include a combination of graphical aids (e.g., funnel plot, other available tests) and/or statistical tests (e.g., Egger regression test, Hedges-Olken). Note: If no test values or funnel plot included, score “no”. Score “yes” if mentions that publication bias could not be assessed because there were fewer than 10 included studies.
  9. Sources of support (including commercial co-authorship) should be reported in both the systematic review and the included studies. Note: To get a “yes,” source of funding or support must be indicated for the systematic review AND for each of the included studies.

 

Study

 

 

 

 

First author, year

Appropriate and clearly focused question?1

 

 

 

Yes/no/unclear

Comprehensive and systematic literature search?2

 

 

 

Yes/no/unclear

Description of included and excluded studies?3

 

 

 

Yes/no/unclear

Description of relevant characteristics of included studies?4

 

 

Yes/no/unclear

Appropriate adjustment for potential confounders in observational studies?5

 

 

Yes/no/unclear/notapplicable

Assessment of scientific quality of included studies?6

 

 

Yes/no/unclear

Enough similarities between studies to make combining them reasonable?7

 

Yes/no/unclear

Potential risk of publication bias taken into account?8

 

 

Yes/no/unclear

Potential conflicts of interest reported?9

 

 

 

Yes/no/unclear

Castellana, 2020

Yes, The systematic review was registered on PROSPERO (registration

number CRD42019131771) and performed in accordance

with the Preferred Reporting Items for a Systematic

Review and Meta-analysis of Diagnostic Test Accuracy Studies

(PRISMA-DTA)

Yes, PubMed,

CENTRAL, Scopus, and Web of Science were searched.

Yes, this is described in figure 1.

Yes, this is described in table 1.

Yes, stratified analyses were performed per diagnostic test.

Yes, the Quality

Assessment of Diagnostic Accuracy Studies (QUADAS-2) tool

Yes, stratified analyses were performed

No, Publication bias was not evaluated, because of uncertainty about the determinants

for diagnostic accuracy studies and the inadequacy of tests for

detecting funnel plot asymmetry

Yes, there are no conflicts of interest.

 

Evidence table for diagnostic test accuracy studies

Study reference

Study characteristics

Patient characteristics

 

Index test

(test of interest)

Reference test

 

Follow-up

Outcome measures and effect size

Comments

Gacayan, 2021

Type of study[1]:

cross-sectional criterion-referenced study

 

Setting and country:

Hospital, Philippines

 

Funding and conflicts of interest:

None.

Inclusion criteria:

Filipino patients with thyroid nodules

aging 18 to 80 years old who underwent ultrasound

guided fine needle aspiration biopsy of thyroid nodules at

the Thyroid Clinic of The Medical City from July 2019 to

December 2019.

 

Exclusion criteria:

the cytology report

of the FNAB is inadequate or non-diagnostic.

 

N=121 (197 nodules)

 

Prevalence: 81%

 

Median age ± range: 53 (21-77)

 

Sex: 15% M / 85% F

 

Other important characteristics:

-

 

Describe index test:

ACR- TIRADs

 

Cut-off point(s):

Appendix A

 

Comparator test[2]:

fine needle aspiration

biopsy (FNAB)

 

Cut-off point(s):

Bethesda Classification

Describe reference test[3]:

Histology

 

Cut-off point(s):
Papillary thyroid carcinoma

Multinodular colloid goiter

Follicular thyroid carcinoma

 

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

n.a. retrospective

 

Reasons for incomplete outcome data described?

n.a. retrospective

 

Outcome measures and effect size (include 95%CI and p-value if available)4:

 

TIRADs ACR

Sensitivity: 100% (80.5 to 100)

Specificity: 52.2% (44.7 to 59.7)

PPV: 16.5% (14.5 to 18.7)

NPV: 100%

 

 

 

No information about histology/pathology of all patients > overestimation

 

Relative small sample size.

Paker, 2021

Type of study:

Retrospective cohort study

 

Setting and country:

Hospital,

Israel

 

Funding and conflicts of interest:

Not mentioned

Inclusion criteria:

medical records of patients who had undergone partial (lobectomy)

or subtotal or total thyroidectomy between January

2012 and March 2019. Notably, 2012 was the first year that

physicians in the department began practicing FNA guided

by ultrasound of thyroid nodules.

 

Exclusion criteria:

thyroidectomies performed due to non-thyroid

disease and non-differentiated thyroid lesions (lymphoma, anaplastic,

amyloidosis).

 

N=305 (338 nodules)

*final cohort

N=216 (238 nodules)

Prevalence: 48.3%

 

Mean age ± SD: 50.0 ± 12.4

 

Sex: 80 % F

 

Other important characteristics:

-

 

Describe index test:

TIRADS

 

Cut-off point(s):

See article.

 

Comparator test:

FNAB

 

Cut-off point(s):

 See article

Describe reference test:

Histology after surgery.

 

Cut-off point(s):

n.a.

 

Time between the index test en reference test:

N.a.

 

For how many participants were no complete outcome data available?

N.a. retrospective

Reasons for incomplete outcome data described?
89 patients were excluded from the analysis for the following reasons: no preoperative ultrasound was performed at our center (n=42); no nodules were observed (Grave's disease, enlarged thyroid lobe, completion thyroidectomy)

(n=19); there were more than four nodules (Hashimoto

thyroiditis, multinodular goiter) (n=18); thyroidectomy was performed due to non-thyroid disease (such as parathyroidectomy) (n=7); non-differentiated thyroid lesions presented (lymphoma,

anaplastic, amyloidosis) (n=3).

Outcome measures and effect size (include 95%CI and p-value if available):

 

TIRADs ACR

Sensitivity: 0.843

Specificity 0.536

PPV: 0.629

NPV: 0.785

 

 

 

No information about histology/pathology of all patients > overestimation

 

Relative small sample size.

Seminati, 2021

Type of study:

Prospective cohort study

 

Setting and country:

Hospital, Italy

 

Funding and conflicts of interest:

This work was funded by the grant Ricerca Finalizzata 2019-GR-2019-12368592.

Inclusion criteria:

patients who underwent 493 USguided

FNA from January to June 2019 at the interventional radiology clinic, ASST Monza,

Italy, during an Italian Association for Research on Cancer (AIRC)-granted project for the

diagnosis of thyroid carcinoma [8]. All nodules were subjected to FNA, regardless of their

ACR/EU-TIRADS scores, after an endocrinological clinical indication

 

Exclusion criteria:

n.a.

 

N= 448 (480 nodules)

 

Prevalence: 87.1%

 

Mean age ± SD:

Not mentioned

 

Sex: % M / % F

Not mentioned

 

Other important characteristics:

-

Describe index test:

TIRADS

 

Cut-off point(s):

See article.

 

Comparator test:

FNAB

 

Cut-off point(s):

 See article

Describe reference test:

Histology after surgery.

 

Cut-off point(s):

n.a.

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

N (%)

n.a.

 

Reasons for incomplete outcome data described?

Na.

 

Outcome measures and effect size (include 95%CI and p-value if available):

 

TIRADs ACR

Sensitivity: 67.6% (49.5 to 82.6)

Specificity: 57.2% (52.0 to 62.3)

PPV: 12.8% (8.3 to 18.6)

NPV: 95.0% (91.3 to 97.5)

 

 

Histology was available in 49 resected nodules.

 

The ROM was estimated according to histological evaluation or

US follow-up examination.

McClean, 2021

Type of study:

Retrospectively

 

Setting and country:

Hospital, UK

 

Funding and conflicts of interest:
none.

Inclusion criteria:

patients were selected for surgery based on clinical

assessment and FNA result. From 2014, patients were selected for

surgery according to BTA guidelines.

 

Exclusion criteria:
Patients who underwent FNA

and surgery without US assessment were not included in the study.

US assessments performed outside of our institution and where the

reports were not available were excluded from the study.

 

N= 296 (308 nodules)

 

Prevalence: 43.8%

 

Mean age: 49

 

Sex: 77.3% M

 

Other important characteristics:

-

Describe index test:

ACR TIRADs

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article

Describe reference test:

Histology

 

Cut-off point(s):

N.a.

 

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

N (%)

 

N.a. retrospective

 

Reasons for incomplete outcome data described?
N.a. retrospective

 

Outcome measures and effect size (include 95%CI and p-value if available):

 

ACR TIRADs

Sensi: 73.3% (65 to 80.6)

Speci: 64.2% (56.5 to 71.3)

Ppv: 61.5% (53.5 to 69)

Npv: 75.5% (67.7 to 82.2)

Data collection was

performed by one author, who was blinded to the final histology of

the nodule.

Sparano, 2021

Type of study:

Retrospective cohort

 

Setting and country:

tertiary Endocrinology

outpatient clinics, Italy

 

Funding and conflicts of interest:
none.

Inclusion criteria:

all consecutive adult subjects (i.e., age > 18 years) for whom

fine-needle aspiration (FNA) was indicated, and who provided

a written informed consent.

 

Exclusion criteria:

Non-diagnostic cytology

and nodules with clinical or incomplete US assessments

were not included in this study. In addition, nodules with a

size lower than 10 mm were also excluded from the analysis,

considering that most of the available scores do not routinely

recommend FNA for sub-centimeter thyroid nodules

 

N= 6401 (6474 nodules)

 

Prevalence: 5%

 

Mean age ± SD: not mentioned

 

Sex: 78% F

 

Other important characteristics:

 

Describe index test:

TIRADs ACR

 

Cut-off point(s):

See supplementary files.

 

Comparator test:

FNAB

 

Cut-off point(s):

 See supplementary files

Describe reference test:

Histology

 

 

Cut-off point(s):

N.a.

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

N (%)

n.a.

 

Reasons for incomplete outcome data described?

Na.

 

Outcome measures and effect size (include 95%CI and p-value if available):

 

TIRADs ACR

Sensitivity: 72.7%

Specificity: 31.7%

PPV: 8.9% (7.9 to 9.9)

NPV: 93.0% (91.7 to 94.3)

 

* spared FNA 1324 (20.6%)

Retrospective design.

Watkins, 2021

Type of study:

Retrospective cohort study.

 

Setting and country:

Hospital, UK

 

Funding and conflicts of interest:

Not mentioned.

Inclusion criteria:

patients in a large health board who had undergone pre-operative

thyroid ultrasound with eutopic thyroid histology

results available between January 1, 2017 and December 31,

2017,

 

Exclusion criteria:

due to ultrasound demonstrating diffuse thyroid disease such as

thyroiditis or diffuse multinodular goitre rather than a discrete

nodule (14) or if it was not considered possible to reliably

correlate imaging and histopathology, due to, e.g. suboptimal

image quality (11).

 

N= 212 (215 nodules)

 

Prevalence:35.3%

 

Mean age ± SD: 58.5 (29)

 

Sex: 76% F

 

Other important characteristics:
-

 

Describe index test:

ACR tirads

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article.

Describe reference test:

Histology

 

 

Cut-off point(s):
n.a.

 

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

N (%)

n.a. retrospective

Reasons for incomplete outcome data described?

N.a. retrospective

Outcome measures and effect size (include 95%CI and p-value if available):

 

ACR TIRADs

Seni: 95.24% (86.71 to 99.01)

Spec 40.57 (31.13 to 50.54)
PPV 48.78 (44.63 to 52.94)
NPV 93.48 (82.27 to 97.79)

 

 

Histology was available in resected nodules.

 

Relative small sample size.

Pandya, 2019

Type of study:

Retrospective cohort study

 

Setting and country:

Hospital, USA

 

Funding and conflicts of interest: none.

Inclusion criteria:

All subjects undergoing first-time FNA of a thyroid nodule in

the radiology department at our institution between October

2009 and February 2016 were identified via the electronic

medical record system and Department of Radiology records.

From this group, 28 patients had undergone repeat procedural

visits for FNA of a thyroid nodule, and thus only the most recent

procedure was included

 

Exclusion criteria:

For patients who underwent FNA of

several nodules in one procedural visit, only the first nodule

sampled was included in the data. There were no other exclusion criteria.

 

N= 1947 nodules

 

Prevalence: 6.2%

 

Mean age ± SD: 56 (15)

 

Sex: 76 % F

 

Other important characteristics:

-

 

Describe index test:

ACR tirads

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article.

Describe reference test:

Histology

 

 

Cut-off point(s):
n.a.

 

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

N (%)

n.a. retrospective cohort study

 

Reasons for incomplete outcome data described?

Outcome measures and effect size (include 95%CI and p-value if available):

 

ACR TIRADs

Seni: 75%
spec 41.6%
PPV 11.1 %
NPV: 94.5%

 

 

Ahmadi, 2018

Type of study:

Retrospective cohort study

 

Setting and country:

Hospital, USA

 

Funding and conflicts of interest:

Not mentioned.

Inclusion criteria:

thyroid ultrasound imaging from 213 adult patients (323 nodules) with thyroid nodules >5 mm who underwent thyroid surgery at a tertiary care hospital

 

Exclusion criteria:

more than four nodules, no discrete thyroid nodule, pre-op ultrasound imaging not available, and poor quality ultrasound imaging.

 

N= 213 (323 noduli(

 

Prevalence: 27.2%

 

Median; 55 years.

 

Sex: 76 % F

 

Other important characteristics:

-

 

Describe index test:

ACR tirads

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article.

Describe reference test:

Histology

 

 

Cut-off point(s):
n.a.

 

 

Time between the index test en reference test:

n.a.

 

For how many participants were no complete outcome data available?

N (%)

n.a. retrospective cohort study

 

Reasons for incomplete outcome data described?

Outcome measures and effect size (include 95%CI and p-value if available):

 

ACR TIRADs

Seni: 78.4% (69.8-87.0)
spec 73.2% (67.5-78.9)
PPV 53.3% (43.7-60.8)
NPV: 90.1% (85.8 -94.3)

 

All ultrasound features were evaluated retrospectively at a single institution, where the incidence of malignancy was relatively high.

 

final histopathology to confirm malignancy.

De Melo, 2022

Type of study:

Retrospective cohort study

 

Setting and country:

Cancer Center, Brazil

 

Funding and conflicts of interest:

none

Inclusion criteria:

Patients who have undergo FNAB in centre.

 

Exclusion criteria:

US images were not available or did not allow a proper retrospective classification.

 

N= 803 (1112 noduli)

 

Prevalence: ?  in sub population 65.8%

 

Mean age ± SD: 52 years

 

Sex: 80 % F

 

Other important characteristics:

-

 

Describe index test:

ACR tirads

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article.

Describe reference test:

Histology

 

 

Cut-off point(s):
n.a.

 

 

Time between the index test en reference test:

Yes

 

For how many participants were no complete outcome data available?

N (%)

n.a. retrospective study

 

Reasons for incomplete outcome data described?

Outcome measures and effect size (include 95%CI and p-value if available):

 

Sensi: 40% (33 to 47)

Speci:77% (67 to 87)

PPV: 82% (74 to 90)

NPV:32% (44 to 56)

Diagnostic values based on patients who underwent surgery; n = 117 (237 noduli)

 

Araruna Bezerra de Melo R, Menis F, Calsavara VF, Stefanini FS, Novaes T, Saieg M. The impact of the use of the ACR-TIRADS as a screening tool for thyroid nodules in a cancer center. Diagn Cytopathol. 2022 Jan;50(1):18-23. doi: 10.1002/dc.24904. Epub 2021 Nov 19. PMID: 34797612.

 

 

 

 

Soylemez, 2021

Type of study:

Prospective study

 

Setting and country: Hospital, Turkey

 

Funding and conflicts of interest:

None.

Inclusion criteria:

US was performed on all patients

referred to our Interventional Radiology Department for

thyroid biopsy. The Vision Preirus system (Hitachi

Medical Corp.) and Aplio 500 device (Toshiba Medical

Systems, Co., Ltd.) were used for all biopsy and US

procedures.

 

Exclusion criteria:

Patients aged <18 years were not

included in the study. Nodules with non-diagnostic

(Bethesda 1) cytology results were also excluded.

 

N= 1010 nodules

 

Prevalence:7.8% (Based on 939 noduli)

 

Mean age ± SD: 52 (13)

 

Sex: 82 % F

 

Other important characteristics:

-

 

Describe index test:

ACR tirads

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article.

Describe reference test:

Histology (of 68 patients who underwent surgery)

 

 

Cut-off point(s):
n.a.

 

 

Time between the index test en reference test:

yes

 

For how many participants were no complete outcome data available?

N 71 noduli (7%)

 

Reasons for incomplete outcome data described?

Not descripted

Outcome measures and effect size (include 95%CI and p-value if available):

 

All

sensi

0,945         0,865-0,984

speci

0,457         0,423-0,491

 

Malignancy

Sensi

0,947         0,822-0,994

speci

0,8             0,614-0,923

 

1-3 cm noduli

sensi

0,913         0,792-0,975

speci

0,457         0,423-0,491

Histology was available in 68 resected nodules.

 

Barbosa, 2019

Type of study:

Retrospective cohort study

 

Setting and country:

Hospital, Brazil

 

Funding and conflicts of interest:

None.

Inclusion criteria:

(a) indeterminate cytology; (b) a

thyroid US image and (c) surgical resection with a histopathological

result matching with the nodule’s location and

size analyzed on US-FNAC.

 

Exclusion criteria:

lack or

absence of information on the US, FNAC or histology.

 

N=139 (140 noduli)

 

Prevalence: 47%

 

Mean age ± SD: 49 ± 13

 

Sex: 85 % F

 

Other important characteristics:

-

 

Describe index test:

ACR tirads

 

Cut-off point(s):

See article

 

Comparator test:

FNA

 

Cut-off point(s):

 See article.

Describe reference test:

Histology (of 68 patients who underwent surgery)

 

 

Cut-off point(s):
n.a.

 

 

Time between the index test en reference test:

n.a. retrospective

 

For how many participants were no complete outcome data available?

N (%)

 

n.a. retrospective

 

Reasons for incomplete outcome data described?

Outcome measures and effect size (include 95%CI and p-value if available):

 

TIRADs

 

Sensi: 69.7%(57 to 80)

Speci: 81.1% (70 to89)

PPV: 76.7%(67 to 84)

NPV: 75% (67 to 81)

 

 

Risk of bias assessment diagnostic accuracy studies (QUADAS II, 2011)

Study reference

Patient selection

 

 

Index test

Reference standard

Flow and timing

Comments with respect to applicability

Gacayan, 2021

Was a consecutive or random sample of patients enrolled?

Yes, all patients who were undergoing ultrasound guided

FNA were asked to participate in the study with

a signed informed consent.

 

Was a case-control design avoided?

Yes, cross-sectional criterion

 

Did the study avoid inappropriate exclusions?

Yes, if the cytology report

of the FNAB is inadequate or non-diagnostic.

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, first TIRADs

 

If a threshold was used, was it pre-specified?

Yes, appendix A

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, histology/ FNAB

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Unclear

 

Did patients receive the same reference standard?

No, not all patients received histology

 

Were all patients included in the analysis?

Yes

Are there concerns that the included patients do not match the review question?

No, all patients with suspected DTC.

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No, index test was performed at first.

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Unclear, not all patients received this test.

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: UNCLEAR

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: HIGH

 

Paker, 2021

Was a consecutive or random sample of patients enrolled?

Yes, from database.

 

Was a case-control design avoided?

Yes, retrospective cohort study.

 

Did the study avoid inappropriate exclusions?

Yes, thyroidectomies performed due to non-thyroid

disease and non-differentiated thyroid lesions (lymphoma, anaplastic,

amyloidosis).

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, blind to FNA

 

If a threshold was used, was it pre-specified?

Unclear, not in detail.

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, histology/ FNAB

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

unclear

 

Did patients receive the same reference standard?

No, not all patients received histology

 

Were all patients included in the analysis?

Yes

Are there concerns that the included patients do not match the review question?

No, all patients with suspected DTC.

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Unclear, not all patients received this test.

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: HIGH

 

Seminati, 2021

Was a consecutive or random sample of patients enrolled?

Yes, patients who underwent 493 USguided FNA from January to June 2019 at the interventional radiology clinic, ASST Monza, Italy, during an Italian Association for Research on Cancer (AIRC)-granted project for the diagnosis of thyroid carcinoma

 

Was a case-control design avoided?

Yes, data prospectively collected.

 

Did the study avoid inappropriate exclusions?

Unclear, exclusion criteria not mentioned.

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Unclear

 

If a threshold was used, was it pre-specified?

Unclear, not in deatail

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, histology/ FNAB

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes,

 

Did all patients receive a reference standard?

Unclear

 

Did patients receive the same reference standard?

No, not all patients received histology

 

Were all patients included in the analysis?

Yes,

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Yes

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: UNCLEAR

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: HIGH

 

Sparano, 2021

Was a consecutive or random sample of patients enrolled?

Yes, all consecutive adult subjects (i.e., age > 18 years) for whom

fine-needle aspiration (FNA) was indicated, and who provided

a written informed consent.

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes, Non-diagnostic cytology

and nodules with clinical or incomplete US assessments

were not included in this study. In addition, nodules with a

size lower than 10 mm were also excluded from the analysis,

considering that most of the available scores do not routinely

recommend FNA for sub-centimeter thyroid nodules.

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, blinded

 

If a threshold was used, was it pre-specified?

Yes, see article

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, histology/ FNAB

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Unclear

 

Did patients receive the same reference standard?

No, not all patients received histology

 

Were all patients included in the analysis?

Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Yes

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: HIGH

 

McClean, 2021

Was a consecutive or random sample of patients enrolled?

Yes, patients were selected for surgery based on clinical

assessment and FNA result.

 

Was a case-control design avoided?

Yes, retrospective cohort.

 

Did the study avoid inappropriate exclusions?

Yes, Patients who underwent FNA

and surgery without US assessment were not included in the study.

US assessments performed outside of our institution and where the

reports were not available were excluded from the study.

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, blinded

 

If a threshold was used, was it pre-specified?

Yes, see article

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, histology

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes, blinded

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Watkins, 2021

Was a consecutive or random sample of patients enrolled?

Yes, patients in a large health board who had undergone pre-operative

thyroid ultrasound with eutopic thyroid histology

results

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes, patients were excluded

due to ultrasound demonstrating diffuse thyroid disease such as

thyroiditis or diffuse multinodular goitre rather than a discrete

nodule (14) or if it was not considered possible to reliably

correlate imaging and histopathology, due to, e.g. suboptimal

image quality (11)

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

Yes, see article

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, histology

 

Were the reference standard results interpreted without knowledge of the results of the index test?

No,

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

no

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW

 

Ahmadi, 2019

Was a consecutive or random sample of patients enrolled?

Yes, retrospectively from database.

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

No, reference outcome was known

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

Was there an appropriate interval between index test(s) and reference standard?

No, first reference, later index

 

Did all patients receive a reference standard?

Yes

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

Yes

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: High

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: High

 

Pandya, 219

Was a consecutive or random sample of patients enrolled?

Yes, retrospectively from database.

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes, reviewers were blinded

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes, reviewers were blinded

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

Unclear

 

Did patients receive the same reference standard?

Unclear.

 

Were all patients included in the analysis?

Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Unclear

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: UNCLEAR

 

De Melo, 2022

Was a consecutive or random sample of patients enrolled?

Unclear, only diagnostic values of a selection

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

No

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

Yes

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

No, only selection

 

Did patients receive the same reference standard?

Yes

 

Were all patients included in the analysis?

Yes

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: HIGH

 

Soylemez, 2021

Was a consecutive or random sample of patients enrolled?

Yes

 

Was a case-control design avoided?

Yes

 

Did the study avoid inappropriate exclusions?

Yes

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes

 

If a threshold was used, was it pre-specified?

Yes

 

 

Is the reference standard likely to correctly classify the target condition?

Yes

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes

 

Did all patients receive a reference standard?

No

 

Did patients receive the same reference standard?

Unclear

 

Were all patients included in the analysis?

Unclear

 

Are there concerns that the included patients do not match the review question?

No

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

No

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

No

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: UNCLEAR

 

 

Was a consecutive or random sample of patients enrolled?

Yes/No/Unclear

 

Was a case-control design avoided?

Yes/No/Unclear

 

Did the study avoid inappropriate exclusions?

Yes/No/Unclear

 

 

Were the index test results interpreted without knowledge of the results of the reference standard?

Yes/No/Unclear

 

If a threshold was used, was it pre-specified?

Yes/No/Unclear

 

 

 

Is the reference standard likely to correctly classify the target condition?

Yes/No/Unclear

 

Were the reference standard results interpreted without knowledge of the results of the index test?

Yes/No/Unclear

 

 

 

Was there an appropriate interval between index test(s) and reference standard?

Yes/No/Unclear

 

Did all patients receive a reference standard?

Yes/No/Unclear

 

Did patients receive the same reference standard?

Yes/No/Unclear

 

Were all patients included in the analysis?

Yes/No/Unclear

 

Are there concerns that the included patients do not match the review question?

Yes/No/Unclear

 

Are there concerns that the index test, its conduct, or interpretation differ from the review question?

Yes/No/Unclear

 

Are there concerns that the target condition as defined by the reference standard does not match the review question?

Yes/No/Unclear

 

 

CONCLUSION:

Could the selection of patients have introduced bias?

 

 

RISK: LOW/HIGH/UNCLEAR

CONCLUSION:

Could the conduct or interpretation of the index test have introduced bias?

 

RISK: LOW /HIGH/UNCLEAR

 

CONCLUSION:

Could the reference standard, its conduct, or its interpretation have introduced bias?

 

RISK: LOW /HIGH/UNCLEAR

CONCLUSION

Could the patient flow have introduced bias?

 

 

RISK: LOW /HIGH/UNCLEAR

 

 

Judgments on risk of bias are dependent on the research question: some items are more likely to introduce bias than others, and may be given more weight in the final conclusion on the overall risk of bias per domain:

Patient selection:

  • Consecutive or random sample has a low risk to introduce bias.
  • A case control design is very likely to overestimate accuracy and thus introduce bias.
  • Inappropriate exclusion is likely to introduce bias.

Index test:

  • This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.
  •  Selecting the test threshold to optimise sensitivity and/or specificity may lead to overoptimistic estimates of test performance and introduce bias.

Reference standard:

  • When the reference standard is not 100% sensitive and 100% specific, disagreements between the index test and reference standard may be incorrect, which increases the risk of bias.
  • This item is similar to “blinding” in intervention studies. The potential for bias is related to the subjectivity of index test interpretation and the order of testing.

Flow and timing:

  • If there is a delay or if treatment is started between index test and reference standard, misclassification may occur due to recovery or deterioration of the condition, which increases the risk of bias.
  • If the results of the index test influence the decision on whether to perform the reference standard or which reference standard is used, estimated diagnostic accuracy may be biased.
  • All patients who were recruited into the study should be included in the analysis, if not, the risk of bias is increased.

Judgement on applicability:

Patient selection: there may be concerns regarding applicability if patients included in the study differ from those targeted by the review question, in terms of severity of the target condition, demographic features, presence of differential diagnosis or co-morbidity, setting of the study and previous testing protocols.

Index test: if index tests methods differ from those specified in the review question there may be concerns regarding applicability.

Reference standard: the reference standard may be free of bias but the target condition that it defines may differ from the target condition specified in the review question.

 

Exclusietabel

Referentie

Reden voor exclusie

Jabar ASS, Koteshwara P, Andrade J. Diagnostic reliability of the Thyroid Imaging Reporting and Data System (TI-RADS) in routine practice. Pol J Radiol. 2019 Jun 10;84:e274-e280. doi: 10.5114/pjr.2019.86823. PMID: 31482001; PMCID: PMC6717936.

No histology

Basha MAA, Alnaggar AA, Refaat R, El-Maghraby AM, Refaat MM, Abd Elhamed ME, Abdalla AAEM, Aly SA, Hanafy AS, Mohamed AEM, Afifi AHM, Harb O. The validity and reproducibility of the thyroid imaging reporting and data system (TI-RADS) in categorization of thyroid nodules: Multicentre prospective study. Eur J Radiol. 2019 Aug;117:184-192. doi: 10.1016/j.ejrad.2019.06.015. Epub 2019 Jun 18. PMID: 31307646.

No histology

Jabar ASS, Koteshwara P, Andrade J. Diagnostic reliability of the Thyroid Imaging Reporting and Data System (TI-RADS) in routine practice. Pol J Radiol. 2019 Jun 10;84:e274-e280. doi: 10.5114/pjr.2019.86823. PMID: 31482001; PMCID: PMC6717936.

Not according to PICO

Thai JN, Peti S, Hayim M, Sharma R, Koshy J, Demissie S, Sarkany D, Raden M, Scheiner J, Lin C. Substantial interreader agreement for biopsy with reduction in biopsy rate: A multireader diagnostic performance study of ACR TI-RADS. Clin Imaging. 2022 Apr;84:93-97. doi: 10.1016/j.clinimag.2022.02.002. Epub 2022 Feb 10. PMID: 35158125.

Not according to PICO

Grani G, Brenta G, Trimboli P, Falcone R, Ramundo V, Maranghi M, Lucia P, Filetti S, Durante C. Sonographic Risk Stratification Systems for Thyroid Nodules as Rule-Out Tests in Older Adults. Cancers (Basel). 2020 Aug 30;12(9):2458. doi: 10.3390/cancers12092458. PMID: 32872622; PMCID: PMC7564359.

not according to PICO

Grimmichová T, Pačesová P, Srbová L, Vrbíková J, Havrdová T, Hill M. The gold standard of thyroid nodule examination? Prospective validation of the ACR TI-RADS in a secondary referral center. Physiol Res. 2020 Sep 30;69(Suppl 2):S329-S337. doi: 10.33549/physiolres.934515. PMID: 33094631; PMCID: PMC8603730.

not according to PICO

Huang BL, Ebner SA, Makkar JS, Bentley-Hibbert S, McConnell RJ, Lee JA, Hecht EM, Kuo JH. A Multidisciplinary Head-to-Head Comparison of American College of Radiology Thyroid Imaging and Reporting Data System and American Thyroid Association Ultrasound Risk Stratification Systems. Oncologist. 2020 May;25(5):398-403. doi: 10.1634/theoncologist.2019-0362. Epub 2019 Nov 19. PMID: 31740569; PMCID: PMC7216459.

no references standard

Koc AM, Adıbelli ZH, Erkul Z, Sahin Y, Dilek I. Comparison of diagnostic accuracy of ACR-TIRADS, American Thyroid Association (ATA), and EU-TIRADS guidelines in detecting thyroid malignancy. Eur J Radiol. 2020 Dec;133:109390. doi: 10.1016/j.ejrad.2020.109390. Epub 2020 Nov 2. PMID: 33181485.

no references standard

Chen X, Kutaiba N, Pearce S, Digby S, Van Gelderen D. Application of Thyroid Imaging Reporting and Data System (TIRADS) guidelines to thyroid nodules with cytopathological correlation and impact on healthcare costs. Intern Med J. 2022 Aug;52(8):1366-1373. doi: 10.1111/imj.15343. Epub 2022 Jun 1. PMID: 33942959.

histology not reference

Freire da Silva P, Corrêa de Araújo Arcoverde L, de Siqueira Barbosa Arcoverde L, Tenório Wanderley Fernandes Lima G, Paes de Medeiros Lima T, José do Amaral F, Bandeira F. Agreement Between American and European Thyroid Imaging, Reporting, and Data System (TIRADS) in the Diagnosis of 473 Thyroid Nodules From a Single Center in Brazil. Endocr Pract. 2021 Nov;27(11):1108-1113. doi: 10.1016/j.eprac.2021.06.008. Epub 2021 Jun 18. PMID: 34153510.

O not inline PICO

Hoang JK, Middleton WD, Langer JE, Schmidt K, Gillis LB, Nair SS, Watts JA, Snyder RW 3rd, Khot R, Rawal U, Tessler FN. Comparison of Thyroid Risk Categorization Systems and Fine-Needle Aspiration Recommendations in a Multi-Institutional Thyroid Ultrasound Registry. J Am Coll Radiol. 2021 Dec;18(12):1605-1613. doi: 10.1016/j.jacr.2021.07.019. Epub 2021 Aug 20. PMID: 34419476.

Histology not reference

Huh S, Yoon JH, Lee HS, Moon HJ, Park VY, Kwak JY. Comparison of diagnostic performance of the ACR and Kwak TIRADS applying the ACR TIRADS' size thresholds for FNA. Eur Radiol. 2021 Jul;31(7):5243-5250. doi: 10.1007/s00330-020-07591-1. Epub 2021 Jan 15. PMID: 33449191.

Not according to PICO

Merhav G, Zolotov S, Mahagneh A, Malchin L, Mekel M, Beck-Razi N. Validation of TIRADS ACR Risk Assessment of Thyroid Nodules in Comparison to the ATA Guidelines. J Clin Imaging Sci. 2021 Jul 10;11:37. doi: 10.25259/JCIS_99_2021. PMID: 34345527; PMCID: PMC8326070.

histology not reference

Liu J, Guo Y, Xiao J, Chen L, Liang Z. Comparison of the Efficacy and Safety of the American Thyroid Association Guidelines and American College of Radiology TI-RADS. Endocr Pract. 2021 Jul;27(7):661-667. doi: 10.1016/j.eprac.2020.11.013. Epub 2020 Dec 15. PMID: 34250908.

histology not reference

 

 

Autorisatiedatum en geldigheid

Laatst beoordeeld  : 30-09-2024

Laatst geautoriseerd  : 30-09-2024

Geplande herbeoordeling  : 30-09-2026

Initiatief en autorisatie

Initiatief:
  • Nederlandse Internisten Vereniging
Geautoriseerd door:
  • Nederlandse Internisten Vereniging
  • Nederlandse Vereniging voor Heelkunde
  • Nederlandse Vereniging voor Nucleaire geneeskunde
  • Nederlandse Vereniging voor Pathologie
  • Nederlandse Vereniging voor Radiologie
  • Nederlandse Vereniging voor Radiotherapie en Oncologie
  • Nederlandse Vereniging voor Klinische Chemie en Laboratoriumgeneeskunde
  • Schildklier Organisatie Nederland

Algemene gegevens

De ontwikkeling/herziening van deze richtlijnmodule werd ondersteund door het Kennisinstituut van de Federatie Medisch Specialisten (www.demedischspecialist.nl/kennisinstituut) en werd gefinancierd uit de Kwaliteitsgelden Medisch Specialisten (SKMS). De financier heeft geen enkele invloed gehad op de inhoud van de richtlijnmodule.

Samenstelling werkgroep

Voor het ontwikkelen van de richtlijnmodule is in 2021 een multidisciplinaire werkgroep ingesteld, bestaande uit vertegenwoordigers van alle relevante specialismen (zie hiervoor de Samenstelling van de werkgroep) die betrokken zijn bij de zorg voor patiënten met (verdenking op) schildkliercarcinoom).

 

Expertisegroep

  • Prof. dr. R.T. Netea-Maier (voorzitter), internist-endocrinoloog, werkzaam in Radboud Universitair Medische Centrum, NIV.
  • Prof dr. W.E. Visser, internist-endocrinoloog, werkzaam in Erasmus Universitair Medisch Centrum, NIV.
  • Dr. A.N.A. van der Horst-van der Schrivers, internist-endocrinoloog/specialist ouderengeneeskunde i.o., werkzaam bij SOON, Maastricht University.
  • Dr. G.S. Bleumink, internist-endocrinoloog, werkzaam in Rijnstate, NIV.
  • Dr. B. Havekes, internist-endocrinoloog, werkzaam in Maastricht Universitair Medisch Centrum Plus, NIV.
  • Drs. K.E. Broekman, internist-oncoloog, werkzaam in Universitair Medisch Centrum Groningen, NIV.
  • Dr. W. Zandee, internist-endocrinoloog, werkzaam in Universitair Medisch Centrum Groningen, NIV.
  • Dr. M. Snel, internist-endocrinoloog, werkzaam in Leids Universitair Medisch Centrum, NIV.
  • Dr. K.M.A. Dreijerink, internist-endocrinoloog, werkzaam in Amsterdam Universitair Medische Centra, NIV.
  • Dr. J.P. de Boer, internist-oncoloog, werkzaam in Antoni van Leeuwenhoek Ziekenhuis, NIV.
  • Dr. G.A.P. Nieuwenhuijzen, chirurg, werkzaam in Catharina Ziekenhuis, NVvH.
  • Dr. T.M. van Ginhoven, chirurg, werkzaam in Erasmus Medische Centrum, NVvH.
  • Prof dr. J. Morreau, patholoog, werkzaam in Leids Universitair Medisch Centrum, NVVP.
  • Dr. M. de Ridder, radiotherapeut, werkzaam in Universitair Medisch Centrum Utrecht, NVRO.
  • Drs. H. Ahmad, radioloog, werkzaam in Erasmus Medisch Centrum, NVvR.
  • Dr. ir. J.J.G. Hillebrand, klinische chemicus, werkzaam in Amsterdam Universitair Medisch Centrum, NVKC.
  • Prof. Dr. F.A. Verburg, nucleair geneeskundige, werkzaam in Erasmus Medisch Centrum, NVNG.
  • Dr. B. de Keizer, nucleair geneeskundige, werkzaam in Universitair Medisch Centrum Utrecht, NVNG.
  • Mw. M. Porrey, patiëntvertegenwoordiger, NFK/ Schildklierorganisatie Nederland.

Klankbordgroep

  • Mw. E. Schrama, patiëntvertegenwoordiger, Schildklier Organisatie Nederland.
  • Mw. C.C. van Zweeden- van Leeuwen, diëtist, Reinier de Graaf Ziekenhuis, Nederlandse Vereniging van Diëtisten.

Met ondersteuning van

  • Drs. L. Niesink-Boerboom, literatuurspecialist, Kennisinstituut van de Federatie Medisch Specialisten.
  • MSc. F.A. Pepping, junior adviseur, Kennisinstituut van de Federatie Medisch Specialisten (vanaf mei 2024).
  • Dr. J. Tra, senior adviseur, Kennisinstituut van de Federatie Medisch Specialisten.
  • Dr. M.M.A. Verhoeven, adviseur, Kennisinstituut van de Federatie Medisch Specialisten.

Belangenverklaringen

De Code ter voorkoming van oneigenlijke beïnvloeding door belangenverstrengeling is gevolgd. Alle werkgroepleden hebben schriftelijk verklaard of zij in de laatste drie jaar directe financiële belangen (betrekking bij een commercieel bedrijf, persoonlijke financiële belangen, onderzoek financiering) of indirecte belangen (persoonlijke relaties, reputatiemanagement) hebben gehad. Gedurende de ontwikkeling of herziening van een module worden wijzigingen in belangen aan de voorzitter doorgegeven. De belangenverklaring wordt opnieuw bevestigd tijdens de commentaarfase.

Een overzicht van de belangen van werkgroepleden en het oordeel over het omgaan met eventuele belangen vindt u in onderstaande tabel. De ondertekende belangenverklaringen zijn op te vragen bij het secretariaat van het Kennisinstituut van de Federatie Medisch Specialisten.

 

Expertiselid

Functie

Nevenfuncties

Gemelde belangen

Ondernomen actie

Prof. dr. R.T. Netea-Maier (voorzitter)

internist-endocrinoloog, werkzaam in Radboud Universitair Medische Centrum

"Bestuurlid Dutch Thyroid Cancer Group (vicevoorzitter) (onbetaald)

Bestuurlid Dutch Thyroid Research Foundation (penningmeester) (onbetaald)

Voorzitter Radboudumc Expertisecenter Schildkliercarcinoom en vertegenwoordiger van dit center in de ERN Rare Cancers en EndoERN (onbetaald).

Associate Editor European Journal Endocrinology (onbetaald)"

 

Geen deelname adviesraden vanaf de start van de ontwikkeling van de richtlijn (vanaf start raamwerk).

Dr. W.E. Visser

internist-endocrinoloog, werkzaam in Erasmus Universitair Medisch Centrum

-

-

Geen

Dr. A.N.A. van der Horst-van der Schrivers

Internist-endocrinoloog/specialist ouderengeneeskunde i.o,

-

-

Geen

Dr. G.S. Bleumink

internist-endocrinoloog, werkzaam in Rijnstate

-

-

Geen

Dr. B. Havekes

Internist-endocrinoloog, werkzaam in Universitair Medisch Centrum Maastricht

-

KWF subsidie E-Nose, hoofdaanvrager is Prof. dr. Nicole Bouvy (schildklierchirurg)

Geen

Drs. K.E. Broekman

Internist-oncoloog, werkzaam in Universitair Medisch Centrum Groningen

-

Lokale PI Libretto-531 studie

Exclusie participatie als trekker opstellen aanbeveling voor module 7.3

Dr. W. Zandee

internist-endocrinoloog, werkzaam in Universitair Medisch Centrum Groningen

-

Adviesraad Lilly (selpercatinib), uitbetaald aan onderzoeksrekening UMCG

Exclusie participatie als trekker opstellen aanbeveling voor module 7.3

Dr. M. Snel

Internist-endocrinoloog, werkzaam in Leids Universitair Medisch Centrum

Secretaris van de Dutch Thyroid Cancer Group

-

Geen

Dr. K.M.A. Dreijerink

internist-endocrinoloog, werkzaam in Amsterdam Universitair Medisch Centrum

-

Advisory Board, Lilly, betaald, mbt selpercatinib als behandeling bij gemetastaseerd gedifferentieerd en medullair schildkliercarcinoom

Exclusie participatie als trekker opstellen aanbeveling voor module 7.3

Dr.  J.P. de Boer,

Internist-oncoloog, werkzaam in Antoni van Leeuwenhoek Ziekenhuis

Advisory Board MSD Head and neck cancer

-

Geen

Dr. G.A.P. Nieuwenhuijzen,

Nieuwenhuijzen, chirurg, werkzaam in Catharina Ziekenhuis

-

-

Geen

Dr. T.M. van Ginhoven

chirurg, werkzaam in Erasmus Medische Centrum

- Voorzitter regionale SchildklierNetwerk (onbetaald)

- Secretaris Werkgroep Endocriene chirurgie NVVH (onbetaald)

- Penningmeester Dutch Thyroid Study Group (onbetaald)

- bestuurslid Dutch Hypo/hyper parathyroid Study Group (onbetaald)

-

Geen

Prof dr. J. Morreau

patholoog, werkzaam in Leids Universitair Medisch Centrum

Adviseur Genome Scan BV Leiden

-

Geen

Dr. M. de Ridder

radiotherapeut, werkzaam in Universitair Medisch Centrum Utrecht

Lid algemeen bestuur NWHHT - onbetaald

Lid bestuur UWHHT - onbetaald

-

Geen

Drs. H. Ahmad

radioloog, werkzaam in Erasmus Medisch Centrum

-

-

Geen

Dr. ir. J.J.G. Hillebrand

klinische chemicus, werkzaam in Amsterdam Universitair Medisch Centrum

trekker NVE commissie harmoniseren functietesten, tijdelijk betaald via SKMS gelden

-

Geen

Prof. Dr. F.A. Verburg

nucleair geneeskundige, werkzaam in Erasmus Medisch Centrum

 

Algemeen directeur Cyclotron Rotterdam B.V. ; gedetacheerd vanuit Erasmus MC; management; 0,2 FTE, betaald"

Adviseur: GE healthcare (honoraria betaald aan werkgever)

Spreker: AstraZenica (honoraria betaald aan werkgever), Sanofi (honoraria betaald aan werkgever.
Slechts onderzoek als projectleider aangegeven

KWF/Alpe d'Huzes: TFB PET/CT bij schildkliercarcinoom

FDA: radionuclide beeldvorming

Daniel den Hoedstichting

 

Dr. B. de Keizer

nucleair geneeskundige, werkzaam in Universitair Medisch Centrum Utrecht

-

- Sentinel node imaging bij mondholte ca

-FDG PET voor lymfeklierstadiering bij patiënten met klinisch negatieve hals

-TFB PET voor schildklierkanker beeldvorming KIKA

-MFBG PET-CT voor neuroblastoma beeldvorming HANART FONDS

-Al op FDG PET- CT voor voorspellen van respons op immuun therapie bij patiënten met gemetastaseerd niercelkanker

Geen

Mw. M. Porrey

patiëntvertegenwoordiger

-

-

Geen

Inbreng patiëntenperspectief

Er werd aandacht besteed aan het patiëntenperspectief door het uitnodigen van patiëntvertegenwoordigers voor de invitational conference en deelname in de expertisegroep. Het verslag van de invitational conference is besproken in de expertisegroep. De verkregen input is meegenomen bij het opstellen van de uitgangsvragen, de keuze voor de uitkomstmaten en bij het opstellen van de overwegingen. De conceptrichtlijn is tevens voor commentaar voorgelegd aan de patiëntenverenigingen en de eventueel aangeleverde commentaren zijn bekeken en verwerkt.

 

Wkkgz & Kwalitatieve raming van mogelijke substantiële financiële gevolgen

Kwalitatieve raming van mogelijke financiële gevolgen in het kader van de Wkkgz

Bij de richtlijn is conform de Wet kwaliteit, klachten en geschillen zorg (Wkkgz) een kwalitatieve raming uitgevoerd of de aanbevelingen mogelijk leiden tot substantiële financiële gevolgen. Bij het uitvoeren van deze beoordeling zijn richtlijnmodules op verschillende domeinen getoetst (zie het stroomschema op de Richtlijnendatabase).

 

Uit de kwalitatieve raming blijkt dat er waarschijnlijk geen substantiële financiële gevolgen zijn, zie onderstaande tabel.

 

Module

Uitkomst raming

Toelichting

Module diagnostiek – beeldvormende technieken

Geen substantiële financiële gevolgen

Hoewel uit de toetsing volgt dat de aanbeveling(en) breed toepasbaar zijn (5.000-40.000 patiënten), volgt ook uit de toetsing dat het overgrote deel (±90%) van de zorgaanbieders en zorgverleners al aan de norm voldoet. Er worden daarom geen substantiële financiële gevolgen verwacht.

Methode ontwikkeling

Evidence based

Werkwijze

AGREE

Deze richtlijnmodule is opgesteld conform de eisen vermeld in het rapport Medisch Specialistische Richtlijnen 2.0 van de adviescommissie Richtlijnen van de Raad Kwaliteit. Dit rapport is gebaseerd op het AGREE II instrument (Appraisal of Guidelines for Research & Evaluation II; Brouwers, 2010).

 

Knelpuntenanalyse en uitgangsvragen

Tijdens de voorbereidende fase inventariseerde de expertisegroep de knelpunten in de zorg voor patiënten met (verdenking op) goed gedifferentieerd schildkliercarcinoom. Tevens zijn er knelpunten aangedragen door IKNL, NAPA, DTCG, NVD, NVNG, NVVP, NVvR, NVRO, SON, NIV via een invitational conference. Een beknopt verslag hiervan is opgenomen onder bijlage.

 

De werkgroep beoordeelde de aanbeveling(en) uit de eerdere richtlijnmodule op noodzaak tot revisie. Tevens zijn er knelpunten aangedragen tijdens de invitational conference.

 

Op basis van de uitkomsten van de knelpuntenanalyse zijn door de werkgroep concept-uitgangsvragen opgesteld en definitief vastgesteld.

 

Uitkomstmaten

Na het opstellen van de zoekvraag behorende bij de uitgangsvraag inventariseerde de werkgroep welke uitkomstmaten voor de patiënt relevant zijn, waarbij zowel naar gewenste als ongewenste effecten werd gekeken. Hierbij werd een maximum van acht uitkomstmaten gehanteerd. De werkgroep waardeerde deze uitkomstmaten volgens hun relatieve belang bij de besluitvorming rondom aanbevelingen, als cruciaal (kritiek voor de besluitvorming), belangrijk (maar niet cruciaal) en onbelangrijk. Tevens definieerde de werkgroep tenminste voor de cruciale uitkomstmaten welke verschillen zij klinisch (patiënt) relevant vonden.

 

Methode literatuursamenvatting

Een uitgebreide beschrijving van de strategie voor zoeken en selecteren van literatuur is te vinden onder ‘Zoeken en selecteren’ onder Onderbouwing. Indien mogelijk werd de data uit verschillende studies gepoold in een random-effects model. Review Manager 5.4 werd gebruikt voor de statistische analyses. De beoordeling van de kracht van het wetenschappelijke bewijs wordt hieronder toegelicht.

 

Beoordelen van de kracht van het wetenschappelijke bewijs

De kracht van het wetenschappelijke bewijs werd bepaald volgens de GRADE-methode. GRADE staat voor ‘Grading Recommendations Assessment, Development and Evaluation’ (zie http://www.gradeworkinggroup.org/). De basisprincipes van de GRADE-methodiek zijn: het benoemen en prioriteren van de klinisch (patiënt) relevante uitkomstmaten, een systematische review per uitkomstmaat, en een beoordeling van de bewijskracht per uitkomstmaat op basis van de acht GRADE-domeinen (domeinen voor downgraden: risk of bias, inconsistentie, indirectheid, imprecisie, en publicatiebias; domeinen voor upgraden: dosis-effect relatie, groot effect, en residuele plausibele confounding).

GRADE onderscheidt vier gradaties voor de kwaliteit van het wetenschappelijk bewijs: hoog, redelijk, laag en zeer laag. Deze gradaties verwijzen naar de mate van zekerheid die er bestaat over de literatuurconclusie, in het bijzonder de mate van zekerheid dat de literatuurconclusie de aanbeveling adequaat ondersteunt (Schünemann, 2013; Hultcrantz, 2017).

 

GRADE

Definitie

Hoog

  • er is hoge zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • het is zeer onwaarschijnlijk dat de literatuurconclusie klinisch relevant verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Redelijk

  • er is redelijke zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • het is mogelijk dat de conclusie klinisch relevant verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Laag

  • er is lage zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • er is een reële kans dat de conclusie klinisch relevant verandert wanneer er resultaten van nieuw grootschalig onderzoek aan de literatuuranalyse worden toegevoegd.

Zeer laag

  • er is zeer lage zekerheid dat het ware effect van behandeling dichtbij het geschatte effect van behandeling ligt;
  • de literatuurconclusie is zeer onzeker.

 

Bij het beoordelen (graderen) van de kracht van het wetenschappelijk bewijs in richtlijnen volgens de GRADE-methodiek spelen grenzen voor klinische besluitvorming een belangrijke rol (Hultcrantz, 2017). Dit zijn de grenzen die bij overschrijding aanleiding zouden geven tot een aanpassing van de aanbeveling. Om de grenzen voor klinische besluitvorming te bepalen moeten alle relevante uitkomstmaten en overwegingen worden meegewogen. De grenzen voor klinische besluitvorming zijn daarmee niet één op één vergelijkbaar met het minimaal klinisch relevant verschil (Minimal Clinically Important Difference, MCID). Met name in situaties waarin een interventie geen belangrijke nadelen heeft en de kosten relatief laag zijn, kan de grens voor klinische besluitvorming met betrekking tot de effectiviteit van de interventie bij een lagere waarde (dichter bij het nuleffect) liggen dan de MCID (Hultcrantz, 2017).

 

Overwegingen (van bewijs naar aanbeveling)

Om te komen tot een aanbeveling zijn naast (de kwaliteit van) het wetenschappelijke bewijs ook andere aspecten belangrijk en worden meegewogen, zoals aanvullende argumenten uit bijvoorbeeld de biomechanica of fysiologie, waarden en voorkeuren van patiënten, kosten (middelenbeslag), aanvaardbaarheid, haalbaarheid en implementatie. Deze aspecten zijn systematisch vermeld en beoordeeld (gewogen) onder het kopje ‘Overwegingen’ en kunnen (mede) gebaseerd zijn op expert opinion. Hierbij is gebruik gemaakt van een gestructureerd format gebaseerd op het evidence-to-decision framework van de internationale GRADE Working Group (Alonso-Coello, 2016a; Alonso-Coello 2016b). Dit evidence-to-decision framework is een integraal onderdeel van de GRADE methodiek.

 

Formuleren van aanbevelingen

De aanbevelingen geven antwoord op de uitgangsvraag en zijn gebaseerd op het beschikbare wetenschappelijke bewijs en de belangrijkste overwegingen, en een weging van de gunstige en ongunstige effecten van de relevante interventies. De kracht van het wetenschappelijk bewijs en het gewicht dat door de werkgroep wordt toegekend aan de overwegingen, bepalen samen de sterkte van de aanbeveling. Conform de GRADE-methodiek sluit een lage bewijskracht van conclusies in de systematische literatuuranalyse een sterke aanbeveling niet a priori uit, en zijn bij een hoge bewijskracht ook zwakke aanbevelingen mogelijk (Agoritsas, 2017; Neumann, 2016). De sterkte van de aanbeveling wordt altijd bepaald door weging van alle relevante argumenten tezamen. De werkgroep heeft bij elke aanbeveling opgenomen hoe zij tot de richting en sterkte van de aanbeveling zijn gekomen.

In de GRADE-methodiek wordt onderscheid gemaakt tussen sterke en zwakke (of conditionele) aanbevelingen. De sterkte van een aanbeveling verwijst naar de mate van zekerheid dat de voordelen van de interventie opwegen tegen de nadelen (of vice versa), gezien over het hele spectrum van patiënten waarvoor de aanbeveling is bedoeld. De sterkte van een aanbeveling heeft duidelijke implicaties voor patiënten, behandelaars en beleidsmakers (zie onderstaande tabel). Een aanbeveling is geen dictaat, zelfs een sterke aanbeveling gebaseerd op bewijs van hoge kwaliteit (GRADE gradering HOOG) zal niet altijd van toepassing zijn, onder alle mogelijke omstandigheden en voor elke individuele patiënt.

 

Implicaties van sterke en zwakke aanbevelingen voor verschillende richtlijngebruikers

 

Sterke aanbeveling

Zwakke (conditionele) aanbeveling

Voor patiënten

De meeste patiënten zouden de aanbevolen interventie of aanpak kiezen en slechts een klein aantal niet.

Een aanzienlijk deel van de patiënten zouden de aanbevolen interventie of aanpak kiezen, maar veel patiënten ook niet.

Voor behandelaars

De meeste patiënten zouden de aanbevolen interventie of aanpak moeten ontvangen.

Er zijn meerdere geschikte interventies of aanpakken. De patiënt moet worden ondersteund bij de keuze voor de interventie of aanpak die het beste aansluit bij zijn of haar waarden en voorkeuren.

Voor beleidsmakers

De aanbevolen interventie of aanpak kan worden gezien als standaardbeleid.

Beleidsbepaling vereist uitvoerige discussie met betrokkenheid van veel stakeholders. Er is een grotere kans op lokale beleidsverschillen.

 

Organisatie van zorg

In de knelpuntenanalyse en bij de ontwikkeling van de richtlijnmodule is expliciet aandacht geweest voor de organisatie van zorg: alle aspecten die randvoorwaardelijk zijn voor het verlenen van zorg (zoals coördinatie, communicatie, (financiële) middelen, mankracht en infrastructuur). Randvoorwaarden die relevant zijn voor het beantwoorden van deze specifieke uitgangsvraag zijn genoemd bij de overwegingen. Meer algemene, overkoepelende, of bijkomende aspecten van de organisatie van zorg (zoals centralisatie) worden behandeld in de module Organisatie van zorg.

 

Commentaar- en autorisatiefase

De conceptrichtlijnmodule werd aan de betrokken (wetenschappelijke) verenigingen en (patiënt) organisaties voorgelegd ter commentaar. De commentaren werden verzameld en besproken met de werkgroep. Naar aanleiding van de commentaren werd de conceptrichtlijnmodule aangepast en definitief vastgesteld door de werkgroep. De definitieve richtlijnmodule werd aan de deelnemende (wetenschappelijke) verenigingen en (patiënt) organisaties voorgelegd voor autorisatie en door hen geautoriseerd dan wel geaccordeerd.

 

Literatuur

Agoritsas T, Merglen A, Heen AF, Kristiansen A, Neumann I, Brito JP, Brignardello-Petersen R, Alexander PE, Rind DM, Vandvik PO, Guyatt GH. UpToDate adherence to GRADE criteria for strong recommendations: an analytical survey. BMJ Open. 2017 Nov 16;7(11):e018593. doi: 10.1136/bmjopen-2017-018593. PubMed PMID: 29150475; PubMed Central PMCID: PMC5701989.

 

Alonso-Coello P, Schünemann HJ, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Rada G, Rosenbaum S, Morelli A, Guyatt GH, Oxman AD; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 1: Introduction. BMJ. 2016 Jun 28;353:i2016. doi: 10.1136/bmj.i2016. PubMed PMID: 27353417.

 

Alonso-Coello P, Oxman AD, Moberg J, Brignardello-Petersen R, Akl EA, Davoli M, Treweek S, Mustafa RA, Vandvik PO, Meerpohl J, Guyatt GH, Schünemann HJ; GRADE Working Group. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ. 2016 Jun 30;353:i2089. doi: 10.1136/bmj.i2089. PubMed PMID: 27365494.

 

Brouwers MC, Kho ME, Browman GP, Burgers JS, Cluzeau F, Feder G, Fervers B, Graham ID, Grimshaw J, Hanna SE, Littlejohns P, Makarski J, Zitzelsberger L; AGREE Next Steps Consortium. AGREE II: advancing guideline development, reporting and evaluation in health care. CMAJ. 2010 Dec 14;182(18):E839-42. doi: 10.1503/cmaj.090449. Epub 2010 Jul 5. Review. PubMed PMID: 20603348; PubMed Central PMCID: PMC3001530.

 

Hultcrantz M, Rind D, Akl EA, Treweek S, Mustafa RA, Iorio A, Alper BS, Meerpohl JJ, Murad MH, Ansari MT, Katikireddi SV, Östlund P, Tranæus S, Christensen R, Gartlehner G, Brozek J, Izcovich A, Schünemann H, Guyatt G. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13. doi: 10.1016/j.jclinepi.2017.05.006. Epub 2017 May 18. PubMed PMID: 28529184; PubMed Central PMCID: PMC6542664.

 

Medisch Specialistische Richtlijnen 2.0 (2012). Adviescommissie Richtlijnen van de Raad Kwaliteit. http://richtlijnendatabase.nl/over_deze_site/over_richtlijnontwikkeling.html

Neumann I, Santesso N, Akl EA, Rind DM, Vandvik PO, Alonso-Coello P, Agoritsas T, Mustafa RA, Alexander PE, Schünemann H, Guyatt GH. A guide for health professionals to interpret and use recommendations in guidelines developed with the GRADE approach. J Clin Epidemiol. 2016 Apr;72:45-55. doi: 10.1016/j.jclinepi.2015.11.017. Epub 2016 Jan 6. Review. PubMed PMID: 26772609.

 

Schünemann H, Brożek J, Guyatt G, et al. GRADE handbook for grading quality of evidence and strength of recommendations. Updated October 2013. The GRADE Working Group, 2013. Available from http://gdt.guidelinedevelopment.org/central_prod/_design/client/handbook/handbook.html.

Zoekverantwoording

Zoekacties zijn opvraagbaar. Neem hiervoor contact op met de Richtlijnendatabase.

Volgende:
Risicostratificatie