With the proliferation of misinformation on the web, automatic methods for detecting misinformation are becoming an increasingly important subject of study. If automatic misinformation detection is applied in a real-world setting, it is necessary to validate the methods being used. Large language models (LLMs) have produced the best results among text-based methods. However, fine-tuning such a model requires a significant amount of training data, which has led to the automatic creation of large-scale misinformation detection datasets. In this paper, we explore the biases present in one such dataset for misinformation detection in English, NELA-GT-2019. We find that models are at least partly learning the stylistic and other features of different news sources rather than the features of unreliable news. Furthermore, we use SHAP to interpret the outputs of a fine-tuned LLM and validate the explanation method using our inherently interpretable baseline. We critically analyze the suitability of SHAP for text applications by comparing the outputs of SHAP to the most important features from our logistic regression models.
Completeness of data is vital for the decision making and forecasting on Building Management Systems (BMS) as missing data can result in biased decision making down the line. This study creates a guideline for imputing the gaps in BMS datasets by comparing four methods: K Nearest Neighbour algorithm (KNN), Recurrent Neural Network (RNN), Hot Deck (HD) and Last Observation Carried Forward (LOCF). The guideline contains the best method per gap size and scales of measurement. The four selected methods are from various backgrounds and are tested on a real BMS and meteorological dataset. The focus of this paper is not to impute every cell as accurately as possible but to impute trends back into the missing data. The performance is characterised by a set of criteria in order to allow the user to choose the imputation method best suited for its needs. The criteria are: Variance Error (VE) and Root Mean Squared Error (RMSE). VE has been given more weight as its ability to evaluate the imputed trend is better than RMSE. From preliminary results, it was concluded that the best K‐values for KNN are 5 for the smallest gap and 100 for the larger gaps. Using a genetic algorithm the best RNN architecture for the purpose of this paper was determined to be Gated Recurrent Units (GRU). The comparison was performed using a different training dataset than the imputation dataset. The results show no consistent link between the difference in Kurtosis or Skewness and imputation performance. The results of the experiment concluded that RNN is best for interval data and HD is best for both nominal and ratio data. There was no single method that was best for all gap sizes as it was dependent on the data to be imputed.
Deze bachelor scriptie is geschreven voor het afstudeeronderzoek dat deel uit maakt van de opleiding archeologie aan Hogeschool Saxion te Deventer. De auteur van deze scriptie is Hugo Pothof. Het doel van dit onderzoek was het ontwikkelen van een nieuwe methode voor het herkennen van afwijkende graven. Dit zijn graven van individuen die op een niet reguliere manier begraven zijn voor hun cultuur en/of tijdsperiode. Voor dit onderzoek is de volgende hoofdvraag opgesteld: Hoe kunnen afwijkende graven in begraafplaatsen uit de Late Middeleeuwen/Nieuwe tijd geïdentificeerd worden met behulp van statistische en ruimtelijke analyses? Het eerste gedeelte van dit onderzoek bestond uit het opstellen van de nieuwe methode. Hiervoor zijn analyses en criteria verzameld en opgesteld die gebruikt kunnen worden voor statistisch onderzoek voor het herkennen van afwijkende graven. Voor deze criteria zijn drie soort analyses gebruikt. Ten eerste is voor categorische data (teksten) gebruik gemaakt van percentuele begrenzingen om weinig voorkomende waarnemingen aan te duiden als afwijkende graven. Daarnaast zijn voor numerieke data (getallen) gebruik gemaakt van de outlier detection with IQR. De Find Outliers tool in ArcGIS kan automatisch ruimtelijk afwijkende polygonen herkennen. Met de programmeertaal R een script (code) geschreven die het mogelijk maakt om consistent en reproduceerbaar deze analyses uit te voeren. Ook kunnen met het script grafieken gemaakt worden van de data. Om de nieuwe methode te toetsen zijn in totaal vijf begraafplaatsen uit de gemeentes Zutphen en Doesburg geanalyseerd. Deze begraafplaatsen zijn allemaal christelijke begraafplaatsen uit de Late Middeleeuwen en het begin van de Nieuwe tijd. Daarnaast is ook één grote dataset gemaakt waarin alle grafdata staat. Deze is gebruikt om de begraafplaatsen met elkaar te vergelijken.
MULTIFILE
Communicatieprofessionals geven aan dat organisaties geconfronteerd worden met een almaar complexere samenleving en daarmee het overzicht verloren hebben. Zo’n overzicht, een ‘360 graden blik’, is echter onontbeerlijk. Dit vooral, aldus diezelfde communicatieprofessionals, omdat dan eerder kan worden opgemerkt wanneer de legitimiteit van een organisatie ter discussie staat en zowel tijdiger als adequater gereageerd kan worden. Op dit moment is het echter nog zo dat een reactie pas op gang komt als zaken reeds in een gevorderd stadium verkeren. Onderstromen blijven onderbelicht, als ze niet al geheel onzichtbaar zijn. Een van de verklaringen hiervoor is de grote rol van sociale media in de publieke communicatie van dit moment. Die media produceren echter zoveel data dat communicatieprofessionals daartegenover machteloos staan. De enige oplossing is automatisering van de selectie en analyse van die data. Helaas is men er tot op heden nog niet in geslaagd een brug te slaan tussen het handwerk van de communicatieprofessional en de vele mogelijkheden van een datagedreven aanpak. Deze brug dan wel de vertaling van de huidige praktijk naar een hogere technisch niveau staat centraal in dit onderzoeksproject. Daarbij gaat het in het bijzonder om een vroegtijdige herkenning van potentiële issues, in het bijzonder met betrekking tot geruchtvorming en oproepen tot mobilisatie. Met discoursanalyse, AI en UX Design willen we interfaces ontwikkelen die zicht geven op die onderstromen. Daarbij worden transcripten van handmatig gecodeerde discoursanalytische datasets ingezet voor AI, in het bijzonder voor de clustering en classificatie van nieuwe data. Interactieve datavisualisaties maken die datasets vervolgens beter doorzoekbaar terwijl geautomatiseerde patroon-classificaties de communicatieprofessional in staat stellen sociale uitingen beter in te schatten. Aldus wordt richting gegeven aan handelingsperspectieven. Het onderzoek voorziet in de oplevering van een high fidelity ontwerp en een handleiding plus training waarmee analisten van newsrooms en communicatieprofessionals daadwerkelijk aan de slag kunnen gaan.
Achter de Voordeur is een jaarlijks terugkerend onderzoeks- en onderwijsproject, waarin studenten van verschillende opleidingen aan de HU de wijk ingaan om de ervaringen en behoeften op te halen van mensen met geldzorgen.Doel Door de interviews die de studenten met buurtbewoners houden vergroten we de kennis over de ervaringen en hulpbehoeften van mensen met geldzorgen. Het doel is om op basis van deze kennis het traject naar hulp bij schulden te verkorten en inzicht te verkrijgen in hoe er in een vroegtijdig stadium passende hulp kan worden geboden. Resultaten De resultaten uit de 48 diepte-interviews en 20 mini-interviews volgen in november 2021. Looptijd 01 november 2020 - 01 november 2021 Aanpak In 2020-2021 vindt de eerste versie van Achter de Voordeur plaats. Daarna keert het project jaarlijks terug, waardoor er een dataset over een langere periode kan worden ontwikkeld. De studenten die deelnemen krijgen een training van een aantal dagen. Hier leren zij hoe zij interviews gaan afnemen en oefenen zij met data analyse en de rapportage van kwalitatief onderzoek. De studenten krijgen de ruimte om vanuit hun eigen opleiding een bijdrage leveren aan het onderzoek, bijvoorbeeld door een gedeelte van de vragenlijst te ontwikkelen of een eigen onderzoeksvraag te formuleren voor een masterscriptie. Impact van het onderzoek Doordat het onderzoek een aantal jaren achtereen plaatsvindt bestaat de mogelijkheid om respondenten over een langere periode te volgen, zodat we het traject vanaf het ontwikkelen van schulden tot aan het vinden van geschikte hulp in kaart kunnen brengen. Daarnaast krijgen studenten van verschillende opleiding aan de HU de mogelijkheid om meer te leren over problematische schulden, het afnemen van interviews bij kwalitatief onderzoek en de analyse en rapportage van de verhalen die zij zelf ophalen in de wijk. Verder is kennis over het vroegtijdig bereiken en helpen van mensen met geldzorgen voor onze partners, de Gemeente Utrecht en Stichting Helden van de Wil, ook zeer van waarde. Afstudeerstudenten van diverse opleidingen gezocht! Ben jij proactief, nieuwsgierig en nauwkeurig? Vind jij het leuk om de wijken in te gaan om interviews af te nemen en bij te dragen aan het verbeteren van de schuldenaanpak in Utrecht? Sluit je dan aan bij ons onderzoeksteam als afstudeerstudent! Interesse? Meld je aan bij Barbera van der Meulen.
Dementie is een wereldwijd gezondheidsprobleem, met enorme impact op de gezondheidszorg en economie. In Nederland is het aantal mensen met dementie de laatste jaren snel gegroeid en dit aantal zal door vergrijzing verder toenemen. De diagnose dementie is complex en vaak pas definitief na kostbaar en invasief onderzoek. Het introduceren van gemakkelijk uit te voeren tests in de eerstelijn kan bijdragen aan een verbeterde vroegtijdige herkenning en behandeling van dementie binnen de bredere bevolking. Een potentieel veelbelovende benadering is vroege detectie van retinale (netvlies) veranderingen in het oog met behulp van kunstmatige intelligentie (KI). Onderzoek toont aan dat neurale netwerken, een component van KI, subtiele afwijkingen in de retina kunnen detecteren die gerelateerd zijn aan dementie. Een algoritme, ontwikkeld door Cheung et al., toont veelbelovende resultaten op basis van retinale foto's. Het Geheugencentrum van het Jeroen Bosch Ziekenhuis heeft interesse in het gebruik van neurale netwerktechnologieën bij de diagnose van dementie. Het uitvoeren van een implementatieonderzoek gaat echter gepaard met uitdagingen op het gebied van dataverzameling, en daarnaast dienen zorgvuldige ethische overwegingen plaats te vinden. Om implementatieonderzoek in de toekomst mogelijk te maken, wil het Jeroen Bosch Ziekenhuis, samen met Biotactical BV en Avans Hogeschool verkennend onderzoek doen naar de nauwkeurigheid en praktische toepasbaarheid van het algoritme van Cheung et al., gebruikmakend van bestaande datasets. Daarnaast zal een juridisch en ethisch raamwerk worden ontworpen met richtlijnen voor een implementatieonderzoek van deze software in zorginstellingen. Het doel van dit verkennend onderzoeksproject is om vertrouwen op te bouwen bij belanghebbenden en 'lessons learned' op te nemen in een latere implementatiefase.