Indsat fra nyheden
ChatGPT blev trænet af danske hestetøser:
Det kendte amerikanske finansmedie Bloomberg har opsnappet en ellers overset dansk forskningsartikel fra 2021, hvor det fremgår at brugernes debatter på Heste-Nettet udgør en væsentlig del af de danske tekster, der er blevet benyttet til at udvikle den danske sprogmodel, der bl.a. ligger til grund for den dansksprogede del af kunstig intelligens løsninger, som f.eks. ChatGPT.
Af en tabel på side 4 i forskningsartiklen fremgår det at Heste-Nettets brugerskare med 22% (forfulgt af Statens Retsinformation med 18%) er den største enkelte bidragsyder til det såkaldte Danish Gigaword Corpus (DAGW), beskrevet som "a billion-word corpus of language across various dimensions, including modality, time, setting, and place".
Artiklen på Bloomberg forklarer hvorfor indhold fra Heste-Nettet var et godt supplement til de øvrige offentligt tilgængelige tekst-kilder, som ChatGPT projektet kunne få adgang til.
Som aktiv bidragyder til debatterne på Heste-Nettet behøver man ikke være nervøs over brugen af indholdet til udvikling af danske AI (kunstig intelligens) sprogmodeller. Træningen af disse foregår lidt forsimplet ved at modellen for hvert ord, der forekommer i det såkaldte "tekst-korpus", lærer hvad de mest sandsynlige efterfølgende ord kan være. Der gemmes således som udgangspunkt ikke hele sætninger eller tekster på samme måde, som f.eks. søgemaskiner gør det for at generere deres søgeindeks og kunne vise "cachede" kopier af indholdet.
Men hvis du synes at ChatGPT formulerer sig som en mellemting mellem en embedsmand og en hestetøs, er det altså ikke så underligt ...
Foto: Photo by Sanket Mishra from Pexels