Fara och möjligheter för nyhetsbranschen när AI uppvaktar den för livsviktig mänskligt skriven kopia | Tidningar
OpenAI, utvecklaren av ChatGPTvet att data av hög kvalitet är viktiga inom artificiell intelligens – och nyhetsutgivare har enorma mängder av det.
“Det skulle vara omöjligt att träna dagens ledande AI-modeller utan att använda upphovsrättsskyddat material,” sa företaget i år i en inlämning till Storbritanniens House of Lords och tillade att en begränsning av dess alternativ till böcker och teckningar i det offentliga området skulle skapa underväldigande produkter.
AI-labb konstruerar stora språkmodeller – tekniken som ligger till grund för verktyg som OpenAI:s ledande chatbot – genom att använda biljoner ord hämtade från internet, en viktig resurs för att tillhandahålla material som gör det möjligt för LLM:er att förstå textbaserade uppmaningar och förutsäga rätt svar på dem .
OpenAI’s avtal med Financial Times den här veckan understryker det amerikanska företagets behov av acceptabelt material, där FT-gruppens verkställande direktör, John Ridding, sa: “Det ligger helt klart i användarnas intresse att dessa produkter innehåller tillförlitliga källor.”
När AI-laboratorier blir allt mer hungriga efter pålitlig, aktuell och framför allt mänskligt skriven text för att göra dessa svar så bra som möjligt, utvärderar nyhetsbranschen hur man bäst ska reagera: medan många intensifierar kampen för att försvara sin upphovsrättsskyddade gräsmatta, andra engagerar sig med de stora AI-aktörerna för att nå en kompromiss – och potentiellt få några kommersiella fördelar.
New York Times fick det första stora slaget för försvaret i december och stämde OpenAI och Microsoft, AI-företagets största investerare, för upphovsrättsintrång. I domstolshandlingar visade tidningen att OpenAI:s chatbots kunde förmås att återskapa, nästan ordagrant, artiklar från dess arkiv.
OpenAI, som svar, hävdade att NYT:s “uppmaning” var mer än bara orealistisk: utgivaren, sade det, använde “bedrägliga uppmaningar som uppenbart bryter mot OpenAI:s användarvillkor … Sanningen, som kommer att komma fram under loppet av detta fall, är att Times betalade någon för att hacka OpenAIs produkter.”
Det kalla kriget mellan NYT och OpenAI hade puttrat i månader innan rättegången inleddes. I augusti blockerade tidningen OpenAI:s sökrobot – som samlar upp data för sina modeller – från att komma åt sin webbplats. Väktaren och BBC följde efter.
Reuters och CNN har vidtagit åtgärder för att hindra företaget från att läsa deras material, ett drag som har liten juridisk tyngd men gör det svårare i praktiska termer för nyheter att användas som träningsdata.
Under månaderna sedan har andra inlett sina egna stämningar. De oberoende utgivarna Intercept, Raw Story och AlterNet stämde i februari, medan hedgefonden Alden Global Capital, som äger åtta amerikanska tidningar, i april inledde en uppsjö av stämningar riktade mot både ChatGPT och Microsofts Copilot AI.
När han talade i januari, verkade OpenAI:s verkställande direktör, Sam Altman, avvisa NYT:s relevans för dess produkter. “Varje en speciell träningskälla, det rör inte nålen för oss så mycket,” han sa.
Ändå har affärer träffats med nyhetsutgivare som ser en ny intäktsström, medan OpenAI, som det sa om veckans FT-affär, vill “berika ChatGPT-upplevelsen med realtidsjournalistik i världsklass”.
Affären låter OpenAI träna framtida modeller på FT-innehåll, samtidigt som nyhetsgruppen får tillgång till AI-utvecklarens teknik och expertis för att bygga verktyg för sin egen verksamhet. ChatGPT-användare kommer också att få sammanfattningar och citat från FT-journalistik, samt länkar till artiklar, som svar på uppmaningar, där så är lämpligt.
OpenAI har redan tecknat avtal om innehållslicenser med den amerikanska nyhetsbyrån Associated Press, den franska tidningen Le Monde, El País-ägaren Prisa Media och Tysklands Axel Springer, som publicerar tabloiden Bild.
En talesperson för Guardian News & Media, utgivare av Guardian, bekräftade att man för närvarande inte har något avtal med OpenAI, men tillade att man fortfarande diskuterar med en rad ledande AI-företag.
Affärerna belyser den osäkra maktbalansen mellan AI och media. Å ena sidan har osäkra upphovsrättsliga skydd och den enkla tillgången till material online uppmuntrat många AI-företag att ta chansen med olicensierade data, i hopp om att de kommer att kunna hävda skälig användning i alla juridiska strider. När de behöver licensiera material, uppmuntrar råvarukaraktären i mycket rapportering en “dela och härska”-strategi – om bara en affär behövs för att hålla en chatbot uppdaterad med de senaste nyheterna, erbjuder detta en stark förhandlingspotential.
Niamh Burns, senioranalytiker på Enders Analysis, hävdar att OpenAI och FT delar tillräckligt med incitament för att teckna ett avtal, men förlag och teknikföretag ger olika perspektiv till förhandlingsbordet.
“Utgivare säger att det strider mot deras användarvillkor att använda deras innehåll för att utbilda LLM och att licensiering är avgörande. OpenAI säger att det inte bryter mot upphovsrätten, och ramar in affärer som frivilligt stöd till journalistiksektorn”, säger hon.
“Licensiering är fortfarande en gråzon, men dessa tidiga affärer skapar några prejudikat. Problemet för publicister är att vi inte har någon aning om hur AI-produkter kommer att se ut om ett år. De kanske inte ens vet vad de ska be om.”
Samtidigt betyder den glupska naturen hos AI-modeller att de alltid behöver mer data. OpenAIs James Betker hävdade förra året att skillnaden i kvalitet mellan AI-modeller helt och hållet berodde på datasetet. “Modellbeteende bestäms inte av arkitektur, hyperparametrar eller optimeringsval,” sa han och syftade på de tekniska svårigheterna med att träna en språkmodell. “Det bestäms av din datauppsättning, inget annat. Allt annat är ett sätt att uppnå ett effektivt mål [delivering] beräkna för att approximera den datamängden.”
Om det är sant, betyder det att ett företag med få tekniska färdigheter men en tillräckligt stor datauppsättning skulle ha lättare att bygga ett AI-system av högsta nivå än ett företag med lika resurser med expertingenjörer men ingen tillgång till utbildningsdata – en helt annan kompetensbalans från det som normalt antas. Hur som helst, det understryker vikten av nyhetsutgivares arbete för nästa generations AI-modeller.
Source link