BERT-labb (Språkanalys med hjälp av Artificiell Intelligens)

Syftet med denna labb är att du ska lära dig mer om språkmodellen BERT (Bidirectional Encoder Representations from Transformers). Deep Learning-modellen BERT är framtagen av Google och anses höja ribban för Natural Language Processing i en hel del sammanhang. Svenska myndigheter har också visat intresse och det har genomförts och genomförs projekt där BERT används för att bl a extrahera data ur myndighetsdokument.

Kalle är engagerad i ett sådant projekt, ett projekt som bedrivs av Trafikverket, och kommer att gå igenom både teori och sina praktiska erfarenheter kring BERT inkl diverse trix. Några exempel på hur man extraherar Svensk text ur docx resp pdf-dokument för hantering; extrahera ortnamn och annat samt automatiskt sammanfatta stora mängder text till det som av BERT uppfattas som viktigast. Vi kommer också kika lite på hur vi kan anropa Google translate från ett program. Som exempel kommer vi titta på/i dokument rörande Norrbottniabanan som kommer beröra oss de närmaste åren. Vi kommer även studera lite kort om hur man kan ställa frågor på text och få automatiska svar av datorn.