INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial...

23
INF2820 Datalingvistikk – V2015 Jan Tore Lønning

Transcript of INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial...

Page 1: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

INF2820 Datalingvistikk – V2015 Jan Tore Lønning

Page 2: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

INF2820 Datalingvistikk

21. januar 2015 2

Page 3: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

I dag:

1. Time: • Datalingvistikk:

motivasjon og eksempler • Praktisk informasjon

2. Time: • Endelige tilstandsteknikker

• OBS:

• Lov å stille spørsmål underveis

Page 4: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

• Computer science • Artificial intelligence (AI)

• NLP

1. Computational linguistics

The game of the name

• Navnene har litt forskjellig opphav og tradisjon, eks. • I dag brukes navnene til dels om hverandre

21. januar 2015 4

1. Datalingvistikk 2. Natural language

processing

3. (Human) Language Technology

2.Språkprosessering/ prosessering av naturlige språk

3. Språkteknologi

Page 5: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

The name of the game

• Datalingvistikk • Prosessering av naturlige språk • Språkteknologi

• Språk: • Norsk, arabisk,

japansk, … • Naturlige:

• Oppstått • Ikke oppfunnet

• Data • Prosessering • Teknologi

21. januar 2015 5

Page 6: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Hvorfor datalingvistikk?

• Visjonen om kunstig intelligens • Modeller av mennesker

• Forstå • Erstatte

• Nyttig, anvendelser:

• Supplere mennesker

Page 7: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Skjønner datamaskinen hva jeg sier?

• Visjon: • Intelligente

maskiner • Maskiner som

forstår • Roboter

• En slik maskin må: • Kunne snakke • og lytte

• Ingen intelligens uten språk

Page 8: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Turingtesten

• Kommunikasjon i naturlig språk

Page 9: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

2011-sensasjon: Watson på Jeopardy

Se: https://www.youtube.com/watch?v=yJptrlCVDHI

Page 10: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Watson • Litt om oppbygning:

https://www.youtube.com/watch?v=_Xcmh1LQB9I • Mulige anvendelser: Aftenposten 19.1.2015

http://www.aftenposten.no/fakta/innsikt/Den-nye-ekspertlegen-er-en-maskin-7859090.html

21. januar 2015 10

Page 11: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Nytte, eks.: oversettelse

• Drømmen fra 17 år siden

• Ikke i 2003, men hvor er vi i dag? • Tekstoversettelse • Oversettelse av tale

Page 12: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Menneske-maskininteraksjon

• Visjon: • Kommunisere med

datamaskinen som til et menneske:

• Eks.: ”2001 en romodyssé”

• 2011: Siri • Basert på langsiktig

grunnforskning: SRI

Page 13: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Språkteknologi 2015 • Fra visjon til virkelighet • Integrert i en rekke

applikasjoner • Drevet av:

• Internett • Mobilteknologi

Anvendelser: • Stave- og grammatikkontroll • Talegjenkjenning, diktering • Syntetisk tale, eks. GPS

• Maskinoversettelse • Dialogsystemer

• Søk i tekst (innholdsrelaterte) • Analyse av store tekstmengder • Analyse av internett • Overvåkning

Page 14: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Modell

• Typisk tre trinn • Analyse (syntaktisk, semantisk, …) • Utføring av oppgave (finn svar, transfer,

…) • Generer svar

• Rundt dette et større system: dialoghåndtering mm.

Talegjen- kjenning

Syntaktisk og semantisk analyse

Generering Tale- syntese

Page 15: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Fra NLTK

Page 16: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

21. januar 2015 16 Flertydighet https://www.youtube.com/watch?v=_429UIzN1JM&feature=channel

Page 17: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Hva skal vi gjøre i INF2820?

Fokusere på grunnleggende teknikker: • Språk: naturlige og formelle språk • Endelige tilstandsteknikker for nat.spr. • Kontekstfrie grammatikker • Parsing av kontekstfrie grammatikker for

naturlige språk • Unifikasjonsgrammatikker • Semantikk

Page 18: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Verktøy

NLTK: The Natural Language Toolkit • Programmer for ulike typer NLP-

oppgaver • Kan kombinere med egen kode • Vekt på opplæring:

• Men også brukt for større oppgaver • Bok, dokumentasjon

Endelige tilstandsteknikker • De første ukene

21. januar 2015 18

Page 19: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Python • Gode strukturer for tekst:

• Strenger • Lister

• Read-eval-print-loop • Lesbar, strukturert kode:

• Kompakt, nesten ”pseudokode” • Gir gode programmeringsvaner • Lett å lære

• Objektorientert • Mye brukt: tilgjengelig, bibliotek, grensesnitt • Nyttig senere i livet: scripting

21. januar 2015 19

Page 20: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Læremidler • Deler av Bøker:

• Jurafsky og Martin, • Speech and Language Processing

• S. Bird, E. Klein and E. Loper: • Natural Language Processing with

Python • (Finnes på nett)

• Kode • Presentasjoner som blir lagt ut

på nett • Supplerende • Erstatter ikke bøker

• Noen artikler/web-sider/utdelt materiale 21. januar 2015 20

OBS: Samme bok!

Page 21: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Forelesninger

• Jan Tore Lønning, [email protected], • Forelesninger:

• Mandag 14.15-16 • Sted: Caml • 15-16 uker

21. januar 2015 21

Page 22: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Gruppeundervisning • Bo Bjerke-Lindstrøm • Onsdag10.15-14 • Sted: Fortress 3468

• (Noen ganger flyttet til sem.rom.)

• Første gang 28. jan.

21. januar 2015 22

The place to be: • Rom 3467 Fortran

Programstue: - Informatikk: språk og kommunikasjon - (IT: språk, logikk, psykologi)

Page 23: INF2820 Datalingvistikk – V2015 · • Computer science3. Språkteknologi • Artificial intelligence (AI) • NLP 1. Computational linguistics The game of the name • Navnene

Arbeidsformer og arbeidsmengde

• Forelesninger 2 t/uke • Gruppe 2 t/uke

• +9 t/u samlet i gj.snitt • Obligatoriske oppgaver:

• 4 sett, alle må bestås • Men:

• også ikkeobligatoriske oppgaver er eksamensstoff

• Undervisningen er eksamensrelevant selv om den ikke er obligatorisk

21. januar 2015 23

I

I

Pensumlesning

Terminalarbeid Teorioppgaver

13