28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel...
-
Upload
igerne-bailly -
Category
Documents
-
view
102 -
download
0
Transcript of 28/04/2001 INA et U-Paris III - K. Lespinasse1 Analyse de l'hétérogénéité dun corpus textuel...
28/04/2001 INA et U-Paris III - K. Lespinasse 1
Analyse de l'hétérogénéité d’un corpus textuel élaboré à partir de
langages contrôlés (dans un contexte audiovisuel)
I N S T I T U T N A T I O N A L D E L ’ A U D I O V I S U E L Karine Lespinasse
28/04/2001 INA et U-Paris III - K. Lespinasse 5
Dans ce contexte : un objectif :
La création d’un corpus de documents textuels se rapportant à des émissions télévisées, à des fins d’analyse et de modélisation sémantique, pour assister l’indexation
des émissions télévisées.
Or un problème : comment bâtir un corpus textuel homogène pour en exploiter le lexique, leurs relations
sémantiques ?
Mais un but : acquérir descatégories sémantiques propres à un domaine
(politique intérieure).
28/04/2001 INA et U-Paris III - K. Lespinasse 6
Pourquoi chercher à constituer un corpus homogène ?
Une série d’hypothèses…
- sur un domaine : choix de la politique intérieure, domaine jugé relativement bien défini et stable (par rapport à culture par ex.) et qui s’exprime dans différents genres d’émissions télévisées (journaux, débat, magazines…).
- sur un type de texte : la notice documentaire
- sur l’existence d’une langue télévisuelle politique (?)
- d’après une approche syntaxique : recherche de phénomènes qui se répètent, avec une certaine régularité
Analyse des surprises d’une expérimentation réelle