Corpus Pluriels »
Les études menées en linguistique cognitive sur la dénomination des odeurs ont montré que, contrairement aux couleurs, les mots manquent pour catégoriser les odeurs : l’olfaction est un sens qui peut être considéré sans parole (Howes, 1986). Face à l’indisponibilité dénominative des catégories olfactives en langue, les locuteurs non experts sont amenés à combler ce manque en construisant des représentations discursives en adéquation avec des représentations notionnelles issues d’expériences olfactives personnelles antérieures.
Le Corpus « Des mots & des odeurs » permet d’observer le comportement verbal et gestuel de 20 locuteurs francophones adultes alors qu’ils se livrent à une tâche de flairage puis de description linguistique de 40 odorants. Le même corpus a été obtenu auprès d’enfants dans une perceptive transversale et longitudinale (les mêmes enfants testés et filmés en petite, moyenne et grande section maternelle).
Les troubles du langage constituent le mode d’entrée dans la pathologie. Si l’anomie (i.e. manque du mot) a donné lieu à un très grand nombre d’études basées sur les performances en dénomination de mots, le niveau discursif est souvent négligé. Or, certains critères pertinents pour l’analyse de la dégradation linguistique observée dans la maladie d’Alzheimer peuvent être capturés – aux niveaux infra et supra lexical – dans le discours des patients. Le corpus « Parole d’Alzheimer », constitué d’enregistrements numériques de haute qualité (44Khz, 16 bits, mono), rassemble des discours en parole spontanée de patients Alzheimer (une trentaine à l’heure actuelle) à différents stades de démences (narrations libres, description d’image) ainsi que des discours obtenus auprès de sujets âgés sains appariés en âge, sexe et niveau socio-culturel. L’ensemble du corpus est transcrit manuellement (Transcriber, CLAN, fichiers txt).
Ce corpus présente des enregistrements audiovisuels saisis au cours de soutenances de mémoire de master professionnel réalisés à distance par visioconférence.
Ce corpus présente une collection d’enregistrements audiovisuels récoltés sur le campus universitaire et dans les salles de cours. Il retrace les usages et comportements des étudiants outillés par les technologies dans le cadre de leur formation universitaire.
Ce corpus présente une collection d’enregistrements audiovisuels saisis lors des réunions à l’Université de démonstration de prototype. Lors de ces réunions sont présentées les fonctionnalités et outils technologiques conçus.
Le domaine arabe représente un cas d’école de continuum linguistique. Une vue d’ensemble du domaine linguistique arabe, permet de distinguer deux aires à l’intérieur du continuum dialectal : la zone occidentale regroupant les parlers du Maghreb et la zone orientale constituée des parlers Moyen-Orientaux. Chaque parler arabe présente des caractéristiques qui lui sont propres. Celles-ci peuvent être d’ordre syntaxique, lexical, segmental et prosodique. Avec la base de données acoustique Araber, notre objectif est de développer un outil présentant un large éventail de variantes dialectales arabes permettant le développement d’applications à orientation linguistique. Différents types de corpus sont disponibles pour environ une centaine de locuteurs natifs originaires de différentes régions du monde arabophone : Corpus n° 1 : une traduction libre d’un texte court (‘La Bise et le Soleil’), Corpus n° 2 : une narration semi-guidée obtenue à partir d’une série d’images sans texte (‘The Frog story’).