22 avr.-1 juil. 2019 Paris (France)

Axe 1. Chercheurs associés : sujets divers proposés par les départements > Internet

Pour des exemples de sujets sur les archives de l’internet, cf. les thèmes : Histoire ; Jeux, Loisirs, Pratiques amateurs ; Littérature

 

Les archives de l’internet conservées à la BnF représentent à ce jour plus d’un pétaoctet de données. Les toutes premières collections, constituées à titre expérimental et par l’apport d’Internet Archive, remontent à 1996. Elles s’inscrivent depuis 2006 dans le cadre de la mission de dépôt légal de la BnF et portent donc sur le domaine français. Cette collecte ne prétend pas à l’exhaustivité mais repose sur un principe de représentativité. La BnF conjugue à cet effet deux modes de collecte :

  • la collecte large : réalisée une fois par an, son objectif est d’avoir un échantillon du plus grand nombre de sites possibles. Cette collecte a porté en 2018 sur 4,5 millions de sites (soit environ 60 % du web français).
  • les collectes ciblées : elles sont effectuées avec une profondeur plus importante, sur plusieurs dizaines de milliers de sites sélectionnés par des bibliothécaires, à la BnF et dans les bibliothèques de dépôt légal imprimeur en région.

L’actualité est bien représentée dans les collections au travers des sites de presse en ligne, des journaux au format PDF des titres de la presse quotidienne régionale et des réseaux sociaux.

L'accès aux collections des archives de l’internet se fait sur place, à la BnF.

Collaborations possibles : Dans le cadre de l'appel à chercheurs, plusieurs types de collaboration sont envisageables :

  • collecte d'un corpus de sites ;
  • recherches basées sur l'application Archives de l'internet, avec un accompagnement autour de la constitution des collections et des processus de collecte ;
  • indexation en plein texte d'une collection ;
  • production de métadonnées sur un corpus ;
  • utilisation de techniques d'analyse (fouille de données, analyse de texte, analyse de liens...).

Dans tous les cas, le corpus est déterminé en collaboration avec le chercheur et les départements de collections thématiques concernés.

Contact : Alexandre Chautemps, chef de service du dépôt légal numérique

Mél : alexandre.chautemps@bnf.fr

Personnes connectées : 1