Wikipédia:RAW/2019-05-01


Brèves

On a crashé sur la Lune — À deux reprises, nous vous avons parlé de projets visant à envoyer Wikipédia sur la Lune (en mai 2016 et en juin 2018). Il semblerait désormais que ce soit chose faite[1]!?
Une version de 100 Go de l'encyclopédie libre était à bord de la sonde Beresheet, qui s'est écrasé avec une vitesse verticale de 482 km/h et une vitesse horizontale de 3 409 km/h sur le sol lunaire. Espérons que les quelque 30 millions de mots en 5 000 langues, ainsi que les milliers d'images associées, ne soient pas trop dispersés. Autrement, la somme du savoir humain risque d'être devenue le casse-tête extraterrestre le plus difficile jamais créé !

« [étant entier], il a dû dériver de quelques km ; un frisbee de 30 millions de pages sur la Lune[trad 1],[1]. »

— Arch Mission Foundation, Mashable

La consultation de la Wikipédia en français... — est mondiale. Diriez-vous qu'elle est consultée cinquante, soixante, soixante-dix, quatre-vingts... millions de fois par mois ? En février 2019, c'est un peu plus de quatre-vingt-dix millions d'appareils uniques[note 1] qui ont servi à consulter cette Wikipédia linguistique. [1] Comme vous l'avez sans doute anticipé, la majorité des consultations provient de l'Hexagone. Selon vous, quels pays suivent ensuite : Algérie, Belgique, Canada, États-Unis, Suisse... ? Canada, suivi des États-Unis, puis la Belgique. Le nombre de consultations en provenance de l'Allemagne, de la Chine et de l'Irlande est respectivement de 9,5 millions de fois, 3,8 millions de fois et 2,9 millions de fois. Les internautes du Groenland n'ont consulté que mille fois en mars 2019, comme ceux de la Papouasie-Nouvelle-Guinée. Pour la Corée du Nord, aucune valeur n'est publiée. Vous souhaitez en savoir plus ? Consultez cette carte interactive publiée sur le site Wikimedia Statistics.

Internet Archive accusé... — de faire de la « propagande terroriste »[trad 2]. En effet, une autorité française (la French Internet Referral Unit) a exigé d'Internet Archive (IA) de bloquer 550 adresses Web (URL) menant à des contenus jugés illicites. Parmi les URL visées : https://archive.org/details/texts (tous les livres en ligne d'IA, plus de quinze millions), https://archive.org/details/gutenberg (des documents transcrits par le Projet Gutenberg), https://archive.org/details/pubmed (des articles de PubMed, plus de deux cents mille) et https://archive.org/details/arxiv (documents d'ArXiv, plus d'un million). Le demandeur a donc mis dans le même sac des millions de documents au motif que certains feraient l'apologie du terrorisme. IA a aussi reçu une demande de l'Office central de lutte contre la criminalité liée aux technologies de l'information et de la communication (OCLCTIC) de retirer une vidéo précise qui comprend seulement des commentaires sur le Coran. Ces demandes officielles n'amusent pas du tout IA. En effet, l'OCLCTIC a menacé IA de bloquer la diffusion de ses contenus en France si la vidéo n'était pas retirée dans l'heure, alors que l'autre demandeur a menacé de bloquer le site 24 heures après avoir émis l'avis. [2]

Push notifications — Pour les utilisateurs de smartphones, les push notifications (PN) sont devenues de plus en plus fréquentes lorsqu'ils utilisent des applications et consultent des sites Web. Par exemple, en 2013, Apple s'est targué d'avoir transmis 7 400 milliards de PN en une seule année, et ce nombre a pris de l'ampleur depuis. Tous les grands producteurs de contenus exploitent cette technologie. Toutefois, les messages des PN sont de plus en plus souvent éloignés des attentes des utilisateurs. Un article de Wired convie les lecteurs à les désactiver, sauf peut-être pour les appels téléphoniques et les textos. Lorsque les PN sont apparues, dans les BlackBerry en 2003, elles servaient à notifier les utilisateurs via leur smartphone qu'ils avaient reçu des courriels, ce qui était perçu comme fort utile par ceux qui craignaient de manquer un courriel important. En 2008, Apple et Google ont suivi dans cette veine, mais avec l'intention d'attirer l'attention des utilisateurs sur de multiples sujets. Après des années d'exploitation, même si les PN sont régulièrement utilisées par les sociétés de marketing, Apple et Google ont mis en place des moyens simples de les désactiver (une application à la fois, toutefois). Puisque de plus en plus de sociétés y ont recours, ce service est devenu un fléau virtuel des temps modernes. L'auteur de l'article doute fortement que les utilisateurs de smartphone ont besoin d'être notifiés sur n'importe quoi, même s'ils peuvent découvrir une pépite de temps à autre. Il termine en mentionnant qu'il a désactivé les PN de presque toutes les applications, et ne s'en porte que mieux. [3] L'équipe de développement logiciel du navigateur Web Mozilla Firefox, qui juge que les PN dégradent l'expérience Web, a décidé de mettre en place des outils pour les contrôler. Des versions bêta du navigateur livrées en avril permettent de tester deux outils et de valider leur bon fonctionnement. [4]

Don de l'Arcadia Fund — La Wikimedia Endowment (WE), fonds de dotation qui vise à assurer la pérennité du savoir libre de l'écosystème hébergé par la Wikimedia Foundation (WMF), a reçu un don de 3,5 millions US$ de l'Arcadia Fund, qui a été créé en 2002 par Lisbet Rausing et son conjoint Peter Baldwin (les deux sont historiens, Rausing étant l'une des héritières du milliardaire suédois Hans Rausing [5]) Les buts de cette fondation britannique ? Préserver les cultures menacées d'extinction, préserver les environnements menacés d'extinction et faire la promotion du libre accès. Depuis sa création, la fondation affirme avoir versé plus de 570 millions US$ à divers organismes [6] Baldwin justifie le don à la WE ainsi : « Dans cette époque de fake news et de données camelotes mondialisées, il est d'autant plus important que Wikipédia poursuive sur sa lancée, nous fournissant des informations neutres, factuelles et précises. » [trad 3] La WE a donc amassé jusqu'à maintenant 35 millions US$ sur les 100 millions qu'elle souhaite recevoir. [7], [8]

Le copyright universitaire est désuet

C'est l'avis de l'historien et philanthrope Peter Baldwin, qui justifie sa position dans un long article publié à l'automne 2018.

Dans le futur, est-ce que le symbole du copyleft sera présent dans tous les ouvrages universitaires ?

Le copyright a été créé au XVIIIe siècle pour offrir aux producteurs de biens culturels, des pigistes en quelque sorte et non pas des salariés, un droit sur leurs productions pour qu'ils puissent vivre de leurs efforts. Par la suite, des entreprises du secteur des arts visuels ont embauché ces producteurs, s'appropriant les droits intellectuels de leurs œuvres contre rémunération. La majorité des lois pionnières sur la propriété intellectuelle ont été forgées aux États-Unis parce que les studios de cinéma souhaitaient recevoir des compensations pour les films produits, fruit de la collaboration de dizaines, sinon de centaines, de créateurs (scénaristes, créateurs de décors, photographes, etc.). Cet encadrement légal éliminait des incertitudes, crainte principale des sociétés.

Le copyright recouvre deux grandes classes de réclamations : « le droit moral ou artistique, tels attribution et intégrité, et les droits économiques ou monopolistiques. » [trad 4] La première classe protège les créateurs du piratage intellectuel et des modifications sans une approbation préalable. Cette classe, couramment admise dans les sociétés industrielles modernes, ne prête pas à polémique. Les droits monopolistiques offrent un monopole temporaire sur la distribution, ce qui incite les créateurs à poursuivre leur travail puisqu'ils sont récompensés. À l'ère analogique, ce monopole sur la distribution faisait sens parce que le coût de la production physique d'un bien était élevé, tout comme sa distribution (surtout en ce qui concerne les livres).

La très grande majorité des producteurs de contenus n'est plus indépendante à la suite de l'institutionnalisation de la production du savoir. Même parmi les « indépendants », très peu pourraient vivre de leur art aujourd'hui. Par exemple, en 1976, à peine trois cents écrivains américains pouvaient vivre de leur art, alors que le pays comptaient quelques millions d'aspirants écrivains. En 1979, sur deux mille écrivains sondés, la moitié affirmait occuper un emploi. Présentement, « la majorité des auteurs sont des salariés d'universités, de think tanks, de musées, d'autres institutions culturelles ou de sociétés. » [trad 5] La plupart des romanciers et des poètes enseignent dans leur domaine de prédilection, écrivant sur leur temps libre. Pour tous ces gens, les droits monopolistiques n'ont plus lieu d'être, puisqu'ils ont déjà été récompensés pour leurs productions. Au début du XXe siècle, les professeurs universitaires titularisés étaient majoritairement payés à la leçon par les étudiants. Dans les pays industrialisés, la grande majorité des enseignants universitaires est maintenant salariée. Pour eux aussi, les droits offerts par le copyright n'ont plus d'intérêt. Il est dès lors étonnant que les universitaires soutiennent un système qui ne les récompensent plus, ou très peu.

Le film Safety Last !, sorti en 1923, est élevé dans le domaine public en 2019, soit presque 100 ans après sa première publication.

L'auteur poursuit en comparant les studios de cinéma d'Hollywood et le monde universitaire américain. L'industrie cinématographique américaine engrange des milliards de dollars de revenus ; la majorité des salariés de cette industrie jouit de bonnes conditions de travail et beaucoup de travailleurs sont syndiqués. Elle souffre très peu des grèves, parce que les tâches créatives sont documentées en détail, ce qui permet de rétribuer les créateurs selon des barèmes négociés. Selon Baldwin, cette documentation expliquerait la longueur interminable des génériques contemporains. Les universitaires sont bloqués, selon lui, dans une façon de faire qui date d'une autre époque, même si le système universitaire américain jouit de revenus nettement supérieurs, au moins cinq fois, à l'industrie cinématographique américaine. De plus, les universités sont majoritairement payées par l'argent des contribuables, même aux États-Unis (subventions, dons, non-imposition...). Pour cette raison, le monde universitaire ne devrait plus souscrire au modèle du copyright.

Baldwin mentionne que le copyright poursuivait un autre but : permettre aux producteurs d'être récompensés pour avoir produit des biens physiques (livres et journaux, par exemple). « Les technologies numériques ont mis un terme à cet écosystème historique de plusieurs façons [...] Elles ont, par exemple, raccourci les procédures éditoriales, réduisant la révision et la composition, qui sont maintenant dématérialisées. La rédaction manuelle a été largement remplacée par l'usage des logiciels de traitement de texte. Aujourd'hui, les rédacteurs d'imprimerie sont pareils à des opérateurs d'ascenseur qui appuient sur des boutons. » [trad 6] L'évaluation par les pairs, qui se faisait au nom des maisons d'édition, est passée d'une forme de procès à une discussion entre pairs. Un chercheur publie une première version, recueille les commentaires, modifie en conséquence, puis publie. À ce moment, tous les chercheurs intéressés par le sujet ont déjà lu l'article et l'information qu'il contient est déjà en grande partie disséminée. Cette façon de faire a été adoptée par les physiciens, les mathématiciens et les informaticiens. ArXiv et SciPost court-circuitent l'évaluation par les pairs, à une fraction du prix exigé par les maisons d'édition. Comparées aux concurrents, les prix exigés par ces dernières sont donc hors de proportion avec les services offerts.

Ces changements induisent des effets sensibles sur la distribution des textes scientifiques et techniques. Lorsqu'une création intellectuelle a été inscrite dans un fichier électronique, il n'est plus nécessaire de l'imprimer. Il suffit de la publier en ligne, la rendant disponible à n'importe qui doté d'un appareil connecté à Internet. Les maisons d'édition ont donc perdu un autre avantage.

Le tome 1 de l’Histoire de la décadence et de la chute de l'Empire romain, publié en 1819, est élevé dans le domaine public, comme les douze tomes suivants.
L'université d'Ottawa a transmis les livres imprimés à Internet Archive (IA), qui a numérisé les tomes à un coût dérisoire. Versés dans le domaine public par IA, les scans ont été téléversés dans Wikimedia Commons.
Si la qualité des scans ne vous satisfait pas, vous pouvez toujours acheter n'importe quel tome chez Amazon.fr au prix de 8,50 euros, ou consulter la transcription des tomes sur Méditerranée-antique, en attendant une transcription complète sur Wikisource.

Quelles sont les conséquences pour les librairies, les bibliothèques et les maisons d'édition ? Les gens voudront encore lire des livres imprimés. Toutefois, les imprimés ne constituent déjà plus l'essentiel de ce que les gens connectés lisent. Les librairies sont dans les faits devenues des cafés, avec un inventaire de livres. Les bibliothèques, lieux qui rassemblent les documents imprimés, sont elles aussi destinées à disparaître sous la forme que nous leur connaissons, parce que leur finalité, être un entrepôt organisé d'ouvrages imprimés, ne sera plus utile au commun des mortels qui consomme les documents en ligne. Des gens suggèrent qu'elles sont devenues des lieux de rencontres. Pour des étudiants à la recherche de documents, certainement ; pour les autres, probablement pas. Lorsque la majorité des contenus seront numérisés, l'utilité de la majorité des bibliothèques sera presque nulle sauf en tant qu'archives de documents imprimés (utiles pour prévenir des pertes irréparables à la suite de catastrophes). Baldwin mentionne Internet Archive qui a pour finalité première de mettre en ligne des ouvrages ; elle conserve pourtant une copie imprimée de chaque livre numérisé dans un conteneur. Également, des chercheurs souhaiteront des ouvrages imprimés pour les étudier à leur aise. Il discute de la conservation du patrimoine stocké en ligne. Il critique l'idée de laisser des sociétés gérer les masses d'ouvrages conservés dans le nuagique. [NdE : exemple récent d'échec : la perte de 14 millions de fichiers audio par la société Myspace, 450 mille ayant été « sauvés de l'extinction » par un groupe de chercheurs, fichiers qui sont néanmoins mal identifiés. [9]‌] Ces ouvrages constitueront une seule et unique bibliothèque mondiale, qui devra être maintenue par un groupe coordonné, peut-être des bibliothécaires. Finalement, Baldwin questionne la pertinence des maisons d'édition, puisque le médium papier est de plus en plus remplacé par des médiums dématérialisés. Toutefois, elles refusent de disparaître, « mettant en scène une sorte de film d'horreur rappelant Le Retour des morts-vivants, dernier stade du monopole de location avant leur fin inévitable »[trad 7].

Les créateurs, eux, continuent de produire, publiant de moins en moins chez les maisons d'édition traditionnelles. En 2010, par exemple, le nombre de livres imprimés était de trois cent mille, alors que le nombre de livres électroniques (publiés par Amazon et d'autres acteurs non-traditionnels) était de 4 millions. Dans les années subséquentes, le nombre de livres imprimés est resté stable, alors que le nombre de livres électroniques est descendu à trois quarts de million, ce qui constitue quand même trois fois plus de titres en format électronique. Les maisons d'édition de périodiques échappent en partie à cette tendance car elles publient des documents à consommer rapidement, puisque la recherche moderne est une course contre la montre et les idées novatrices exposées dans un article le sont seulement dans un seul périodique. Au contraire des autres monopoles, tel la livraison de courrier en première classe ou la distribution d'énergie électrique, l'industrie des périodiques n'est pas fermement régulée. Plus de la moitié des périodiques en sciences dures et en recherche médicale sont publiés par cinq ou six sociétés (selon certains critères) : Reed-Elsevier, Wiley-Blackwell, Springer, Taylor & Francis, American Chemical Society et SAGE Publications. Dans le domaine des sciences sociales, elles sont toutes aussi dominantes. Toutefois, les gouvernements subventionnent la majorité des recherches et n'y trouvent pas leur compte parmi ces sociétés qui dégagent des marges bénéficiaires dans la fourchette 30-40 %. Ils exigent de plus en plus régulièrement que les fruits des recherches soient gratuitement accessibles aux contribuables, qui paient les frais de recherche. Cette lame de fond a déjà sensiblement modifié la façon de publier dans les sciences dures, commençant timidement dans les années 1980 pour s'appliquer au tiers des publications aujourd'hui. Les lettres et les sciences sociales n'ont pas, elles, changé leur façon de faire entre-temps. Au Royaume-Uni, toutes les subventions à la recherche sont régulées par les mêmes autorités gouvernementales, lesquelles exigent de plus en plus souvent que les articles issus de travaux subventionnés soient publiés sous licence libre, laissant anticiper que cette politique s'appliquera aussi aux monographies.

Des maisons d'édition ont décidé de collaborer en proposant des programmes open access. Les auteurs doivent toutefois verser un montant pour y être publié, qui va de 5 000 à 15 000 dollars américains. Un calcul simpliste permet d'estimer le coût global des publications pour les États-Unis : multiplier trois cents mille livres par dix mille dollars pour arriver au montant de 3 milliards. L'ensemble des seuls programmes d'acquisition des bibliothèques américaines, au nombre de 120 000, est de 4,7 milliards annuellement. Le système actuel des bibliothèques est inefficace pour plusieurs raisons : il faut y apporter des livres imprimés, qui seront catalogués puis classés ; ensuite, les lecteurs doivent se rendre dans des bâtiments tempérés pour emprunter ou consulter sur place ces livres. S'ils étaient tous numérisés, les lecteurs du monde entier pourraient les consulter de chez eux, ce qui rendrait leur lecture et leur étude plus efficace. Ce scénario ne couvre pas, toutefois, les livres orphelins et les livres soumis au copyright. Selon Baldwin, 100 millions de livres élevés dans le domaine public ou qui ne sont plus publiés pourraient être numérisés, un effort gigantesque qui coûterait un milliard de dollars, une seule fois. Il propose un scénario similaire pour tous les périodiques publiés annuellement, estimant un coût annuel de 3-4 milliards US$. Il poursuit en indiquant que les institutions américaines paient annuellement 13 milliards pour l'acquisition de livres et de périodiques. Ce montant serait drastiquement réduit si tous les livres et tous les périodiques étaient livrés sous forme électronique, puisque les bibliothèques n'auraient plus besoin d'autant de salariés pour le maintien de leurs collections (catalogage, archivage, prêts, conservation, etc.).

« Avec l'argent versé au système des bibliothèques, nous pouvons rendre tout ce qu'elles contiennent, et tout ce qui sera jamais publié, accessible à n'importe qui, n'importe où dans le monde, s'il peut se connecter à Internet. [trad 8] »

Cet accès est d'ores et déjà techniquement et monétairement possible aux États-Unis. Si des pays emboîtent le pas, plus de livres seront accessibles à l'ensemble de la population humaine. Le seul obstacle ? Les lois et règlements actuels. Baldwin cite l'exemple, à ne pas suivre, de la Norvège qui a mis sur pied un programme de consultation gratuite à l'échelle nationale. Tous les Norvégiens peuvent consulter gratuitement n'importe quel livre publié avant 2000. Toutefois, le gouvernement norvégien aurait signé un accord trop avantageux pour les maisons d'édition.

Il cite les exemples d'Internet Archive (qui prête des livres électroniques à raison d'un par lecteur), la New York Public Library (qui souhaite signer des ententes de distribution sous format électronique de livres qui ne sont plus imprimés ; elle remet une copie électronique aux ayants droits, qui sont libres de la vendre) et Public.Resource.Org (qui publie les documents produits par des salariés du gouvernement fédéral américain, ainsi que tous les documents publiés entre 1923 et 1963 dont le copyright n'a pas été renouvelé). L'historien met en garde les lecteurs : tout le monde se dit écologique ou en faveur de l'environnement parce que ça donne une bonne image, le monde de l'édition se dit en faveur de l'accès libre pour la même raison. Les sociétés éditrices de périodiques y gagnent doublement : elles facturent les bibliothèques et elles améliorent leur réputation. Aux États-Unis, des chercheurs ont calculé qu'environ 6 % des articles publiés dans des périodiques scientifiques ne servent qu'à flatter la vanité des enseignants universitaires.

La bibliothèque Widener, pièce maîtresse du système de bibliothèques de l'université Harvard, comprend 3,5 millions d'ouvrages. Sera-t-elle le symbole d'une « révolte » contre le copyright ?

L'auteur demande ce que font les grandes bibliothèques universitaires et leur principale clientèle, c'est-à-dire les professeurs. Au lieu de mener le combat pour moderniser le système de la propriété intellectuelle, ils préfèrent mener des combats de retardements contre le libre accès. Déprimant. Les universitaires croient que leurs écrits méritent d'être grassement récompensés, alors qu'en vérité, les redevances ne constituent qu'une infime portion de leur revenu. Les véritables gagnants du refus de publier sans copyright sont entre autres les sociétés savantes qui recueillent de juteux montants grâce aux abonnements à leurs périodiques, lesquels sont souvent vendus dans des bouquets d'abonnement à prendre ou à laisser. Selon Baldwin, les chercheurs universitaires croient que s'ils peuvent consulter n'importe quel ouvrage publié par Google Livres, n'importe qui peut le faire. Dans les faits, le commun des mortels n'a pas accès à ces pages puisqu'il n'est pas abonné au service payant de Google Livres. Il poursuit en mentionnant Wikipédia, « le plus grand assemblage de connaissance humaine ayant jamais existé, le plus proche de ce que nous ne pourrons jamais obtenir de l'idée d'encyclopédie universelle imaginée par les Lumières. » [trad 9]. Dans celle-ci, la majorité des notes des articles servant à étayer les affirmations, renvoient très majoritairement à des ouvrages publiés sous copyright ou à accès payant (JSTOR, par exemple). Ce système souscrit donc au paradigme du copyright. La seule façon pour un lecteur de vérifier une assertion est d'aller à la bibliothèque.

Cette conception universitaire de l'accès au savoir, qui n'est pas partagée par M. Tout-le-monde, est probablement ce qui a amené Aaron Swartz à vouloir diffuser librement le contenu de JSTOR. C'est peut-être aussi la raison de la création de Sci-Hub, le plus grand entrepôt d'articles au monde après seulement six ans d'existence et qui poursuit sa croissance malgré la violation de toutes les lois sur le copyright ; puisqu'il est hébergé quelque part en Ukraine, jouant le rôle d'un caillou russe dans le soulier occidental, les ayants droits ne peuvent faire exécuter les jugements en leur faveur. Pour quelles raisons les chercheurs universitaires participent-ils encore au paradigme du copyright ? Selon Baldwin, en partie par inertie, en partie par ignorance. Ils ne paient pas les frais de publication. Ils bénéficient également du prestige d'être publiés dans certaines revues scientifiques, même si d'autres revues sont consultées par un plus grand nombre de professionnels. Les universités jugent favorablement les chercheurs qui publient dans ces revues prestigieuses. Les maisons d'édition offrent des services de révision de contenu et d'évaluation par les pairs, deux autres motifs de collaboration avec celles-ci, même si leurs travaux pourraient être utilement évalués par des pairs hors de l'industrie de l'édition scientifique.

Selon Baldwin, les universités doivent dorénavant considérer les chercheurs comme des salariés, de la même façon qu'Hollywood conçoit sa relation avec les créateurs. Évidemment, le monde universitaire s'y opposera, la plupart des universitaires croyant être les héritiers intellectuels des créateurs d'antan. Dans les faits, ils sont payés pour produire des contenus. Les droits intellectuels sur leur production doivent être maintenus, alors que leurs droits sur la dissémination ont cessé de leur appartenir depuis des lustres. Baldwin demande même que la distribution des contenus échappe au contrôle des maisons d'édition et que les productions écrites des chercheurs subventionnés par l'État soient automatiquement en libre accès. Il mentionne un programme d'ampleur dans cette direction en Australie (qui a pris son envol après dix ans d'opposition de l'industrie de la presse et d'inertie bureaucratique [lire en ligne] ). Il explique par ailleurs que le monde académique n'a pas à se coordonner avec les maisons d'édition, puisque les chercheurs ne sont pas des salariés de ces sociétés. Vers la fin de l'article, il mentionne l'exemple de Lionel Gossman, professeur émérite en littérature française de l'université de Princeton qui a publié plusieurs ouvrages chez Open Book Publishers (en) ces dernières années. Baldwin a pour sa part téléversé un livre sur l'évolution du copyright en Europe et aux États-Unis, The Copyright Wars, dans Internet Archive.

Dans les coulisses de la Wikimedia

Enregistré sur Phabricator
Tâche 44085

Wikishort — Un réducteur d'URL dédié à l'écosystème Wikimedia sera disponible à partir du 11 avril[2] sur meta:Special:UrlShortener. Cela devrait régler plusieurs problèmes, dont notamment celui du raccourcisseur d'URL actuellement utilisé par le système de requêtes de Wikidata : bit.ly[3], ou encore TinyURL qui était utilisé ailleurs et qui est blacklisté[4]. L'URL à raccourcir doit se trouver dans l'écosystème Wikimedia. Les sites « satellites » comme Wikimedia Toolforge, Wiki Loves Earth, Wiki Loves Monuments et les chapters Wikimedia, ne sont pas inclus parce qu'ils ne sont pas soumis aux mêmes règles de sécurité en ce qui concerne la gestion du trafic Internet. [10].

2030 — Cela fait un certain temps que le mouvement Wikimedia consulte différent-e-s intervenant-e-s sur leur vision de l'évolution du mouvement jusqu'à l'horizon 2030. Une analyse de l'aspect branding de la chose a été rendue accessible. On y présente différentes statistiques sur la perception des différentes « marques » du mouvement. On y conclut, entre autres, que le mouvement devrait miser sur le nom « Wikipedia » plutôt que « Wikimedia » et que, par souci d'uniformité, Wikimedia Commons devrait changer de nom pour Wikicommons. <On en parle au Bistro du 5 avril>

Ces photos sont chronologiquement inversées. Dans un avenir rapproché, verra-t-on apparaître des galeries de photographies, découvertes dans des « archives » oubliées, comprenant de plus en plus de portraits « authentiques » ?

Images synthétiquesNvidia a publié en 2018 un logiciel qui permet de créer en quelques secondes, sur un ordinateur de bureau doté d'une carte graphique de la société, une image synthétique inspirée d'une scène réelle. [11] Ce logiciel est également capable de créer un portrait synthétique, c'est-à-dire que le visage en question n'existe que dans les pixels d'une image (pour des exemples, voyez [12], [13], [14], [15]). Publié sous licence libre, StyleGAN utilise le CUDA de Nvidia (un freeware), ainsi que TensorFlow, bibliothèque logicielle publiée sous licence libre. StyleGAN peut également créer des portraits d'animaux et des photos d'automobiles. [16]
La possibilité de créer des portraits synthétiques peut sembler périphérique à l'écosystème Wikimedia. Mais combien de wikis réutilisent les illustrations de Wikimedia Commons ? Combien de sites Web réutilisent les illustrations de Commons ? Est-ce que la communauté wikimédienne pourra garantir que les portraits stockés sur Commons représentent des personnes réelles, et ne sont pas des portraits synthétiques ? Si le portrait d'une personnalité est téléversé dans Commons dans les années 2020, qui pourra valider son authenticité ? Faudra-t-il mettre en place des gardes-fous pour empêcher le téléversement de portraits synthétiques ? D'autres questions se poseront et d'autres problèmes surgiront à l'usage.

Localités en rouge

Murshidabad
Murshidabad, une localité de l'Inde décrite dans l'Encyclopædia Britannica et ayant une entrée dans 32 versions linguistiques de Wikipédia, mais pas en français.
Géographie
Pays
État
Division
Malda division (en)
District
Sous-division
Lalbag subdivision (en) (chef-lieu)
Altitude
10 m
Coordonnées
Démographie
Population
44 019 hab. ()
Fonctionnement
Statut
Municipalité du Bengale (d)
Histoire
Origine du nom
Identifiants
Code postal
742149
TGN
Indicatif téléphonique
3483
Prononciation

En mars, nous vous avons présenté une liste d'articles à créer sur des femmes ayant au moins une entrée dans un dictionnaire et d'encyclopédie classiques. Cette liste peut-être adaptée pour d'autres types d'entrées.
Nous vous présentons donc une liste de Q486972 (« localité ») en ordre décroissant de liens interlangue et n'ayant pas d'article sur frwiki.

Soyez prudent-e-s car certaines des entrées précédentes existent déjà sous une autre forme (par exemple, Zanzibar). Cela est dû à la non-gestion des redirections par Wikidata.

Quiz du mois

« Donnez-vous un point pour chaque bonne réponse et partagez votre score dans la section du courrier du lectorat »

D'après vous, quels sont les 10 femmes et les 10 hommes possédant un article dans le plus grand nombre de versions linguistiques de Wikipédia ?[note 2]

Pierrots — Des informations sensibles, publiées confidentiellement en 2007, auraient été diffusées sur le site des Pierrots le 25 mars 2019. Toutefois, il est impossible de comparer les citations du billet avec les journaux, puisque ces derniers sont à accès confidentiel ou ont été supprimés. Des contributeurs de la Wikipédia en français spéculent sur la façon dont ces informations auraient pu se rendre dans les mains de l'auteur (ou des auteurs) du billet. Des wikipédiens demandent de durcir l'accès aux journaux et à tout autre moyen de communication des vérificateurs d'adresse et des arbitres, mais les propositions ont des inconvénients qui ne sont pas nettement contre-balancées par les avantages.
Voici quelques sections à lire, dans l'ordre chronologique, pour mieux comprendre les enjeux :

SPARQL du mois

SPARQL sur Wikidata
Ces incantations émergent surtout du travail de Simon Villeneuve.

Le SPARQL permet de trier selon divers critères les plus de 55 millions d'éléments de Wikidata. À chaque mois, vous êtes invités à dénicher la requête SPARQL qui vous semble la plus intéressante pour les lectrices et lecteurs des RAW.

Sur Wikidata, les éléments (Q) sont les nœuds et les propriétés (P), les mailles. Le rapport est d'environ 10 000 pour 1 (environ 50 millions d'éléments pour environ cinq mille propriétés). Les mailles sont unidirectionnelles et une association Q-P-Q est appelée un triplet.
Qualificatifs

Wikidata est une base de données structurées constituée principalement d'éléments (Q), de propriétés (P), de lexèmes (L), de valeurs chiffrées et de certaines chaînes de caractères. Chaque Q, P et L peut être doté d'étiquettes, de descriptions et d'alias. Les éléments sont liés entre-eux par des triplets RDF prenant la forme Q -> P -> Q, et parfois la forme d'un quintuplet Q -> P -> Q -> P -> Q.

Il est relativement aisé de faire des requêtes lorsque l'on se contente d'invoquer des triplets. Il s'agit d'utiliser les préfixes wdt: pour P et wd: pour Q. Ainsi, par exemple, on peut obtenir facilement la liste des Q27676428 (« municipalité ») du Québec et trier ces dernières par ordre décroissant de population :

SELECT DISTINCT ?itemLabel ?pop ?item WHERE {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q27676428 ; wdt:P1082 ?pop .} group by ?itemLabel ?pop ?item order by desc (?pop)

Cliquez pour essayer !

Exemple de valeur (Emma Watson) à laquelle on a ajouté un qualificatif (character role : Hermione Granger).

Les choses se compliquent dès que l'on veut obtenir des qualificatifs (qualifiers), c'est-à-dire une association supplémentaire P -> Q liée à un triplet donné, ce qui en fait un quintuplet. Par exemple, on pourrait vouloir savoir en quelle année la population des municipalités a été évaluée, ce qui est donné en qualificatif à l'aide de P585 (« date »).

Pour obtenir les qualificatifs, il faut utiliser d'autres préfixes (voir l'illustration ci-contre). Ainsi, il faut lier la propriété avec les préfixes p: et ps: et la propriété du qualificatif avec pq:. Cela donne, pour notre exemple :

SELECT DISTINCT ?itemLabel ?pop ?date ?item WHERE {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q27676428 ; p:P1082 ?affirmation . ?affirmation ps:P1082 ?pop . ?affirmation pq:P585 ?date .} group by ?itemLabel ?pop ?item ?date order by desc (?pop)

Cliquez pour essayer !

Sainte-Sophie
Sainte-Sophie est la municipalité du Québec la plus populeuse en 2016.
Géographie
Pays
Province
Région administrative
Municipalité régionale
Superficie
111,5 km2
Coordonnées
Démographie
Population
18 080 hab. ()
Densité
162,2 hab./km2 ()
Gentilé
Sophien, Sophienne
Fonctionnement
Statut
Municipalité (d)
Histoire
Fondation
Identifiants
CGT
2475028
Site web

On remarque ainsi que la liste mélange des valeurs de populations établies en 2011 et en 2016. On peut décider de ne garder que les valeurs de 2016 :

SELECT DISTINCT ?itemLabel ?pop ?date ?item WHERE {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31 wd:Q27676428 ; p:P1082 ?affirmation . ?affirmation ps:P1082 ?pop . ?affirmation pq:P585 ?date . FILTER(year(?date) = 2016)} group by ?itemLabel ?pop ?item ?date order by desc(?pop)

Cliquez pour essayer !

Q3266236 (« comte Dracula ») est le personnage le plus souvent spécifié en qualificatif P453.

Si la démographie vous intéresse moins, on peut prendre un autre exemple en recensant le P453 (« rôle ») le plus souvent utilisé pour la propriété P161 (« distribution ») :

#Rôles les plus souvent mentionnés dans les distributions de films.SELECT DISTINCT ?roleLabel ?role (COUNT(?role) AS ?count) WHERE {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31/wdt:P279* wd:Q11424 ; p:P161 ?affirmation . ?affirmation ps:P161 ?pop ;              pq:P453 ?role . }GROUP BY ?roleLabel ?roleORDER BY DESC (?count)

Cliquez pour essayer !

On constate que le qualificatif le plus utilisé est Q18086706 (« lui/elle-même ») (371 fois).

Prenons la 9e entrée, Q2009573 (« James Bond »). On peut faire la liste chronologique des films dans lesquels apparaît ce personnage et les acteurs qui l'ont incarné :

#Films dans lesquels apparaissent James Bond et acteurs l'ayant incarné, en ordre chronologiqueSELECT DISTINCT ?itemLabel ?acteurLabel WHERE {SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". } ?item wdt:P31/wdt:P279* wd:Q11424 ;      wdt:P577 ?date ;      p:P161 ?affirmation . ?affirmation ps:P161 ?acteur ;              pq:P453 wd:Q2009573 . }order by ?date

Cliquez pour essayer !

Si vous n'êtes ni démographe, ni cinéphile, peut-être que recenser le nombre de P856 (« site officiel ») par P407 (« langue de l'œuvre, du nom ou du terme ») pourrait vous intéresser :

#Les sites officiels en fonction de leur langueselect ?langue ?langueLabel (COUNT(?langue) AS ?count)WHERE { ?item p:P856 ?site .  ?site ps:P856 ?s .    ?site pq:P407 ?langue .  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }}group by ?langue ?langueLabelorder by desc (?count)

Cliquez pour essayer !

Ainsi, sur le million de sites officiels inscrits dans Wikidata[5], un peu plus de 130 000 sont qualifiés d'anglais alors que la deuxième langue recensée, le français, touche un peu plus de 5 000 éléments.

Horus Crocodile
Fonction
Pharaon
Titre de noblesse
Pharaon
Biographie
Naissance
Décès
XXXIe siècle av. J.-C. (?)
Époque
Activité
Famille
Horus Crocodile est l'humain ayant la plus vieille date de décès incertaine.

Enfin, si vous n'êtes ni démographe, ni cinéphile, ni amateur de langues, peut-être que recenser les différents qualificatifs associés aux dates de naissance et de décès pourrait vous intéresser. Ainsi, par exemple, quelles sont les entrées de P569 (« date de naissance ») et P570 (« date de mort ») qui sont Q18122778 (« présumé ») ?

#Les éléments ayant dont une date de naissance ou de décès est qualifiée de présumée.select ?item ?itemLabel ?bdWHERE { ?item wdt:P31 wd:Q5 ;       (p:P569|p:P570) ?nm .  ?nm (ps:P569|ps:P570) ?bd.    ?nm pq:P1480 wd:Q18122778 .  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO LANGUAGE],en". }} order by ?bd

Cliquez pour essayer !

Références

Être capable de rapatrier les qualificatifs permet de recueillir les références. C'est particulièrement utile pour, notamment, corriger des erreurs qui ont été introduites à partir d'une source donnée.

Ainsi, par exemple, il a été remarqué que les dates provenant de Wikipédia en russe sont souvent juliennes et que la très grande majorité des dates entrées sur Wikidata sont grégoriennes. En conséquence, on peut trouver tous les éléments où les P569 (« date de naissance ») et P570 (« date de mort ») sont sourcées par Q206855 (« Wikipédia en russe ») :

#Les éléments dont une date de naissance ou de décès est sourcée à partir de ruwiki.select ?item ?itemLabel ?bdWHERE { ?item (p:P569|p:P570) ?nm .  ?nm (ps:P569|ps:P570) ?bd.    ?nm prov:wasDerivedFrom ?from.  ?from pr:P143 wd:Q206855.  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO LANGUAGE],en". }} order by ?bd

Cliquez pour essayer !

Comme on pouvait s'en douter, le temps de calcul alloué ne permet pas d'obtenir de résultats. Tout au plus pouvons-nous dénombrer le nombre de valeurs concernées :

#Le nombre de dates de naissance ou de décès sourcées à partir de ruwiki...select (COUNT(?from) AS ?count)WHERE { ?item (p:P569|p:P570) ?nm .  ?nm (ps:P569|ps:P570) ?bd.    ?nm prov:wasDerivedFrom ?from.  ?from pr:P143 wd:Q206855.}

Cliquez pour essayer !

...qui est de 318 263.
Contentons-nous alors des éléments dont le P27 (« pays de nationalité ») est la Q159 (« Russie ») :

#Les éléments ayant pour pays la Russie et dont une date de naissance ou de décès est sourcée à partir de ruwiki.select distinct ?item ?itemLabel ?bdWHERE { ?item wdt:P27 wd:Q159 ;       (p:P569|p:P570) ?nm .  ?nm (ps:P569|ps:P570) ?bd.    ?nm prov:wasDerivedFrom ?from.  ?from pr:P143 wd:Q206855.  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO LANGUAGE],en". }} order by ?bd

Cliquez pour essayer !

Nous obtenons plus de 46 000 éléments.
Puisque toutes les dates russes précédant l'URSS sont possiblement juliennes, nous pouvons adapter cette requête pour ne garder que les dates précédant 1918 :

#Les éléments ayant pour pays la Russie et dont une date de naissance ou de décès est sourcée à partir de ruwiki.select ?item ?itemLabel ?bdWHERE { ?item wdt:P27 wd:Q159 ;       (p:P569|p:P570) ?nm .  ?nm (ps:P569|ps:P570) ?bd.    ?nm prov:wasDerivedFrom ?from.  ?from pr:P143 wd:Q206855. filter (?bd < "1918-01-01"^^xsd:dateTime)  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO LANGUAGE],en". }} order by ?bd

Cliquez pour essayer !

Nous obtenons ainsi un peu plus de 2 000 résultats. Nous pouvons vérifier ceux-ci seul, lancer un appel à la communauté pour nous aider, créer un qualificatif semblable à Q26961029 (« déclaration avec une date utilisant le calendrier grégorien avant 1584 ») pour ces valeurs, etc.

On peut également adapter la requête pour recenser les éléments ayant Q34266 (« Empire russe ») comme P27 :

#Les éléments ayant pour pays la Russie et dont une date de naissance ou de décès est sourcée à partir de ruwiki.select ?item ?itemLabel ?bdWHERE { ?item wdt:P27 wd:Q34266 ;       (p:P569|p:P570) ?nm .  ?nm (ps:P569|ps:P570) ?bd.    ?nm prov:wasDerivedFrom ?from.  ?from pr:P143 wd:Q206855. filter (?bd < "1918-01-01"^^xsd:dateTime)  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO LANGUAGE],en". }} order by ?bd

Cliquez pour essayer !

ce qui nous donne un peu plus de 25 000 éléments supplémentaires.

Terminons en recensant le nombre d'images, d'images de blasons, de sceaux et de vidéos qui utilisent P2096 (« légende de média ») :

#Le nombre de légendes d'images, d'images de blasons, de sceaux et de vidéoselect (COUNT(?legende) AS ?count)WHERE { ?item (p:P18|p:P94|p:P10|p:P158) ?i .  ?i (ps:P18|ps:P94|ps:P10|ps:P158) ?image.  ?i pq:P2096 ?legende.}

Cliquez pour essayer !

Ce qui donne environ 66 000 résultats.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)


« [à propos d'une sécheresse[note 3] qui a fait ~30 millions de morts vers 1877] Cela ne vous dit absolument rien ?
Normal : cet événement planétaire a été si peu étudié qu'il ne possède même pas de fiche Wikipédia.
 »

— Vincent Nouyrigat , Science et Vie, 22 mars 2019[6],[7]
Rédigé/traduit par Cantons-de-l'Est et Simon Villeneuve.
Citations originales
Notes
Références
Cliquez pour essayer !
  • Vincent Nouyrigat, « La catastrophe climatique oubliée : 30 millions de morts entre 1876 et 1878 »,
  • https://twitter.com/Frakir_/status/1122496872969584640
  • Ce document provient de « https:https://www.search.com.vn/wiki/index.php?lang=fr&q=Wikipédia:RAW/2019-05-01&oldid=196550140 ».
    🔥 Top keywords: