Cartographier les liens des sites d’information : enjeux de la récolte de données

Je reprends et détaille ici ma présentation de ce 25 mai lors des journées doctorales. Le support visuel de cette présentation est également disponible.

Mon projet de recherche tente d’interroger les spécificités du journalisme en ligne – ce qui fait la différence entre médias en ligne et médias traditionnel – et se concentre plus particulièrement sur l’une de ces spécificités : les hyperliens. J’expliquerai ici pourquoi les liens constituent un objet d’intérêt pour l’étude du journalisme en ligne ; j’exposerai en quoi les cartographie des réseaux de liens me paraissent constituer une méthode adéquate pour les étudier ; et je détaillerai un des enjeux méthodologiques de cette proposition, c’est-à-dire la récolte des données.

Les hyperliens, ou liens, sont ces éléments d’une page sur lequel l’utilisateur peut cliquer pour atteindre un autre élément, une autre page ou un autre site.  Plusieurs promesses leurs sont associées dès qu’il s’agit du journalisme en ligne, c’est-à-dire que les liens permettraient une information de meilleure qualité grâce aux valeurs suivantes, qu’ils incarneraient : interactivité, crédibilité, transparence et diversité. Ces valeurs participent aux « mythes du journalisme en ligne » (Domingo 2008), dont on ne retrouve pas uniquement des traces dans les hyperliens. Il s’agit, plus largement, d’un « programme pour créer un journalisme plus transparent, complet et dialogique qui renforcerait la participation démocratique dans les sociétés plurielles » (Domingo 2008, p.683) ; les liens, et les valeurs qui leur sont associées, participent pleinement à ce programme.

Les promesses associées aux liens pour le journalisme en ligne sont les suivantes : interactivité, crédibilité, transparence, diversité. Pour plus de détails, voyez ce post ou mon article « Methods for mapping hyperlink networks » (PDF).

Décalage entre promesses et usage

Jusqu’ici, les études empiriques portant sur les liens des sites d’information (e.g. Dimitrova et al. 2003; Oblak 2005; Tremayne 2005; Tsui 2008) ont montré que ceux-ci offraient peu ou pas de liens externes (c’est-à-dire des liens dirigeant l’utilisateur vers d’autres sites, par opposition aux liens internes qui servent à la navigation dans les frontières d’un même sites). Il ne s’agit donc pas de dire que les promesses ne sont pas tenue ou que l’une prend le pas sur les autres : pour le moment, le constat est celui de l’absence du phénomène. Malgré cela, les promesses survivent, et se trouvent même revigorées par ce qu’on appelle le web 2.0. C’est ainsi qu’on apparaître des plaidoyers en faveur du « journalisme de liens » comme un des possibles futurs d’un journalisme en ligne de qualité.

Journalisme de liens?

Proposer une méthode : cartographier les réseaux de liens

Voilà pourquoi étudier les liens des sites d’information constitue un des enjeux majeurs dans l’étude du journalisme en ligne. Pour ce faire, je propose de privilégier la méthode suivante : cartographier les réseaux de liens.

Wikiopole, blogosphère française, mars 2010

Les cartes comme celle-ci permettent un « effort de compréhension du système dont les « lois » et les « formes » ne nous sont jamais encore apparues clairement, hormis sous forme de listes de mots-clefs et d’URL telles que les proposent les moteurs de recherche » (Ghitalla 2009). Représenter les sites web et leurs liens dans un espace à deux dimensions permet de pallier l’absence de spatialisation inhérente aux moteurs de recherche (qui ne proposent que des listes à plat artificiellement ordonnées) et aux navigateurs, qui ont le nez sur un site en particulier et ne permettent pas de voir son environnement (Ghitalla 2009; Heymann 2008; Ghitalla et al. 2005; Pfaender & Jacomy 2006). Les cartes offrent une vue d’ensemble, et la possibilité de voir où se situent les sites les uns par rapport aux autres.

Les cartes des réseaux de liens sont d’abord un instrument de lecture analytique (Ghitalla 2008). Elles permettent de détecter des effets de système, des caractéristiques de la dynamique des liens.

sites de médias français et groupes propriétaires

Par exemple, la carte ci-dessus montre les sites de médias français et leurs liens. Les couleurs représentent les groupes propriétaires de ces sites. On voit que certains sites appartenant aux mêmes propriétaires sont regroupées en grappes : c’est un effet du réseau et de l’algorithme de force choisi pour le représenter. Personne n’a décidé que les sites appartenant à Lagardère, par exemple, seraient proches sur la carte. Ils sont proches parce qu’ils sont fortement liés entre eux, et peu liés aux autres sites. Le principe régissant la représentation est le suivant : les sites liés s’attirent, et ceux qui ne sont pas liés se repoussent. La carte permet dès lors de visualiser clairement ces groupements, ces effets de grappes.

Au-delà des effets propres au système, les cartes permettent aussi de se pencher sur les individus et de révéler des caractéristiques qui ont trait à leur identité – si on suit l’idée qu’on « est ce qu’on lie » (Adamic & Adar 2001). Par exemple, on peut s’intéresser à un blog particulier et à son environnement. Les coulisses de Bruxelles est le nom du blog tenu par Jean Quatremer, journaliste pour le quotidien Libération et spécialisé dans les affaires européennes (ce dont le blog traite principalement). Deux cartes qui contiennent ce blog peuvent nous aider à comprendre où il se situe. La première, Wikiopole (le lien semble cassé, à défaut de pouvoir explorer la carte vous pouvez revoir l’image ici) contient les 1500 premiers blogs du classement Wikio – et est considérée comme une bonne vue d’ensemble de la blogosphère française, même si ce classement est forcément le fruit d’une construction (Véronis 2008a; Véronis 2008b).

blog de Jean Quatremer dans Wikiopole (en 2009)

Si on se penche plus précisément sur le blog de Quatremer, on peut voir que celui-ci récolte un bon nombre de liens entrants (en rouge), c’est-à-dire des liens issus d’autres blogs vers Les coulisses de Bruxelles. A contrario, il y a peu de liens sortants (en jaune), c’est-à-dire des liens créés par Quatremer depuis son blog vers d’autres blogs. De manière assez paradoxale, Les coulisses de Bruxelles font donc partie de la blogosphère française, sans y participer : le blog est cité par un nombre respectable d’autres blogs, ce qui en fait une autorité si on considère que les liens transmettent quelque chose qui a trait au pouvoir ou à la crédibilité (Halavais 2008, p.43), mais il ne redistribue pas son autorité dans la blogosphère. L’autre carte qui contient ce blog est la carte de la toile européenne, qui rassemblé plus de 2000 sites traitant de l’Union Européenne – il s’agit de sites d’institutions, d’associations, de médias, etc.

blog de Quatremer dans la toile européenne (en 2009)

Ici, la situation des Coulisses de Bruxelles est différente : le blog récolte des liens entrants (en rouge) mais émet aussi des liens sortants (jaunes). On trouve également des liens réciproques (en vert). Mise côte à côte, ces cartes révèlent que Jean Quatremer s’intègre plus activement dans la toile européenne que dans la blogosphère française. Cela mène à s’interroger sur son identité de journaliste-blogueur : il ne participe pas à la conversation partagée (incarnée dans les liens) des blogueurs, mais privilégie des liens vers la variété de sources reprises dans la toile européenne, ce qui correspond plus aux pratiques journalistiques.

Interroger les liens, c’est-à-dire la structure du web, permet donc de dire quelque chose sur son contenu, ou au moins sur des questions d’identité. Des « propriétés topo-sémantiques (…) s’incarnent dans des patterns visuellement manipulables » (Ghitalla 2009). Puisque nos objets d’étude sur le web sont « reliés à des univers auxquels ils sont organiquement associés » (Ghitalla et al. 2005), les cartes des réseaux de liens permettent d’échapper à une vision restreinte. Pour le chercheur, les cartes ont une fonction heuristique, et les tracer lui permet d’explorer et de décrire son domaine d’intérêt – y compris à l’aide d’indicateurs statistiques puisque compter et classer sont les opérations à la base de la constitution cartographique. Mais in fine, les cartes, une fois tracées, s’adressent également à tous les utilisateurs : elles sont aussi un outil d’exploration et de découverte, un guide.

Les enjeux de la collecte des données

Pour cartographier, deux ensembles de méthodes (et d’outils au service de ces méthodes) sont à mettre en œuvre : ceux qui permettent de collecter les données et ceux qui permettent de les visualiser. Je m’attacherai ici à décrire et à problématiser les enjeux du premier ensemble, en termes généraux ainsi qu’en ce qui concerne les spécificités de l’étude des sites d’information.

Il faut d’abord s’interroger sur ce que sont les « données ». De prime abord, elles paraissent évidentes : les liens dont on parle ici ont une existence matérielle, ils sont directement observables. A contrario, si je m’intéressais aux réseaux sociaux, je devrais mettre en œuvre des moyens pour formaliser des liens (sociaux) qui ne sont pas directement observables par le chercheur. Par exemple, si je voulais cartographier les liens qui unissent les gens qui assistent aux journées doctorales, je devrais demander à chaque personne de me dire qui elle connaît dans l’assemblée, ou qui sont ses collègues ou ses amis. Sur base de l’information ainsi obtenues – les « données » sont donc des « obtenus », comme le fait remarquer Bruno Latour (2001) – je pourrai tracer le réseau des relations que j’ai choisi d’étudier. A contrario, étudier les hyperliens ne demande pas à première vue « d’obtenir » les données : elles sont là, dans le code html des pages web, il suffit littéralement de les collecter, de les cueillir. De plus, étant donné le caractère explicite des liens, cette cueillette semble réalisable à grande échelle et de manière automatisée, grâce aux outils qu’on appelle crawlers.

Cette simplicité est évidemment trompeuse. Il faut d’abord souligner que la vision objectiviste du web « comme un  monde en soi » qu’il suffirait d’observer est contestable: le web est un « document numérique reconstruit à partir d’un potentiel calculatoire » (Heymann 2008) – et cette reconstruction peut varier, par exemple, selon les navigateurs, ce qui permet déjà de mettre en question le caractère immuable du web en tant que « données ».

Ensuite, récolter les liens à grande échelle et de manière automatisée fait courir le risque de noyer la recherche dans le bruit. En effet, le web fait partie de ces réseaux à propos desquels ont été constatés des phénomènes de « petit monde » (small world phenomenon) (Adamic 1999; Barabasi 2003) : il est très facile de passer d’un site à l’autre. Il a été montré que la distance moyenne entre deux pages sélectionnés aléatoirement est de 11 clics (ce qui, à l’échelle du web, est remarquablement petit). Explorer et suivre massivement les liens de manière automatisée reviendrait donc, très rapidement, à vouloir indexer tout le web, ce qui n’est évidemment pas l’objectif de cette recherche.

Par ailleurs, un lien ne peut être compris que dans son contexte, ce qui implique de devoir identifier les sites et les pages dans lesquels les liens se trouvent (Fragoso 2009, p.9). « La nature universelle des liens en font un artefact difficile à comprendre. La question de ce que quelqu’un a voulu signifier en créant un lien ou en en activant un est entièrement déterminée par le contexte » (Halavais 2008, p.43). Tout cela signifie qu’une carte n’a de sens que quand chaque nœud, chaque site a été identifié et méticuleusement classifié par le chercheur, en fonction de sa question de recherche. Les cartes ne sont pas pertinentes si les données ne sont pas interprétées en amont (Jacomy & Ghitalla 2007).

En termes de récolte de données, le crawl automatique ne paraît donc pas constituer une méthode satisfaisante. C’est au chercheur de constituer minutieusement son corpus, et de décider ce qui doit en faire partie ou non. Il s’agit dès lors de se diriger vers une exploration manuelle qui serait soutenue et systématisée par des outils à caractère semi-automatiques : ce que certains appellent la « navigation augmentée » ou « l’automatisation supervisée » (Heymann 2008). L’outil que j’ai expérimenté jusqu’ici, Navicrawler, met en œuvre ce genre de méthode. Il s’agit d’un add-on pour le navigateur Firefox, qui permet au chercheur d’explorer les sites qui lui semblent appartenir à son domaine d’intérêt, de les inclure ou non dans son corpus, d’explorer systématiquement les liens qui existent sur les sites qu’il visite, et de classer les sites en fonction de catégories qu’il détermine. On voit ici se dessiner les deux opérations principales de la collecte de données : incorporer et classer les sites. Loin d’être des opérations univoques, celles-ci sont également à problématiser, puisqu’elles nécessitent de déjà d’entamer un travail d’analyse.

Circonscription du phénomène

La première opération concerne les frontières du corpus et la circonscription du phénomène qu’on souhaite étudier (Pfaender & Jacomy 2006; Jacomy & Ghitalla 2007). Le web n’a pas de frontière « naturelles » dans l’espace ou dans le temps. Les sites d’information sont particulièrement instables, ils comptent un grand nombre de pages et sont toujours réactualisés. La carte sera donc forcément figée, une synthèse locale (Ghitalla 2008) et provisoire résultant de l’arbitrage du chercheur qui doit répondre aux questions suivante : où commencer et où s’arrêter ?

Les critères d’arbitrage qui motivent la décision d’inclure ou non un site dans le corpus dépendent évidemment de l’objet d’étude et de la question de recherche. La plupart des cartographies des réseaux de liens que j’ai rencontrées se basent avant tout sur des critères thématiques (Highfield 2009; RTGI 2007; Ghitalla et al. 2006) ou sur des limites nationales (Etling et al. 2009; Kelly & Etling 2008, Wikiopole). Par exemple étudier les blogs politiques implique des critères d’arbitrage assez clairs : il doit s’agir de blogs qui parlent de politique. Les points d’entrée pour constituer ce corpus pourront être les quelques blogs politiques les mieux classés dans un répertoire de blogs comme Wikio ou Technorati. Ensuite, en explorant les liens de ces blogs-là, on trouvera d’autres blogs appartenant au domaine, dont on explorera également les liens. On rejettera ceux qui ne satisfont pas les critères (blog et politique), ce qui permettra d’identifier des domaines connexes, qui seront peut-être pertinents pour l’analyse (les blogs parlant de politique seront peut-être liés à ceux qui parlent d’économie, ou aux blogs d’actualités en général) et donc potentiellement inclus dans la carte pour donner un aperçu plus large de l’environnement qu’on étudie. Ainsi, par itérations successives, le domaine sera circonscrit jusqu’à ce que l’analyste ait atteint la saturation et épuisé le domaine, c’est-à-dire jusqu’à ce qu’il ne découvre plus de nouveaux sites (ou plus suffisamment pour justifier de nouvelles itérations). Tout ceci se base sur l’idée des « localités thématiques » (topical localities, Davison 2000) qui veut que la proximité hypertexte corresponde à une proximité des contenus (Ghitalla et al. 2005).

Les sites d’information n’entrent évidemment pas dans cette logique : il ne possèdent aucune cohérence thématique a priori. Dès lors, dans le cas de cette recherche, il n’est pas possible de discriminer les sites sur base d’un critère thématique, d’autant plus que l’objectif de recherche est de dresser l’état des lieu des liens des sites d’information : tous les liens sont donc à prendre en considération. Les seuls liens que l’analyste peut rejeter, dans un premier temps, sont ceux qui mènent à des sites inexistants ou inaccessibles (ceux qui requièrent un identifiant et un mot de passe, par exemple), ainsi que ceux qui émanent clairement d’espaces publicitaires.

De plus, les sites d’information appartiennent à « la couche supérieure du web » ou en sont très proches. Il s’agit de sites très génériques et hautement connectés, qu’il est généralement déconseillé d’inclure dans une cartographie parce qu’ils font sortir du domaine exploré, de la « zone pertinente » (Jacomy & Ghitalla 2007).

Ces deux aspects – absence de cohérence thématique et proximité avec les couches supérieures du web – rendent la collecte de données difficile et mènent finalement à la question suivante : est-ce que les liens autour des sites d’information forment des réseaux ? Analyser un domaine en termes de réseau exige que ce domaine soit circonscrit de manière raisonnable (en étant le plus complet possible et en évitant trop de bruit). Or on a vu que l’objectif de ma recherche est de faire l’état des lieu des liens des sites d’information : toute forme de circonscription est dès lors impossible. Si on veut considérer tous les liens émanant des sites d’information, force est de constater qu’ils ne se constituent pas en réseau : ils sont trop variés pour être interconnectés comme un domaine thématique le serait.

sites d'information français et leurs liens (avril 2010)

Une carte générale reprenant des sites d’information, comme celle qu’on voit ci-dessus concernant les sites d’information français, et les liens qu’on y a trouvés, n’est pas un véritablement réseau. Les liens ont ici été explorés de manière inégalitaire : on s’est beaucoup intéressé aux liens émanant des sites d’information, qui ont été explorés en profondeur – mais beaucoup moins aux liens émanant des autres sites, qui n’ont été explorés que superficiellement. Il ne s’agit pas d’un réseau, mais de quelques coups de sondes qui ont été rassemblés sur une même carte, et qui possèdent quelques connexions. Ce n’est pas pour ça que ce genre de carte n’est pas intéressant : elle permet de décrire et visualiser la situation, mais elle ne permet pas de détecter de véritables effets de réseau – comme le calcul des autorités (les sites d’information auront forcément plus d’autorité puisque la façon dont a été faite l’exploration se centre sur leurs liens, qui sont donc forcément plus nombreux que les autres liens).

Là où des explorations de réseaux deviennent possibles, c’est quand on se concentre sur des sous-graphes, des portions de la carte générale des liens des sites d’information. C’est ici qu’intervient la deuxième opération liée à la collecte des données : la classification.

Classer les sites et explorer les sous-graphes

Une première phase d’exploration consistera donc à explorer les liens des sites d’information et à les inclure dans le corpus. Au cours de cette première phase pourront émerger des premières catégories qui serviront à organiser le corpus et à lui donner un sens. L’outil que j’ai utilisé jusqu’ici, Navicrawler, permet de d’abord classer les sites librement, puis d’organiser des catégories plus structurées – ce qui favorise donc l’émergence de classifications en fonction du corpus (même si des catégories a priori ne sont pas interdites : dans le cas des sites d’information, il est évident que les promesses associées aux liens pour le journalisme en ligne constituent une des catégories qu’il est pertinent de garder à l’esprit). Cette classification émergente permettra de faire apparaître des sous-graphes qu’il est possible de circonscrire. Par exemple, tracer la carte générale des liens des sites d’information français m’a permis de faire émerger deux catégories intéressantes : les liens vers les autres médias et les liens vers les blogs. Il a donc été possible de se concentrer sur ces deux sous-graphes et de les explorer plus en profondeur, sur base d’un critère discriminant qui permettra d’inclure ou non des sites dans le sous-corpus, et d’espérer épuiser le sous-domaine ainsi exploré. Ces sous-graphes pourront se constituer en véritables réseaux.

Conclusions

Examiner les enjeux liés à la collecte de données a montré qu’il s’agissait d’une étape essentielle dans un projet de cartographie de liens. S’attarder sur les deux opérations principales constituant cette collecte – incorporer les sites et les classer – a permis de souligner que, loin de constituer une étape évidente, la collecte de données nécessite des arbitrages de la part du chercheur, qu’il convient d’expliciter. Les spécificités des sites d’information en ligne ont, quant à elle, rappelé qu’il était essentiel de toujours garder à l’esprit la question suivante : s’agit-il vraiment d’un réseau ? Cette question doit occuper le chercheur dès le début de la collecte de données, afin de ne pas, par la suite, appliquer des analyses qui ne seraient pas pertinentes (vouloir mesurer des paramètres propres aux réseaux dans un corpus qui n’en est pas un n’a évidemment aucun sens).

Enfin, j’espère avoir mis en évidence qu’au delà de ses apparences très quantitatives, la cartographie des liens possède beaucoup d’aspects qui la rapprochent des méthodes qualitatives. Parmi ces aspects qui évoquent les méthodes qualitatives, on retrouve les éléments suivants : l’analyste a une véritable place dans la constitution de son corpus,  et il doit sans cesse expliciter ses arbitrages ; chaque lien doit être examiné individuellement par l’analyste ; le corpus n’est pas un monde en soi qu’il convient d’observer, mais il est construit en conservant un équilibre entre efficacité et exhaustivité (ce qui rappelle l’idée de saturation des méthodes qualitatives) ; l’analyste donne sens à son corpus via une classification émergente (au moins en partie) et c’est à partir du corpus lui-même que naissent la plupart des questions qui seront analysées. Ces tiraillements entre aspects quantitatifs et qualitatifs ne sont pas contradictoires, il me paraissent même constitutifs de ce qui fait la richesse de la cartographie et de l’analyse en réseau: il est possible d’avoir une vue d’ensemble du phénomène qu’on observe, tout en conservant toute sa complexité au niveau local. La carte peut indiquer des tendances globales ou permettre de visiter de manière très précise une portion du terrain : tout est une question d’échelles.

Ressources supplémentaires

Cartes de liens

Autres cartes et sur les cartes en général :

Bibliographie :

Adamic, L.A., 1999. The Small World Web. Dans Proceedings of the Third European Conference on Research and Advanced Technology for Digital Libraries.  Springer-Verlag, p. 443-452. Available at: http://portal.acm.org/citation.cfm?id=699477 [Accédé Mars 10, 2010].

Adamic, L.A. & Adar, E., 2001. You are What You Link. Dans 10th international World Wide Web Conference.  Hong Kong. Available at: http://www10.org/program/society/yawyl/YouAreWhatYouLink.htm [Accédé Octobre 20, 2009].

Barabasi, A., 2003. Linked: How Everything Is Connected to Everything Else and What It Means for Business, Science, and Everyday Life Reissue., Plume Books.

Davison, B.D., 2000. Topical locality in the Web. Dans Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval.  Athens, Greece: ACM, p. 272-279. Available at: http://portal.acm.org/citation.cfm?id=345597 [Accédé Mars 16, 2010].

Dimitrova, D.V. et al., 2003. Hyperlinking as Gatekeeping: online newspaper coverage of the execution of an American terrorist. Journalism Studies, 4(3), 401.

Domingo, D., 2008. Interactivity in the daily routines of online newsrooms: dealing with an uncomfortable myth. Journal of Computer-Mediated Communication, 13(3), 680-704.

Etling, B. et al., 2009. Mapping the Arabic blogosphere: politics, culture and dissent. Berkman center research publication, 2009-06. Available at: http://cyber.law.harvard.edu/publications/2009/Mapping_the_Arabic_Blogosphere [Accédé Mai 19, 2009].

Fragoso, S., 2009. Making Sense of Website Connectivity: a theoretical-methodological proposal for the study of networks of websites and the links that bind them. Dans Association of Internet Researchers – IR10.  Milwaukee.

Ghitalla, F., 2009. Du nuage aux abymes.
Dimensions heuristique et expérimentale des modèles du web. Available at: http://www.webatlas.fr/download/DuNuageAuxAbymes.pdf?aa3b70196c0dc6fb4c4810f9d1c623ff=3e3ddf360a9c31c20dcbe3a3f678d2c6 [Accédé Décembre 22, 2009].

Ghitalla, F., 2008. L’atelier de cartographie. Pratique et enjeux des cartographies thématiques de documents web. Available at: http://www.webatlas.fr/download/docs/ateliercartographie.pdf?aa3b70196c0dc6fb4c4810f9d1c623ff=3e3ddf360a9c31c20dcbe3a3f678d2c6 [Accédé Décembre 22, 2009].

Ghitalla, F., Jacomy, M. & Pfaender, F., 2006. Détection et visualisation d’agrégats de documents web
L’exemple du domaine thématique de la Culture Scientifique, Technique et Industrielle. Available at: http://www.webatlas.fr/download/docs/agregatCSTI.pdf?aa3b70196c0dc6fb4c4810f9d1c623ff=3e3ddf360a9c31c20dcbe3a3f678d2c6 [Accédé Décembre 22, 2009].

Ghitalla, F., Le Berre, A. & Renault, M., 2005. Des documents, des liens et des acteurs.
Expérimentations autour de radiographies documentaires du web. Dans Conférence H2PTM.

Halavais, A., 2008. The hyperlink as organizing principle. Dans J. Turow & L. Tsui, éd. The hyperlinked society.  Ann Arbor, p. 39-55.

Heymann, S., 2008. Du Web à l’idée du Web : conception d’outils pour les sciences humaines. web-mining.fr. Available at: http://web-mining.fr/science/du-web-%C3%A0-lid%C3%A9e-du-web-conception-doutils-pour-les-sciences-humaines [Accédé Février 7, 2010].

Highfield, T., 2009. Linking to the concerted? Mapping the structure of the French and Australian political blogospheres. Dans Association of Internet researchers – IR10 Doctoral Colloquium.  Milwaukee.

Jacomy, M. & Ghitalla, F., 2007. Méthodologies d’analyse de corpus en sciences humaines à l’aide du Navicrawler (Rapport final) D. Diminescu, éd. Available at: http://www.webatlas.fr/download/methodo_shs_navicrawler.pdf?aa3b70196c0dc6fb4c4810f9d1c623ff=90d626e304d42bbf1fdba8397c44a569 [Accédé Mars 7, 2010]

Kelly, J. & Etling, B., 2008. Mapping Iran’s online public: politics and culture in the persian blogosphere. Berkman center research publication. Available at: http://cyber.law.harvard.edu/publications/2008/Mapping_Irans_Online_Public [Accédé Mai 12, 2010].

Latour, B., 2001. L’espoir De Pandore: Pour Une Version Réaliste De L’activité Scientifique, Paris: La Découverte.

Oblak, T., 2005. The Lack of Interactivity and Hypertextuality in Online Media. Gazette, 67(1), 87-106.

Pfaender, F. & Jacomy, M., 2006. Explorer et appréhender le Web. Web-mining.fr. Available at: http://web-mining.fr/science/explorer-et-appr%C3%A9hender-le-web [Accédé Février 24, 2010].

RTGI, 2007. Observatoire Présidentielle 2007 :: Explications. Available at: http://www.observatoire-presidentielle.fr/?pageid=4#Blogopole [Accédé Mars 20, 2009].

Tremayne, M., 2005. News Websites as Gated Cybercommunities. Convergence, 11(3), 28-39.

Tsui, L., 2008. The hyperlink in newspapers and blogs. Dans The hyperlinked society.  Ann Arbor, p. 70-83.

Véronis, J., 2008a. Blogs : Dans les entrailles du classement Wikio (1). Technologies du langage. Available at: http://blog.veronis.fr/2008/10/blogs-dans-les-entrailles-du-classement.html [Accédé Mai 24, 2010]

Véronis, J., 2008b. Blogs: Dans les entrailles du classement Wikio (2). Technologies du langage. Available at: http://blog.veronis.fr/2008/10/blogs-dans-les-entrailles-du-classement_04.html [Accédé Mai 24, 2010].

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s