KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Прочая околокомпьтерная литература » Компьютерра - Журнал «Компьютерра» № 34 от 18 сентября 2007 года

Компьютерра - Журнал «Компьютерра» № 34 от 18 сентября 2007 года

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Компьютерра, "Журнал «Компьютерра» № 34 от 18 сентября 2007 года" бесплатно, без регистрации.
Перейти на страницу:

Одна часть тогдашних "отцов Рунета" (и по сию пору людей известных и уважаемых, да вот от бумагомарания давно отошедших) публиковалась под крылом "Русского Журнала", старых "Граней. Ру" и "Вестей. Ру", – все их статьи сохранились, но как архивы – на других, часто совсем неожиданных сайтах.

Другая часть вела свои дневники-колонки (слово «блог» еще не было придумано) по адресам, выделенным провайдером или тогдашним работодателем для "страничек пользователей", – эти материалы, после утери к ним интереса авторов, пропали, кажется, безвозвратно, не осев даже и в интернет-архивах (о которых – позже). Весь этот огромный корпус гипер-текстов, написанный людьми образованными и любопытными, к тому же между собой лично знакомыми, был густо залинкован (в немалой степени он состоял из диалогов, ответов и обзоров публикаций друг друга) – и за исключением отдельных, переживших время жемчужин, ценен был именно во всей полноте. И полнота эта утеряна безвозвратно. Притом что бо, льшая часть текстов по-прежнему доступна [Интересно, что наибольшая вероятность найти по прежнему адресу страницу восьми-десятилетней давности остается для сайтов на бесплатных хостингах вроде Geocities.ru или narod.ru – там, даже если автор забросил свое «творение», никому не придет в голову "поменять структуру сайта" или "удалить страницы неактивных пользователей"].

Хирургия на Паутине

КСТАТИ

У древних японцев считалось, что увидеть паука или паутину – хорошая примета, означающая, что скоро придет письмо.

Мерси Шелли, «Паутина»

Очевидно, что существуют способы – пусть трудоемкие, пусть не всегда работающие, но хоть какие-то – противостоять течению времени, разрушающего Паутину.

Конечно, в идеале о сохранности ссылки должен заботиться ее адресат; структуры сайтов лучше не менять, а, меняя, устанавливать умную переадресацию; «вкусные» домены не упускать… В лучшем мире, возможно, так оно и было бы. В реальности же некоторые сайтовладельцы не то чтобы не заботятся о пришедших по точным ссылкам, но… считают ссылки на внутренние страницы сайта (а не на главную) нарушением копирайта и ущемлением своих прав [Это не выдумка. Несколько соответствующих судебных дел можно найти по ключевым словам "lawsuit deep linking"; как правило, это случаи, в которых доступ к платному контенту ограничивался сомнительным способом сокрытия точных адресов страниц (и открытия их после оплаты) при полном отсутствии авторизации].

То есть "заполнение разрывов" остается делом тех, кто ставит ссылки, а также самих серферов-читателей. И для тех, и для других – базовых техник "борьбы со Временем" всего две: архивирование и использование "ассоциативных ссылок" вместо гиперссылок (но лучше – вместе с ними).

Архивирование. Архивы «всего» Интернета можно найти в кэше поисковиков (Google, Yahoo, MSN) или в специализированном Internet Archive; крупные участки Веба сохраняются также в некоторых региональных поисковиках или национальных архивах. Кэши поисковых машин, как правило, содержат более-менее актуальные копии страниц (навсегда «умершие» сайты из кэша исчезают) и оттого пригодны лишь для «добычи» временно недоступного контента (сайт упал, а статья нужна сегодня). Зато Internet Archive (archive.org) и его Wayback Machine (web.archive.org) позволяют получить «снимки» почти любого сайта за почти любой период его существования – «снимки» делаются примерно раз в полгода. Самое интересное, что все ссылки, ведущие со страницы, приведут тоже на заархивированные копии сайтов – таким образом, становится доступен целый "временной срез" Веба.

К сожалению, далеко не все сайты и страницы доступны таким образом. Internet Archive "не любит" страниц с "динамическими адресами" ("example.com/index.php?articleId=…"), ему недоступен Deep web (часть Веба, закрытая от индексации поисковиками), наконец, он вынужден уважать права авторов и удалять из архива копии сайтов по первому требованию владельца [А иногда и не владельца. Известен случай, когда множество антисайентологических сайтов исчезло из Internet Archive (а также из кэша Гугла) по требованию Церкви Сайентологии]. Схожие проблемы и у локальных (национальных и тематических) архивов.

Впрочем, если архивированием того-на-что-ссылка своевременно озаботится автор ссылающегося материала, ему станут доступны еще некоторые техники "архивирования по требованию". В частности, такими методами пользуются ученые, у которых научные ссылки в работах все чаще ведут в Веб, а не в статьи бумажных журналов. Автор может, во-первых, сохранить все материалы, на которые сослался, в специальном месте – например, у себя на сайте (что, впрочем, может быть чревато копирайтными трудностями) или в специализированном сервисе (знающем, как с такими трудностями справиться) [Самый популярный из такого рода архивов – WebCite (webcitata.org) – на момент написания статьи был недоступен (sic!)].

ПРОРОЧЕСТВО

Пожнут твои плоды потомки.

Публий Вергилий

Кроме того, можно не трогать залинкованные материалы, зато поставить на них ссылки в одном из "адресо-независимых форматов" – PURL (Persistent URL) или DOI (digital object identifier). Этот способ основан на том, что для каждой статьи, ссылку на которую необходимо сохранить доступной, ссылающийся заводит запись на специальном сервере (PURL-сервере или DOI-сервере соответственно), в которой и поддерживает лично актуальность ссылки (по необходимости изменяя ее адрес, перенаправляя ее в какой-нибудь архив и т. п.). Читатели же его работы вводят идентификатор ссылки на том же сервере и сразу попадают на ее «живую» версию (если сославшийся не забывает обновлять ее – что при наличии десятков работ и сотен ссылок весьма сомнительно). Впрочем, понятно, что журналисты популярных веб-изданий, блоггеры и прочие "простые смертные писатели" к столь сложным способам "обеспечения доступности" не склонны [Интересно, кстати, как решен этот вопрос в «народной» Википедии. Можно заметить, что актуальные и часто обновляемые статьи в последнее время для указания источников информации переходят с привычных для Веба ссылок из текста к более формальной системе нумерованных сносок, в каждой из которых лежит ссылка и запись вида "доступность проверена тогда-то". Такая система требует дополнительного труда и внимания, зато позволяет обновлять «протухшие» ссылки на источники фактов, не трогая основной текст].

Ассоциативные ссылки. Менее надежный, зато более человечный способ сохранить связь-ссылку (и найти ее, если очень понадобится) – ориентация на ключевые слова, информацию, лежащую «вокруг», или "характерную фразу" (fingerprint phrase – буквально "фраза – отпечаток пальца") ссылаемой статьи. Применимость таких эрзац-ссылок (или супер-ссылок – как посмотреть) довольно широка – автор статьи для объяснения какого-либо понятия или упоминания не-всем-известного анекдота может поставить ссылку на поиск ключевой фразы в Гугле; может записать ключевые слова рядом со ссылкой, если боится ее протухания [Кстати, сюда же примыкает понятие memomark – "ссылки в будущее", когда для описания новопридуманной концепции используют еще несуществующее слово/словосочетание, а спустя некоторое время ищут слово в поисковиках, отслеживая распространение и обсуждение концепции (ну, или воровство текста). Кстати, слово «memomark» само по себе является memomark’ом – любой русскоязычный поисковик немедленно выдаст, у кого я позаимствовал это понятие]. А если этого не сделал автор, читатель, наткнувшийся на что-нибудь вроде "кое-что по этой теме можно найти здесь" (с неживой ссылкой за "здесем"), может поискать другие упоминания той же ссылки, собственноручно вычленить из них ключевые слова, пройтись по поисковикам…

Понятно, что и от автора, и от читателя использование такого рода «косвенных» ссылок требует некоторых усилий и внимания к тексту несколько выше уровня "написал и забыл"/"прочитал и забыл". И все же такой способ "обеспечения связности" менее формален и назойлив, нежели ориентированные на ученых решения вроде PURL и архивирования-по-запросу.

Итого

Дырки в Паутине есть, и с каждым днем их все больше; никакой панацеи от протухших ссылок, изменившейся структуры сайтов, перехваченных доменов человечество пока не придумало (и сомнительно, что придумает). Кружева Паутины эфемерны, но во многих случаях разрывы можно заштопать или предотвратить. Вопрос лишь в том, сколько усилий это потребует – и готовы ли читатель, перегруженный информацией, и автор, перегруженный буквами, прилагать эти усилия для восстановления в принципе не таких уж и важных звеньев цепочки рассуждений.

Проблема заимствования

Один неописанный в статье случай «ссылки» – прямое включение контента с одного сайта в контент на другом.

В современном Вебе такое «заимствование» проявляется в основном в форме вставки картинок, лежащих на других серверах, но шумиха вокруг Web 2.0 и «помесей» сайтов (mash-ups) дает надежду, что в Вебе появится-таки самый настоящий «transclusion» – термин Теда Нельсона, означающий специальный тип гиперссылок, которые не «указывают» на какую-то статью, а физически включают ее (или ее часть) в ссылающийся текст.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*