Содержание
- Как найти старые тексты с помощью archive.org
- История формирования Internet Archive
- Ресурс archive.org: как его применять и как найти искомый сайт
- Почему Webarchive не находит нужный канал
- Как восстановить из веб-архива сайт
- Как найти в веб-архиве контент
- Что предпринять, чтобы сайт не был сохранен в архив
Веб-архив – платформа с открытым доступом ко всем порталам, которые были когда-то созданы, исключая лишь те из них, которые запрещены к сохранению.
Webarchive – электронная библиотека с бесплатным посещением. На этом портале размещаются сохраненные страницы всех веб-ресурсов. На них будет отображено то наполнение, которое было актуальным на момент, когда веб-архив посетил сайт. Это копия полосы портала на определенную дату.
Как найти старые тексты с помощью archive.org
Возможна такая ситуация: годы назад Андрей решил создать сайт и наполнил канал собственными статьями на тему интернет-маркетинга. Одна из статей содержала информацию о рекламе Google и была в формате сжатого изложения. По необходимости, Андрей удалил страницу, на которой был контент, а теперь она ему вновь стала необходима. Но он знал, что выйти из этой ситуации можно, открыв веб-архив. Он указал запрос в поле поиска и нашел удаленную ранее страницу. В дальнейшем Андрей смог восстановить потерянные тексты и на личном портале.
История формирования Internet Archive
Интернет-архив был спрограммирован американцем Брюстером Кейлом в 1996 году. Он собирал и сохранял дубликаты веб-профилей. И материалы, опубликованные на различных источниках, стали открыты в любое время для всех желающих. Если случайный сайт внезапно удалял информацию, то, открыв архив, можно было получить все, что интересует. Это было то же самое, что и достать искомую страницу в браузере.
Накануне 2000 года приняли решение помимо сайтов копировать статьи, видео и аудио-файлы, а также все картинки. К этому списку добавили и ПО.
Теперь все дубликаты интернет-страниц публичны при переходе на archive.org. Это основной сервис, сформированный в 2001 году и названный Internet Archive Wayback Machine. Все скопированные данные, которые хранятся там, доступны бесплатно для любого пользователя.
2010 год – «библиотечная» платформа стала победителем, получив награду в номинации Project of Social Benefit во время премии Free Software Awards, которая проводится каждый год.
В 2016 году Webarchive предоставил более 500 миллиардов копий каналов. Такой объем информации хранится на обширных серверах в столице Нидерландов, в США и Польше.
Ресурс archive.org: как его применять и как найти искомый сайт
Кейл значительно упростил задачу нынешнему интернет-маркетингу, сформировав веб-архив. С ее помощью можно посмотреть полосы любой площадки в их изначальном виде, а также историю обновлений на портале. Можно найти интересующую информацию и конкретный контент, а также возобновить свой старый проект на основе сохраненных копий полос.
Как посмотреть историю сайта через archive.org
В электронном хранилище архива сохранено большее количество веб-страниц, чем можно вообразить. Для того используется специальный веб-сканер, который фиксирует все происходящие обновления. Благодаря этому можно просмотреть обновления каждого веб-ресурса.
Для этого необходимо выполнить несколько шагов.
Заходим на платформу и вписываем ссылку требуемого сайта в поле запроса.
История портала станет доступна. Платформа предоставит страничку, на которой обозначены изменения портала за весь период его наличествования, включая даты и прочую информацию.
Например, можно увидеть, когда страница была обнаружена архивом и сохранена впервые, сколько раз за это время она сохранялась из-за определенных изменений на запрашиваемом сайте. Все даты подсвечены голубым оттенком.
Если есть потребность изучить, как просматривалась полоса сайта в определенный день, следует отметить дату в предлагаемом календарном отсеке.
Архив покажет на открытой платформе выбранный вариант страницы сайта.
Вверху, в меню веб-архива, есть календарь с указателями. Нажимая их, допустимо пролистать и ознакомиться с обновлениями, которые совершались на платформе. На скане будет и лицевая полоса ресурса, и содержание: статьи, фото и видеоматериалы.
Почему Webarchive не находит нужный канал
Редко, но бывает, что портал интернет-архива не находит и не показывает отыскиваемый сайт. Это возникает из-за таких проблем:
- Владелец зачистил все дубликаты полос.
- Сайт был скрыт на основании закона о защите интеллектуальной собственности.
- Правообладатель сайта решил установить запрет на копирование страниц в архив, поменяв настройки файла robots.txt.
Это мера предосторожности. Чтобы сделать это, нужно открыть раздел Save Page Now, ввести ссылку сайта, который требуется закинуть в архив и нажать словосочетание Save Page. Готово!
С помощью действий, описанных ранее, необходимо фиксировать каждое обновление на сайте, чтобы сохранить доступ к нужным текстам надолго.
Как восстановить из веб-архива сайт
Могут возникать обстоятельства, когда браузер показывает уведомление о том, что искомый ресурс не найден, удален. Но данные сайта можно вывести из сохраненных дубликатов в хранилище архива. Есть два способа.
Первый подойдет для проиндексированных ресурсов, не новых и имеющих маленький масштаб:
- Для начала нужно извлечь данные.
- Затем просмотреть код страницы и дошлифовать ссылки ручным способом
Это долгая процедура занимает немало часов и сил, но есть второй способ, который более простой и быстрый.
- Зайдите на веб-архив
- Откройте RoboTools – это сервис для восстановления удаленных страниц.
- Введите в поисковом поле домен искомого портала и ту дату, сохраненный вариант страницы которой требуется.
Через несколько минут сайт полностью будет восстановлен, в том формате, в каком он был, и его страницы будут полностью наполнены.
Как найти в веб-архиве контент
Архив поместил в себя огромное количество скопированных веб-страниц, которые теперь не существуют. Многие порталы имели уникальную и полезную информацию. Но по каким-то причинам они закрылись. А контент, который там был, отсутствует на других каналах и от этого становится более ценным.
Что предпринять, чтобы сайт не был сохранен в архив
Владельцы некоторых веб-ресурсов размещают уникальную информацию, поэтому не хотят, чтобы контент стал общедоступным. Тогда можно установить запрет в файле robots.txt для ресурса Webarchive. Когда изменения в настройках будут установлены, веб-сканер прекратит копировать страницы данного портала.