Internet ArchiveのWayback Machineから削除など

wayback-machineの画像

移転に伴い旧URLのアーカイブを削除してみました。
ついでに正しくアーカイブされる設定の確認。

公式:Internet Archive: Wayback Machine
参考:香聾館 – 資料室>香聾館>Wayback Machineからの削除


目次▼open

robots.txt

手っ取り早いのがrobots.txt。
Internet Archive Contacts

Internet Archiveに記載の通り設定を行えばアーカイブを見ることができなくなります。一般的にはドメインごとに設定してる人が多そうだけど、特定のフォルダやファイルのみの指定も可能。

ただ検索時に、robots.txtによって表示することができないよ!って感じの表示がでます。
「Page cannot be crawled or displayed due to robots.txt.」

メールで削除依頼をした場合は
「Sorry.This URL has been excluded from the Wayback Machine.」
という表示。

なんだか気持ち悪いのと、robots.txtの場合は一時的に非表示にし、設置してる間はクロールも行わない設定なので、解除してしまえば再び過去のアーカイブが見れる状態になってしまいます。
なので過去のページをrobots.txt関係なしに削除してほしい場合はメールで削除依頼をする必要があります。

このrobots.txtを使う方法は、サイト設置時や今後アーカイブすることを拒否する場合につかうのがいいと思います。たとえサイトが閉鎖してrobots.txtが消えたとしても、設置していた期間はクロールされていないので、アーカイブが残ることはありません。

逆にアーカイブしてほしい場合はとくに設定する必要はない。アーカイブされてるけどデザインが崩れてるという場合は、
User-agent: *
Disallow: /CSSのあるフォルダ名/
Disallow: /画像のあるフォルダ名/
なんて設定してないか、.htaccessと共に要確認。

追記:除外していなくても、javascriptを使用している部分は表示されない場合がある。

メールで削除依頼

過去から未来にわたって確実に削除(除外)してもらう方法はメールで削除依頼を出すことですが、英語でinfo @archive.orgにメールを送らなければなりません。
でも英語でメールなんてムリなので下記サイトを参考にしました。状況別に記載されていてとても有り難いです。足りない部分は各自補いましょう。

参考:香聾館 – 資料室>香聾館>Wayback Machineからの削除

ただ、管理者であることを示すのはもちろんですが、明確な理由もないと削除は厳しいと思います。個人情報が載っている、サイトを移転した、などは理由になるのかなと思います。
日本語なんて読んでないと思うので、個人情報載せちゃったと書いておけば問題なさそうですが。

今回は、二通りの条件で削除申請してみました。
(英語わからないので一部google翻訳ですが、カタコトでも大丈夫でした)

現在のサイトと送信メールアドレスのドメインが一致+AmazonアソシエイトIDが共通

無料ブログから独自ドメイン+サーバーに移行したときなどに使えると思います。申請理由は移転のため(面倒だったので個人情報を記載したという理由)。


I am writing to advise you of a deletion request.

I found out that my site is archived on the Wayback Machine by you.

http://web.archive.org/web/*/http://アーカイブされてるホームURL/

I hope that you will delete archives of my site.
Because I posted my private information too much.

An evidence that I am the webmaster is held in an archived web page and a current web page.
archive:http://web.archive.org/web/日付/http://AmazonアソシエイトリンクがあるアーカイブされてるURL/ページURL
current:http://Amazonアソシエイトリンクがある移転先のページ/
The Amazon Associate ID (アソシエイトID-22) is available in the current page.

I’m looking forward to your response.

Regards,
—————————-
Name : name(名 姓)
E-mail address : ~~@移転先のドメイン(このアドレスから送信)

削除したいサイトと現在のサイトと送信するメールアドレスのドメインが一致

独自ドメインを使ってる場合。申請理由はドメイン変更のため。


I am writing to advise you of a deletion request.

I found out that my site is archived on the Wayback Machine by you.

http://web.archive.org/web/*/http://アーカイブされてるドメイン/orページ

I hope that you will delete archives of my site.
Because I have changed the domain name.
The new domain name is “http://移転先ドメイン/”.

An evidence that I am the webmaster is domain name of the current Web site.
current:http://アーカイブされてるドメイン/

The sender address of this message is match the domain name of the Web site.

I’m looking forward to your response.

Regards,
—————————-
Name : name(名 姓)
E-mail address : ~~@アーカイブされてるドメイン(このアドレスから送信)

返信内容

対応まで時間がかかることがあるみたいですが、今回は12時間以内に返信がありました。早い…
削除されたときの通知はこんな感じでした。

Internet Archive

Hello,

The site/URL referenced in your email below has now been submitted for exclusion from the Wayback Machine at http://www.archive.org. Please allow up to 24 hours for the automated portions of the process to run their course and for the changes to take effect. If you have any other questions or concerns, please let us know.

Regards,
The Internet Archive Team

ひとこと

今回は移転という形で、旧URLのアーカイブの残しておく必要がないと判断したので依頼しましたが、情報が古いから、もう更新しないからといった理由だけで削除すべきではないと個人的に思います。情報が古くても見たい人はいるのです。アーカイブされてることで著作権を証明できる場合もあるかもしれない。

黒歴史ならしょうが無いね!でも、本人がそう思ってるだけで案外他の人は「懐かしい内容だなー・懐かしいデザインだなー」などとしか思ってないかもしれませんよ。

ただ他にもアーカイブサービスやキャッシュ、ページ単位でアーカイブする魚拓などがあるため、一度公開したものをWeb上から消すのは難しい。

コメントを残す(仮)

△ページ上部へ