インターネットの世界にはアーカイブサイトという厄介なシロモノがある。
アーカイブサイトとはネット上に存在しているサイトなどを複製、保存しているサイトのこと。
日本でも公的な機関として国立国会図書館が官公庁や行政、許諾の取れた民間企業や個人サイトなどをアーカイブしているが、アメリカには公開されている世界中の全てのサイトを無差別に機械的に自動収集するWayback Machineという怪物が存在している。
Wayback Machineの何が問題か?
許諾の有無なしに一般個人を含めた、あらゆるネット上の公開情報を収集していること。
これはアメリカ的な考え方によるものと思われる。ネット上に一般公開されている情報は、もはや人類の共有資産という扱いでパブリックなものだから、許諾なしに勝手に収集してよいという考え方によるものなのであろう。
そして、一旦収集、保存されてしまうと、運営者本人が面倒な英語のメールやフォームで削除(単に非公開であるという説もある)して貰わないとならない。
本人が面倒な手続きで削除申請しない限り、サイトが閉鎖された後も何年、いや何十年もデータが残ることになる。
つまり、若かりし頃などインターネットのイロハを知らない時期や、酒の勢い、その他、何げなく公開した20年前のサイトとかが保存されている場合もあるということだ。
Wayback Machineにrobots.txtは効かない
robots.txtというのは、Googleなどのサーチエンジンのクローラー制御に使うテキストファイルのこと。
サイト運営者がサイトのルートディレクトリに設置すれば拒否することも出来るとされているものの、個人的な経験から言うと、どんなに拒否する記述を無視されてしまうのだ。
とあるSEOの権威がある人の情報によると、2010年代後半からはWayback MachineはすべてのWebサイトを保存することを使命としているために、robots.txtを完全無視する鬼畜仕様になったという。
自分が運営しているいくつかのサイトで実験したが、3種類ほど拒否する記述をしたものの、ものの1サイトもWayback Machineのクローラーを完全ブロックできたサイトはなかったのである。
誰にも知られていない未知なるクローラーがあるのかと思い、Googleを含めた全てのクローラーをブロックする記述をしても、やはりWayback Machineはブロックできなかった。
これは衝撃的な事実であり、怪物と言わざるを得ない理由である。
国家レベルでアーカイブサイトが運用されている理由
日本でも国がアーカイブサイトを運営しているが、その目的は国や行政機関などが公表する(していた)情報は歴史的な価値があったり、あとで参照したい需要があるからである。
例えば、2011年に起きた東日本大震災や、最近だとコロナ禍初期の国や行政のグダグダな対応を後になって調べる必要があったとき、サイトの情報が更新や削除されていると当時の情報を参照できない場合がある。
行政機関以外にも人々の暮らしに影響力のある企業や、著名人のブログなどもアーカイブ対象にされているのは、そのためであろう。と言っても、日本の場合はアーカイブされるものは事前許諾されたものに限られている。
それに対して、アメリカの非営利団体が運営するWayback Machineはすべてのサイトが対象で、アーカイブを確実に拒否する方法がない。
研究目的だと言うもの個人の日記が研究対象か?
Wayback Machineにしても、そのアーカイブされた内容は英文の利用規約などを見ると研究目的に限定されているという。
しかし、一般個人のブログやX(旧ツイッター)、SNSなども無差別に収集するのは、どんな研究なのかと疑ってしまう。広い意味での人類、一般個人のインターネットにおける活動を研究しているのかもしれないけど、そんなプライバシーに踏み込んだ研究は変態的で悪趣味としか言えない。
特に日本みたいな閉鎖的な島国だと、インターネットにしか感情のはけ口がなかったり、唯一の創作活動発表の場であったりもするから、無差別に許諾なしにアーカイブする神経を疑ってしまうのである。
サイトが勝手にコピー、複製されるのが困る理由
個人運営のサイトやブログだと、プライベートな内容が多かれ少なかれ含まれているのが通常。SNSだとさらにその傾向が強いであろう。
SNSは何月何日に誰々とどこに行っただとか、どこの店で食事をしたとか、交友関係や異性関係が含まれる場合もあるだろう。
自分のサイトで文章やイラスト、写真、動画などの創作物を公開している人であれば、作品に対する考え方や技術の向上などによって、過去の作品を削除したい場合もある。
後になって無料で公開していた作品を商業作品として販売するケースもよくあるが、同じ作品がアーカイブサイトで無料で閲覧、ダウンロードできるとなると、商業的に成り立たなくなってしまう。
運営者の意思によって削除された内容が見れてラッキーだと思うのは、閲覧者側でしかなくて、運営者サイドとしては迷惑な困りごとでしかない。
そもそもWebサイト自体が著作物なのである
そもそも問題として、Webサイト自体が著作物、商業価値のある存在というのもある。
大企業のサイトだと2千万円以上もの大金をかけて制作される場合も少なくない。ロゴ一つ作るだけでも著名な制作会社に頼めば何十万円もかかるのは普通だし、Webサイトというのは一般の人が思う以上に商業的な価値が高いのだ。
また、企業のサイトだと芸能人やタレントの写真を使う場合もある。それらは契約期間が設定されている場合が多く、契約期間が過ぎれば速やかにサイト上から削除しなければならない。
企業のサイトでも個人のサイトでも、運営者側が公開状態を自由にコントロールできないアーカイブサイトに勝手に「コピー」されてしまっては困るのである。
研究目的なんていうのは、シビアな納期に追われたりして、神経尖らせてクリエイティブした人間の気持ちが考えられておらず、もはや研究者だかの腐れエゴでしかない。人が一番恐ろしくなるのは、自分のやっていることを正義だと錯覚してしまう時だ。
運営中の自分のサイトであれば除外申請は比較的簡単
上記のように、多くの場合はインターネット上に公開されているサイトやブログ、SNSはWayback Machineに自動的に複製されてしまう。
例外なのはログインが必要な会員制サイトや、高度にシステム的に制御されているサイト、Googleなどのメジャーなクローラーにもほとんどひっかからないような、SEO的に非常に弱いサイトやブログ、SNSくらいである。
無料ブログなんかは意外とSEOが強いので、何の気なしに無料ブログで日記とかプライバシー満載のものを掲載している場合は、ほぼほぼ複製されていると考えてよい。
Wayback Machineに無断複製されてしまったサイトをどうやって削除するかというと、以下の条件が揃っていれば比較的簡単である。逆に以下の条件が揃っていなければ、不可能か相当難しいであろう。
ちなみに、厳密にはWayback Machineでは削除ではなくて「除外」という言葉で統一されていることから、単に外部から見えなくするだけの処理をしていると思われる。
運営中の自分のサイト、ブログであること
自分自身が今現在において管理者であったり、ログインできる状態であることが必要。
除外申請をする時に申請に使うメールアドレスの情報を、そのサイト内(ドメイン内)に記述することで本人確認が行われるからである。
すでに解約してしまったドメインやサーバー、退会したブログやSNSだと本人確認ができないので除外申請が通らないと思われる。
高卒程度の英語力か翻訳能力
全世界のサイトを無差別にクロールしている割には、このグローバル時代に英語でしかやり取りできない。
ロジクールという日本でも有名なPC機器メーカーは、本社がスイスでユーザーサポートのチャットも外人が対応するものの、翻訳ツールで日本語でやりとりできて素晴らしかったが、Wayback Machineを運営するInternet Archiveは英語が世界の共通言語と言わんばかりに、英語でしかやり取り不可能。
基本は翻訳ツールで何とかなるからはずだが、無差別にコピーを作るような相手と慣れない言語でやり取りしないとならないのはストレスである。
勝手に世界中のサイトを収集、複製するなら、誰もが簡単に削除できる仕組みをまず作れよ、って思うんだが。
2024年11月現在の除外申請方法
ネットで調べると先人の闘いの記録をいくつか見ることができるが、自分がとった方法を紹介。
流れとしては、英文メールで申請したあとに、フォームから申請してくれと言われてそこに入力。最初からフォームで入力するのもアリだと思うのだが、無料フォームを使っていてそこへのリンク先はどこかに掲載されているか不明なので、一応メールから問い合わせるのが基本のような気がする。
送るメールアドレス
info@archive.org
wayback@archive.org
宛先はこの2つに設定するのがよい。
削除申請の例文
英語が得意な人は自分で「許可も取らず勝手に複製しやがったアーカイブをさっさと削除しろ」と書けばよいと思う。
Hello.
I’m the owner of the following site.
(サイトURLを記載)
I’m officially requesting the immediate removal of the above sites/domains from web.archive.org and the Internet Archive Wayback Machine.
Kind regards,
(適当な名前で署名)
こんな感じで送れば1~3営業日くらいで英語で「こちつのフォームから申請してくれ」という返信があるはず。
フォーム記載方法
案内されたフォームに記載していく。
編訳ツールで調べながらやればよいが、個人のサイトやブログだとドメインの所有者は自分の氏名ではないはずなので、そのサイトの所有者であることの証明は申請したメールアドレスになるであろう。フォームがバグっていて、所有していないと選択しても所有期間と氏名は入力必須となって困ったが、名前に適当にNoとかいれたら申請できた。
サイト内にメールアドレスを記載するのは得策ではないので、メールアドレスだけが記載されたどこからもリンクされていないhtmlファイルを適当に作って、そのURLをフォームに記載するのが簡単であろう。
フォームの申請が通れば時差の関係もあるものの、最短半日くらいで除外される。
注意すべきは削除期間の設定。想定より長めにしておかないと、ファイルの残骸や下層ページが細切れに残ったりする。
Wayback Machineに保存を回避する方法
robots.txtでは回避できないので、高度な技術がなくても出来そうな対策は以下になるだろう。
パスワードをかけてログイン制のサイトにする
Basic認証みたいのをかけたり、無料ブログなんかでもパスワード制にできる場合がある。
そもそも多くの人に何らかの情報を発信したり、アクティブに活動したい場合には向かないが、行き場のない愚痴を書いたり、ストレス発散系のブログなんかはパスワード制にした方が安全だろう。
日記はローカルのサイトにして公開しない
行き場のない愚痴などの日記は公開する価値があるのか微妙だし、案外、文章に書きだすだけでも目的が達成できたりするので公開しない方法も考える。
自己表現や創作活動、他者へのアピールはできないけれど、勝手にアーカイブされるのは創作活動の妨げになるという良い例だろう。
まとめ アーカイブサイトは作り手側にしたら迷惑でしかない
公的サイトなどではアーカイブサイトが有用な場合があるのはわかるが、一般個人のサイトやブログ、SNSの無許可の複製保存は変態的にしか思えない。
自分の場合は上記の方法で「一時的な除外」が認められたが、どうせまたクローラーがやってくるんだろうけどね。
過去に退会したブログとかSNSとかだと消すのは相当難しいか無理だと思う。ほんと勝手にコピーされたサイトを消すのにどれだけ手間と気苦労かけさせるのかと思う。
個人の考え方次第だけど、自分の創作物などが未来永劫、地球が滅びるまで残ってくれる方が嬉しいって人もいれば、自分の死後は物理的にも情報的にも何も残ってほしくないと考える人もいることを理解して欲しいと思う。できれば墓とか仏壇とかも作ってほしくないと思うし。