Рекламные сайты и агентства следят за нами.
- Подробности
- Категория: Возможности интернета
- Создано: 07.08.2015 10:35
Даже самые хладнокровные пользователи рано или поздно обеспокоятся навязчивостью системы Google AdSense. Ведь она, в зависимости от запросов в поиске, любит предлагать контекстную рекламу.
Казалось бы, прошло много времени, неоднократно зачищали кэш браузера, удалялись файлы сookies, но тем не менее, настырная программа помнит, чем вы там год назад интересовались. Как происходит отслеживание пользователей? Инструментов для этого, на самом деле, предостаточно.
В интернете слежение за пользователем подразумевает установку для каждого браузера уникального идентификатора, при посещении определённого сайта. Эта функция помимо рекламы призвана помогать владельцам сайта различать ботов и обычных пользователей. Технология очень быстро пришлась по вкусу рекламной индустрии.
Простые истины
Самый простой метод идентификации пользователя – сохранить какой-либо долгосрочный идентификатор на его компьютере, который можно было бы запрашивать при последующих посещениях ресурса.
Это могут быть, помимо cookies, некоторые плагины – Isolated Storage в Silverlight, или Local Shared Objects во Flash. Протокол HTML5 также в себя включает несколько механизмов хранения на стороне клиента. Уникальные маркеры могут хранится и в кэшированных ресурсах локальной машины, а также метаданных кэша. Идентифицировать Пользователя можно и по «отпечаткам», которые получены из сертификатов Origin Bound, генерированные браузером для SSL-соединений, данным, которые содержатся в SDCH-словарях, и метаданных этих словарей.
«Печеньки»
Файлы cookies используются для хранения на стороне клиента небольшого объёма данных. Сервер для нового пользователя устанавливает уникальный идентификатор, который сохраняет в cookies-файлах — клиент при последующих запросах будет отправлять его серверу.
Конечно же, все популярные браузеры уже давно имеют возможность управлять (или отключать) cookies, но для отслеживания пользователей их всё равно активно продолжают использовать, так как пользователи просматривают и чистят их чрезвычайно редко. Сookies, в отличие от многих других механизмов слежения, можно хранить предельно легально, а чтобы «пометить» пользователя, необязательно уникальный идентификатор хранить в отдельном файле. Он может храниться в метаданных либо собираться из значений нескольких cookies.
Flash предательство
Грубо говоря, файлы Local Shared Objects (LSO) – это те же cookies, но для Adobe Flash. LSO, между прочим, может хранить не только короткие фрагменты текстовых данных. Контролировать работу этих файлов можно непосредственно через контрольную панель.
Многие из современных браузеров с технологиями Flash достаточно хорошо интегрированы, и при удалении cookies заодно будут стёрты и LSO.
«Серебряный свет»
При использовании программной платформы Silverlight, вы должны знать о механизме Isolated Storage. от cookies он отличается тем, что здесь настройки приватности с браузером никак не связаны, так что в случае полной очистки кэша браузера и cookies данные, которые сохранены в Isolated Storage, останутся всё равно.
Учитывая то, что через настройки браузера пока нельзя достучаться до этого механизма, он в качестве хранилища уникальных идентификаторов такого широкого распространения не получил.
Кэш с маслом
Браузеры для обеспечения высокой скорости работы складывают ресурсы посещаемых сайтов в локальный кэш.
Этот механизм легко превращается в хранилище с произвольным доступом. JavaScript-документ с уникальным идентификатором внутри его тела сервер может вернуть пользователю и установить далекое будущее в заголовках Expires / max-age=.
Скрипт, таким образом, пропишется в кэше браузера вместе с уникальным идентификатором, после чего с любой страницы в сети к нему можно будет обратиться, запросив загрузку скрипта с известного URL. Рецепт безопасности здесь достаточно прост: регулярно вручную производить очистку кэша.
Особая магия Google
Алгоритм SDCH – это основанная на использовании предоставляемых сервером словарей, созданная Google система компрессии. Этот алгоритм обеспечивает более высокую степень сжатия данных, так как обычно web-сервер отдаёт много повторяющейся информации.
Использование SDCH предусматривает схему, в которой клиент с сервера получает файл словаря, который содержит строки, которые в последующих ответах могут появиться. После этого сервер просто может ссылаться на имеющиеся внутри словаря элементы, а клиент самостоятельно будет на их основе собирать страницу.
Эти словари легко можно использовать для хранения уникальных идентификаторов. Для пользователей рецепт тот же, что и с кэшем браузера – беспощадно очищать.
«Железный» капут
Менее очевидный метод идентификации пользовательской системы предусматривает использование характеристик компьютера. Сайты собирают о пользовательской системе данные – поодиночке каждая характеристика, конечно, ничего не скажет, но если объединить несколько таких характеристик, то они в интернете смогут идентифицировать любой компьютер.
Гораздо сложнее такую слежку распознать и предотвратить. Кроме этого, такая технология мониторинга позволяет идентифицировать пользователя, который использует для серфинга разные браузеры или приватный режим. От такой слежки контрмер, по сути нет. Вы же не будете регулярно обновлять в своей системе техническую «начинку».
«Отпечатки» браузера
Проще всего идентифицировать пользователя, используя не один, а выстраивая целую систему параметров, которые доступны браузере. Каждый из таких параметров по отдельности ни малейшего интереса не представляет, но совместно они для каждой машины образуют уникальное значение.
Так, собираются данные о версии браузера, операционной системе, времени на часах компьютера, информация о центральном процессоре и его тактовой частоте, размере окна браузера и разрешении монитора, о списке шрифтов установленных на компьютере и многом другом. По отдельности это безобидные сведения, а все вместе - подробное досье на вашу систему, которой можно присвоить уникальный идентификатор. Ведь шанс встретить в интернете два идентичных компьютера ничтожен.
Из всего этого следует вывод - анонимность в интернете носит сугубо риторический характер.