Архивы Метки: Домены

Где брать хорошие дропы

Где брать хорошие дропы

Домены дропы

Нам надо натравить свои парсеры не на гостевухи и блоги, а на самые трастовые домены. cnn.com, huffingtonpost.com, washingtonpost.com, bbc.com и подобные. Их не очень много, но пара-тройка десятков наберется.

Берем и парсим все страницы, которые найдем на этих доменах (почти у всех крупняков есть дополнительные сабы, или домены-спутники, их тоже парсим). Ищем ссылки на сторонние домены и складываем это все в базу. Советую каждую ссылку сохранять отдельной записью и сохранять такие поля, как страница откуда ссылка, страница куда ссылка. Т.е. не просто домены, но и внутряки. Дополнительной нагрузки это создаст немного, зато потом будет более полная картина.