Собираем текстовку для дора, чистим базу кеев.

   Рубрика: Дорвеи


В предыдущем посте мы парсили базу кеев для дорвея. Теперь нам нужно очистить эту базу от лишних элементов, от мусора, и разбить её на несколько частей. Но перед этим нам нужно ещё кое-что сделать. Для дора нам понадобится ещё текстовка. Для начала займемся её добычей.

Какого-либо вменяемого парсера тематического текста из Яндекса я не нашел, поэтому текст я дергал руками. Например, если мы делаем доры под дейтинг или адалт, можно произвести поиск по ключевику “Порно рассказы”, и дергать тексты из сайтов в выдаче. Текста такого нужно надергать около 1 мегабайта, такой текстовки нам хватит надолго.

Итак, теперь у нас база ключевиков, и текстовка. Эти файлы нужно обработать. Из базы ключевиков нужно удалить кол-во запросов данного ключевика (чтобы удалить количество запросов — открывайте базу ключевиков в Exel’е, кликаем по кнопке Найти и Выделить>Заменить. В поле Найти вводим “:*” в поле Заменить вводим пробел  — цифры пропадут, останутся только кеи), мусорные и запретные кеи. Текстовку нужно синонимировать и перемешать. Для всего это качаем программу KeyWordKeeper. Пароль от архива — на странице скачки.

С базой ключевиков в этой проге стоит провести удаление повторов, и очистку.

Update: вот свежая база стоп слов

Очистку стоит провести от Child Porn, вот список кеев, дополните по желанию:

детск
детьми
дети
девоч
малолет
малолет
несовершенноле
несовершено
10 лет
11 лет
12 лет
13 лет
14 лет
15 лет
16 лет
17 лет

Затем нужно удалить “не людские” запросы. Такие запросы например генерирует Xreferer. Примеры таких запросов:

phpbb
ipb
vbulletin
send
thread
new topic
new
topic
bbs
add topic

После такой очистки, разбейте базу на нужное количество частей. Я разбиваю на части по 2-3к кеев.

Теперь перейдем к текстовке. Для начала её нужно перемешать, это первый шаг к приданию уникальности. Теперь её нужно синонимировать. Синонимайзеры доступны в паблике. Например можно использовать этот синонимайзер, использующий тезариус Microsoft Word’а.

Итак, мы получили очищенную базу кеев, пригодную для использования, и неплохую текстовку. Пора нам создать дорвей, но об этом, с следующем посте -) Кстати, постоянно высокий конверт мне обеспечивает партнерка SmartBucks

Не забывайте про моё желание обменяться ссылками и мою акцию.

Постовой:
Если нет желания обременять себя сложностями оптимизации и раскрутки своих сайтов, предлагаю вам воспользоваться услугами http://www.gravitacia.com.ua/ — компания предлагает широкий спект услуг — от создания и продвижения сайтов, до разработки баннеров.

Похожие записи:

  • Мастер

    Ручками дергать как-то не очень эстетично. Можно парсер написать, это будет не очень сложно. Как руки дойдут, напишу и скину тебе.

  • Kareg

    Было бы неплохо, надо всё сводить к автоматизации.

  • Мастер

    Написал простеньки парсер на php под Яшу. Вводишь слово, он парсит только тексты со всей выдачи, удаляет html теги и выводит на экран. В Feedback не отображается капча. Вечерком стукну в асю.

  • Kareg

    Да, форма чего-то глючила. Поправил.

  • Geo

    А обязательно использовать связный текст? Бывают ведь сайт с каталогами товаров, т.е. таблица с наименованиями и цифрами, описания товаров…
    И еще, по идее можно использовать иностранные тексты, яндекс ведь научился индексировать зарубежные сайты, найти какие нибудь, которые точно вне индекса еще и скопировать к себе. Получится первоисточник)
    Поправьте, если я не прав, просто я еще не очень в теме пока.

  • Kareg

    Нужно использовать что-то близкое по тематике, в тексте. Яндекс конечно индексировать научился иноязычные сайты, но в его правилах четко написано, почему он любит русскоязычные сайты, поэтому мало смысла вижу в делать текстовку на иностранном языке.

  • Geo

    А если переводить текст через гугл-переводчик или аналогичный? Как то видел пример адалт сплога, текст там был явно нечеловеческий, но сайт исправно индексировался. Самое забавное, что даже постоянные посетители были, которые регулярно остовляли комментарии и общались)

  • Kareg

    А вот это уже вполне вариант -) Текст должен получиться вполне уникальным

  • Geo

    Ну да, а если потратить время, то можно даже и читаемым его сделать.
    В принципе сейчас вспомнил, я переводил через гугл страницы иностранных сайтов, помню вики переводил, вполне реально прочесть
    http://www.google.com/language_tools
    так что наверно для яши прокатит

  • Kareg

    Можно конечно. А в ру сегменте нет нужного вашей тематики текста?

  • Geo

    Так не в этом ведь дело. Главная цель получить уникальный контент, который не будет забанен как спам, с минимальными трудо- и времязатратами)

  • Kareg

    Ну это само собой -) Почему тогда бы не использовать синонимированный текст добытый в Яндексе? )

  • Geo

    Ну по попыту продвижения статьями, синонимированный текст довольно легко палится. Т.е. размноженная статья, опубликованная на множестве ресурсов не давала никакого эффекта, приходится создавать для каждого сайта свою уникальную статью.
    В том же миралинксе даже ручной рерайт, если он не очень качественный, легко палился автофильтром и первоисточник быстро выявляется, не думаю что яндекс в этом плане отстает.

  • Kareg

    Ну возможно, пока таких проблем не было. Там он же сильно перемешан, и сильно синонимизирован, такая каша получается -) Кстати, немного не в тему, вот этот сайт по вашей ссылке -вы владелец его?

  • Geo

    Если бы я был его владельцем, то стал бы заниматься сео и пытаться заработать на адалте))
    Нет, просто совмещаю работу с развитием и удовольствием. Эдакие ковровые бомбардироки по зайцам)

  • Kareg

    Эх жаль -) Хочу какой-нибудь пс3 обзавестись всё просто )

  • Geo

    Ну, к слову, довольно дешевый сайт. Возможно самый дешевый. У них прямые поставки из америки, поэтому наценки по минимум.
    Я и сам думал о консоли, но только не пс3, мне и компа хватает, я бы wii себе взял, она повеселее)
    Еще недавно в онлайн покер начал играть. Затягивает очень. На реальные пока не играю, опыта мало, но в целом тоже можно заработать, если аналитический склад ума и выдержка хорошая. Даже появилась идея созадть блог о покере, если выигрывать не получится, хоть на партнерке заработаю)

  • Алекс

    Зачем текст синонимизировать, если дор сам его сделает уником. Не вижу смысла!

  • Мастер

    Начал делать и наткнулся на одном шагу. Тот контент который парсю через скрипт парсинга снипетов получается грязноватым, т.е. в нем остаются всякие BB коды и url. KeyWordKeeper их не чистит. Пришлось дописывать скрипт что бы он еще этот мусор удалял. Кстате напиши в аську помог мой скрипт тебе?

  • Kareg

    Как это ДОР его сделает уником? :) МБ дорген? Тогда говорите какой дорген и какими методами.

  • Kareg

    Я ещё пока не юзал его, новые доры не делал. Отпишусь как буду использовать обязательно. Просто помимо доров две сетки делаю, время отнимают -)

  • Алекс

    да дорген, Redbutton

  • Kareg

    Я работаю с другим доргеном, который только перевешивает текст, этим всё и обьясняется. Какие у РБ способы уникализации текста?

  • Создаем дорвей | Seo блог Карега

    [...] в предыдущих постах мы собрали ключевики для дора, очистили их от мусора и собрали тематичную текстовку. Пришло время создать наш дорвей. Так как в примерах [...]

  • Slavak

    В магадане ключевики сделал, сделал дорвей, на сайт заливаю его. А там все ключевики в кракозябрах. То есть кодировка у ключевиков UTF-8.
    Как изменить кодировку??? что то я допедрить немогу

  • Kareg

    В файле блокнота например :)

  • Slavak

    да чёто не нашёл я где там поменять можно.
    Может обьяснишь на пальцах?
    А вообще если на сайте кракозябры, ПС же всё равно пофиг какая кодировка да?

  • Kareg

    Насчет кодировки я не силен — не могу точно сказать. Браузеры то конечно много кодировок воспринимают, да и боты теоретически должны.
    Чтобы поменять делаешь сохранить как, и выбираешь нужный тебе формат.

  • Slavak

    Блин как всегда всё проще чем я думал))) Спасибо!
    Первый дорвей получился комом(т.е кракозяброй).

  • wildva

    Kareg, отлично все про доры расписал. хочу попробовать создать свой первый дор. такой вопрос что из партнерок сейчас актуально? зарегаюсь по твоим реф ссылкам.

    и нубский вопрос уникальный текст размером 1 мб это как? т.е. копирывать пока тектовый файл не будет размером 1 мб?

  • Kareg

    Про 1 мб верно уловил :) Сейчас очень жгет дейтинг, например AlphaCash

  • Flash

    Пробую Альфакэш, но конверт не очень, пока 1:548 где то.

  • Kareg

    Ух, видимо траффик соответствующий. У меня на тематическом конверт был очень хорош

  • Seomazzi

    А есть еще какая-либо другая тузла для чистки.. С более гибкими параметрами чистки.. допустим не тереть весь запрос а удалять не нужную часть…

    И так чтоб она не охеревала увидев файл в 4гига.

  • Kareg

    Seomazzi — если честно, то я не в курсе, ибо базы последнее время ток покупаю. Если найдете интересный софт — обязательно сообщите :)

  • Ktulhu

    Вопрос насчет текстовки.
    Ее сколько раз можно использовать?
    Перемешал, сделал дор и все?
    Или можно несколько доров на ней сварганить?

  • mikele65

    Видать поздновато я сюда добрался! Уже и коментов нет, жаль! Хороший блог, месяц маялся с “магаданом”, здесь за пару часов разобрался как и что! Респект админу!!! +10, уже около месяца пытаюсь добыть инфу про доры, только здесь понял откуда у этого зверя ноги растут! Сам я, полный нуб!!! Собираю по крупицам со всего инета. Подписался на рэсэсэ, прочту весь до конца.

  • mikele65

    Магадан — версия 1.2, EXEL не нужен, прога все сама делает. Классная прога, че бы кто не говорил. Специально для чайников, таких как я!

  • Snikers

    чел, ты можешь убрать этот красный ярлык “добавить в закладки” который сбоку? дико бесит!

  • ceaiton

    Все что можно сказать это просто отличный сайт! На 5+

  • Nursing Informatics: An International Overview for Nursing in a Technological Era : Proceedings of the Fifth Imia International Conference on Nursin — Susan J. Grobe, Elly S. P. Pluyter-Wenting free downloads

    Nursing Informatics: An International Overview for Nursing in a Technological Era : Proceedings of the Fifth Imia International Conference on Nursin…

    ReviewThe book does an excellent job of presenting applications within various situations and in other sections providing details about the technology…