В предыдущем посте мы парсили базу кеев для дорвея. Теперь нам нужно очистить эту базу от лишних элементов, от мусора, и разбить её на несколько частей. Но перед этим нам нужно ещё кое-что сделать. Для дора нам понадобится ещё текстовка. Для начала займемся её добычей.

Какого-либо вменяемого парсера тематического текста из Яндекса я не нашел, поэтому текст я дергал руками. Например, если мы делаем доры под дейтинг или адалт, можно произвести поиск по ключевику “Порно рассказы”, и дергать тексты из сайтов в выдаче. Текста такого нужно надергать около 1 мегабайта, такой текстовки нам хватит надолго.

Итак, теперь у нас база ключевиков, и текстовка. Эти файлы нужно обработать. Из базы ключевиков нужно удалить кол-во запросов данного ключевика (чтобы удалить количество запросов - открывайте базу ключевиков в Exel’е,  кликаем по кнопке Найти и Выделить>Заменить. В поле Найти вводим  “:*”  в поле Заменить вводим пробел  - цифры пропадут, останутся только кеи), мусорные и запретные кеи.  Текстовку нужно синонимировать и перемешать. Для всего это качаем программу KeyWordKeeper. Пароль от архива - на странице скачки.

С базой ключевиков в этой проге стоит провести удаление повторов, и очистку. Очистку стоит провести от Child Porn, вот список кеев, дополните по желанию:

детск
детьми
дети
девоч
малолет
малолет
несовершенноле
несовершено
10 лет
11 лет
12 лет
13 лет
14 лет
15 лет
16 лет
17 лет

Затем нужно удалить “не людские” запросы. Такие запросы например генерирует Xreferer. Примеры таких запросов:

phpbb
ipb
vbulletin
send
thread
new topic
new
topic
bbs
add topic

После такой очистки, разбейте базу на нужное количество частей. Я разбиваю на части по 2-3к кеев.

Теперь перейдем к текстовке. Для начала её нужно перемешать, это первый шаг к приданию уникальности. Теперь её нужно синонимировать. Синонимайзеры доступны в паблике. Например можно использовать этот синонимайзер, использующий тезариус Microsoft Word’а.

Итак, мы получили очищенную базу кеев, пригодную для использования, и неплохую текстовку. Пора нам создать дорвей, но об этом, с следующем посте -) Кстати, постоянно высокий конверт мне обеспечивает партнерка SmartBucks

Не забывайте про моё желание обменяться ссылками и мою акцию.

Постовой:
Если нет желания обременять себя сложностями оптимизации и раскрутки своих сайтов, предлагаю вам воспользоваться услугами http://www.gravitacia.com.ua/ - компания предлагает широкий спект услуг - от создания и продвижения сайтов, до разработки баннеров.

Кстати, я всегда готов к обмену постовыми и открыт к диалогу. Также у вас есть возможность разместить на моем блоге интересный гостевой пост - по всем вопросам обращайтесь в контакты указанные выше.

Если вам понравился материал, советую вам подписаться на новые посты по RSS. Также вы можете следовать за мной в Твиттере Кстати, если вы хотите получать новые cтатьи на почту - воспользуйтесь формой ниже.

Подписаться на новые статьи по почте:

Тэги: , ,

Kareg

39 комментариев

 1 

Ручками дергать как-то не очень эстетично. Можно парсер написать, это будет не очень сложно. Как руки дойдут, напишу и скину тебе.

апреля 10, 2009 at 21:54
 2 

Было бы неплохо, надо всё сводить к автоматизации.

апреля 10, 2009 at 21:58
 3 

Написал простеньки парсер на php под Яшу. Вводишь слово, он парсит только тексты со всей выдачи, удаляет html теги и выводит на экран. В Feedback не отображается капча. Вечерком стукну в асю.

апреля 11, 2009 at 13:05
 4 

Да, форма чего-то глючила. Поправил.

апреля 11, 2009 at 13:12
 5 

А обязательно использовать связный текст? Бывают ведь сайт с каталогами товаров, т.е. таблица с наименованиями и цифрами, описания товаров…
И еще, по идее можно использовать иностранные тексты, яндекс ведь научился индексировать зарубежные сайты, найти какие нибудь, которые точно вне индекса еще и скопировать к себе. Получится первоисточник)
Поправьте, если я не прав, просто я еще не очень в теме пока.

апреля 11, 2009 at 20:15
 6 

Нужно использовать что-то близкое по тематике, в тексте. Яндекс конечно индексировать научился иноязычные сайты, но в его правилах четко написано, почему он любит русскоязычные сайты, поэтому мало смысла вижу в делать текстовку на иностранном языке.

апреля 11, 2009 at 20:32
 7 

А если переводить текст через гугл-переводчик или аналогичный? Как то видел пример адалт сплога, текст там был явно нечеловеческий, но сайт исправно индексировался. Самое забавное, что даже постоянные посетители были, которые регулярно остовляли комментарии и общались)

апреля 11, 2009 at 20:36
 8 

А вот это уже вполне вариант -) Текст должен получиться вполне уникальным

апреля 11, 2009 at 20:43
 9 

Ну да, а если потратить время, то можно даже и читаемым его сделать.
В принципе сейчас вспомнил, я переводил через гугл страницы иностранных сайтов, помню вики переводил, вполне реально прочесть
http://www.google.com/language_tools
так что наверно для яши прокатит

апреля 11, 2009 at 20:46
 10 

Можно конечно. А в ру сегменте нет нужного вашей тематики текста?

апреля 11, 2009 at 20:53
 11 

Так не в этом ведь дело. Главная цель получить уникальный контент, который не будет забанен как спам, с минимальными трудо- и времязатратами)

апреля 11, 2009 at 20:56
 12 

Ну это само собой -) Почему тогда бы не использовать синонимированный текст добытый в Яндексе? )

апреля 11, 2009 at 20:58
 13 

Ну по попыту продвижения статьями, синонимированный текст довольно легко палится. Т.е. размноженная статья, опубликованная на множестве ресурсов не давала никакого эффекта, приходится создавать для каждого сайта свою уникальную статью.
В том же миралинксе даже ручной рерайт, если он не очень качественный, легко палился автофильтром и первоисточник быстро выявляется, не думаю что яндекс в этом плане отстает.

апреля 11, 2009 at 21:03
 14 

Ну возможно, пока таких проблем не было. Там он же сильно перемешан, и сильно синонимизирован, такая каша получается -) Кстати, немного не в тему, вот этот сайт по вашей ссылке -вы владелец его?

апреля 11, 2009 at 21:07
 15 

Если бы я был его владельцем, то стал бы заниматься сео и пытаться заработать на адалте))
Нет, просто совмещаю работу с развитием и удовольствием. Эдакие ковровые бомбардироки по зайцам)

апреля 11, 2009 at 21:10
 16 

Эх жаль -) Хочу какой-нибудь пс3 обзавестись всё просто )

апреля 11, 2009 at 21:14
 17 

Ну, к слову, довольно дешевый сайт. Возможно самый дешевый. У них прямые поставки из америки, поэтому наценки по минимум.
Я и сам думал о консоли, но только не пс3, мне и компа хватает, я бы wii себе взял, она повеселее)
Еще недавно в онлайн покер начал играть. Затягивает очень. На реальные пока не играю, опыта мало, но в целом тоже можно заработать, если аналитический склад ума и выдержка хорошая. Даже появилась идея созадть блог о покере, если выигрывать не получится, хоть на партнерке заработаю)

апреля 11, 2009 at 21:19
Алекс
 18 

Зачем текст синонимизировать, если дор сам его сделает уником. Не вижу смысла!

апреля 13, 2009 at 10:06
 19 

Начал делать и наткнулся на одном шагу. Тот контент который парсю через скрипт парсинга снипетов получается грязноватым, т.е. в нем остаются всякие BB коды и url. KeyWordKeeper их не чистит. Пришлось дописывать скрипт что бы он еще этот мусор удалял. Кстате напиши в аську помог мой скрипт тебе?

апреля 13, 2009 at 12:01
 20 

Как это ДОР его сделает уником? :) МБ дорген? Тогда говорите какой дорген и какими методами.

апреля 13, 2009 at 12:11
 21 

Я ещё пока не юзал его, новые доры не делал. Отпишусь как буду использовать обязательно. Просто помимо доров две сетки делаю, время отнимают -)

апреля 13, 2009 at 12:16
Алекс
 22 

да дорген, Redbutton

апреля 14, 2009 at 8:08
 23 

Я работаю с другим доргеном, который только перевешивает текст, этим всё и обьясняется. Какие у РБ способы уникализации текста?

апреля 14, 2009 at 12:59
 24 

[...] в предыдущих постах мы собрали ключевики для дора,  очистили их от мусора и собрали тематичную текстовку. Пришло время создать наш дорвей. Так как в примерах [...]

апреля 14, 2009 at 17:45
Slavak
 25 

В магадане ключевики сделал, сделал дорвей, на сайт заливаю его. А там все ключевики в кракозябрах. То есть кодировка у ключевиков UTF-8.
Как изменить кодировку??? что то я допедрить немогу

мая 15, 2009 at 12:04
 26 

В файле блокнота например :)

мая 15, 2009 at 18:33
Slavak
 27 

да чёто не нашёл я где там поменять можно.
Может обьяснишь на пальцах?
А вообще если на сайте кракозябры, ПС же всё равно пофиг какая кодировка да?

мая 15, 2009 at 19:19
 28 

Насчет кодировки я не силен - не могу точно сказать. Браузеры то конечно много кодировок воспринимают, да и боты теоретически должны.
Чтобы поменять делаешь сохранить как, и выбираешь нужный тебе формат.

мая 15, 2009 at 20:29
Slavak
 29 

Блин как всегда всё проще чем я думал))) Спасибо!
Первый дорвей получился комом(т.е кракозяброй).

мая 15, 2009 at 20:38
wildva
 30 

Kareg, отлично все про доры расписал. хочу попробовать создать свой первый дор. такой вопрос что из партнерок сейчас актуально? зарегаюсь по твоим реф ссылкам.

и нубский вопрос уникальный текст размером 1 мб это как? т.е. копирывать пока тектовый файл не будет размером 1 мб?

мая 26, 2009 at 13:19
 31 

Про 1 мб верно уловил :) Сейчас очень жгет дейтинг, например AlphaCash

мая 26, 2009 at 18:34
 32 

Пробую Альфакэш, но конверт не очень, пока 1:548 где то.

июня 5, 2009 at 21:07
 33 

Ух, видимо траффик соответствующий. У меня на тематическом конверт был очень хорош

июня 5, 2009 at 21:41
 34 

А есть еще какая-либо другая тузла для чистки.. С более гибкими параметрами чистки.. допустим не тереть весь запрос а удалять не нужную часть…

И так чтоб она не охеревала увидев файл в 4гига.

августа 2, 2009 at 19:17
 35 

Seomazzi - если честно, то я не в курсе, ибо базы последнее время ток покупаю. Если найдете интересный софт - обязательно сообщите :)

августа 2, 2009 at 20:39
 36 

Вопрос насчет текстовки.
Ее сколько раз можно использовать?
Перемешал, сделал дор и все?
Или можно несколько доров на ней сварганить?

августа 23, 2009 at 12:05
mikele65
 37 

Видать поздновато я сюда добрался! Уже и коментов нет, жаль! Хороший блог, месяц маялся с “магаданом”, здесь за пару часов разобрался как и что! Респект админу!!! +10, уже около месяца пытаюсь добыть инфу про доры, только здесь понял откуда у этого зверя ноги растут! Сам я, полный нуб!!! Собираю по крупицам со всего инета. Подписался на рэсэсэ, прочту весь до конца.

февраля 12, 2010 at 20:13
mikele65
 38 

Магадан - версия 1.2, EXEL не нужен, прога все сама делает. Классная прога, че бы кто не говорил. Специально для чайников, таких как я!

февраля 14, 2010 at 1:50
Snikers
 39 

чел, ты можешь убрать этот красный ярлык “добавить в закладки” который сбоку? дико бесит!

марта 29, 2010 at 19:36

Оставить комментарий

Имя (*)
E-mail (*)
URL
Сколько будет 3 + 5 ?

Ваш комментарий