Показаны сообщения с ярлыком генерации текста цепей Маркова. Показать все сообщения
Показаны сообщения с ярлыком генерации текста цепей Маркова. Показать все сообщения

воскресенье, 10 мая 2009 г.

Генератор текста на основе цепей Маркова

Просмотрев много сайтов и форумов о генерации текста для дорвеев, я узнал, что наибольшей популярностью пользуется метод основанный на цепях Маркова. Что же это за метод и почему он так известен. Сейчас я расскажу все, что мне удалось узнать.

Где-то прочитал о том, что наверное если бы Марков узнал как применяется его метод, именно для генерации текста он бы очень удивился. Определение можно почитать здесь. Если вы хорошо владеете высшей математикой то это может вам помочь.

Принцип генерации текста на основе цепей Маркова довольно не сложный метод, как может показаться в начале. На примере данного текста постараюсь пояснить.
Привет всем, кто хочет делать дорвеи, хочет генерировать текст
Вот такое простенькое предложение поможет сейчас нам:) Вначале по какому-то принципу выбирается начальное слово. Это может быть как случайное слово из всего текста, так и специально заданное - зависит от алгоритма. Далее проверяется весь текст на наличие этого слова.

Вот допустим у нас слово выберется случайным образом и это будет кто. Так как построение предложений в русском языке ведутся по определенным правилам, то некоторые слова могут идти после других, а некоторые нет. Проще сказать, что после слова делать может идти слово дорвеи, сайт, интернет проект но не как не программировать, кодить. Правила русского языка - раздел морфология (нет конечно в отдельных ситуациях может и такое использоваться).

Вот по этому методу и берется слово которое находится после нужного. Это не плохой вариант построение правильный с точки зрения морфологии предложений, но текст будет конечно бредовый и бессмысленный.

Вернемся назад, как помните было выбрано слово кто. Таким образом находим все слова которые идут за ним, в нашем случае после слова
кто
идет хочет. В итоге будет напечатано:
кто хочет
Идем далее, теперь мы уже ориентируемся на слово хочет и ищем его наличие в тексте. После того как нашли все эти слова в тексте, а у нас их два. Запоминается по слову после, это делать и генерировать. Далее выбираем случайным образом или по алгоритму одно слово. Допустим генерировать и вписываем его в предложение. Получаем:
кто хочет генерировать
Теперь мы ориентируемся на слово генерировать и ищем его в тексте И так далее пока допустим не наберем нужное количество слов или не выполнится какое-то условие.

Вот был объяснен принцип генерации текста. Надеюсь, что все предельно ясно изложил :)

В связи с тем, что на выходе после генерации получаем уникальный текст,а число слов можно строго задать - этот метод пользуется большой популярностью. Кроме того в зависимости от текста для генерации можно получать как русскоязычный генерированный текст, так и иностранный. Для всего нужно иметь начальный текст достаточно не большого размера.

Недостатки большая нагрузка на процессор, долгое время генерации страницы. Так как по методу приходиться каждый раз искать слово в тексте и сверять его. Нужны также ресурсы памяти что бы хранить слова (особенно если первоначальный текст очень большой). Малая уникальность генерированного текста при большом количестве уникальных слов, и малом объеме первоначального текста.

Мною был разработан скрипт на php - генерации текста. Писал ради спортивного интереса, для опыта кодинга на php и что бы выложить на блоге.

Вот примерный результат работы. Допустим возьмем текст предоставленный wikipedia
Дорвей (англ. doorway) — в SEO, сайт или веб-страница, ориентированные на конкретный поисковый запрос (либо группу запросов) и созданные с целью занять высокое место среди результатов выдачи (SERP), генерируемых поисковыми системами по данным запросам, за счет повышенной плотности содержания ключевых слов и правильного использования важных для ранжирования факторов.

и сгенерируем что нибудь на 200 слов :)
doorway — в seo сайт или веб страница ориентированные на. Конкретный поисковый запрос либо группу запросов и созданные с целью. Занять высокое место среди результатов выдачи serp генерируемых поисковыми системами. По данным запросам за счет повышенной плотности содержания ключевых слов. И созданные с целью занять высокое место среди результатов выдачи. Serp генерируемых поисковыми системами по данным запросам за счет повышенной. Плотности содержания ключевых слов и созданные с целью занять высокое. Место среди результатов выдачи serp генерируемых поисковыми системами по данным. Запросам за счет повышенной плотности содержания ключевых слов и созданные. С целью занять высокое место среди результатов выдачи serp генерируемых. Поисковыми системами по данным запросам за счет повышенной плотности содержания. Ключевых слов и правильного использования важных для ранжирования факторов дорвей. Англ doorway — в seo сайт или веб страница ориентированные. На конкретный поисковый запрос либо группу запросов и созданные с. Целью занять высокое место среди результатов выдачи serp генерируемых поисковыми. Системами по данным запросам за счет повышенной плотности содержания ключевых. Слов и созданные с целью занять высокое место среди результатов. Выдачи serp генерируемых поисковыми системами по данным запросам за счет. Повышенной плотности содержания ключевых слов и правильного использования важных для. Ранжирования факторов дорвей англ doorway — в seo сайт


Как видим текст немного похож. Это связано с тем, что начальный текст не сильно большой и в нем много уникальных слов. Для большей уникальности нужно, больший объем слов.
Скрипт разбивает текст на предложения по 10 слов. Новое предложение пишит с большой буквы. Можно задать нужное количество слов.
Скрипт тут

воскресенье, 26 апреля 2009 г.

ЭХ....

Эх..! Давно я не захаживал на мой блог, что бы что то написать, но вот решил что нибудь озвучить.... Много конечно поменялось...

Вот например мой сайт блог наконец то был проиндексирован Яндексом, почему такая медленная скорость еще придется выяснить... В Украине вроде кризис уже разруливается хотя по новостям говорят, что все не так хорошо... Говорят, что к маю все будет углубляется посмотрим... Как я понял сейчас искать клиентов для создания сайта нет смысла. Будем ждать и готовится (учится) что бы потом делать эффективнее всю работу.

Вот так значит мой блог попал в индексацию по яндексу, в гугл он попал как то быстрее и Гугл захватил более количество страниц. На до будет подумать почему. Хотя первое мнение, что блог предоставлен компанией Гугл, по этому и отношение Гугла к блогу лучше чем у других поисковиков.

Я тут просматривал статистику запросов по которым люди приходят ко мне на блог. Половина из них это в основном по запросу ГЕНЕРАТОР ТЕКСТА. Почему то все ищут генератор по Маркову, не знаю почему он так всем нравится или ищется. Скорее просто информации на просторах интернета о нем много и поэтому люди думают его найти. Хотя по моему мнению есть много еще принципов построения предложений и слов в них и поэтому лучше искать просто генератор текста не именно по цепям Маркова...

Я тут подумал наверное изучу алгоритм генерации текста цепей Маркова. И напишу генератор текста. Возможно выложу его для скачивания. Выложу скрипт php хотя скорее всего буду его менять на разноцветные деньги..

Я вот задумался на просторах интернета очень мало становится халявы. Но с другой стороны если я тратил свое время на, что то почему мне не заработать ведь я тратил время... Люди которые занимаются серьезно бизнесом и например занимаются Сео они я думаю понимают, что значит тратить время и что хорошо бы получить что то...

Поэтому они согласны с тем, что бы платить деньги за что то (услугу или ....) и соответственно получать деньги за свою работу. По другому работать нельзя. Я тут поработал и понял что людей любящих на халяву получить что то очень много. При этом они не будут сильно огорчатся. Но может и будут, но тебе что с этого ты ведь посто тоже будеш... Короче надо брать деньги и все. А там уже сам думай куда их тратить можешь их отдать кому то нуждающемуся.

Потому забревши на просторы интернета многие на халяву пытаются найти что.. Честно говоря я и сам такой же раньше был. Просто больших денег пока нет, но сразу хочу сказать все что я находил нужно было дорабатывать напильником. А без должных знаний напильник не очень пригодится. Так и выходит, что без знаний ни чего не сделаешь, а с знаниями можешь и сам все с нуля сделать. Учится надо короче.

Я тут узнал, что много на просторах интернета школьников хотят заработать на Сео. Ну тут без комментариев.

Ладно спасибо, что прочитали. Много учить теории и пробовать на практике.