Penguin – для обработки текстовых файлов больших размеров

xrumall

Administrator
Команда форума
Penguin – это бесплатная программа, служащая для обработки текстовых файлов больших размеров (до терабайта). Под обработкой подразумевается возможность осуществления выборок по ряду условий, фильтрация этих выборок от любого мусора, сортировка, перемешивание, удаление явных и неявных дублей строк, поиск дубликатов строк, осуществление поиска, замены и т.п.

Penguin позволяет свободно открывать текстовые файлы любых размеров и просматривать их содержимое, что позволяет удобно и быстро настраивать параметры фильтров для качественной очистки содержимого файлов или выборок от всех нежелательных элементов.

Области применения Penguin:
  • Основной, но далеко не единственной, областью применения Penguin является подбор ключевых слов из баз, хранящихся в больших текстовых файлах, подобных Базе Пастухова, которые можно найти в свободном доступе в сети.
  • Так же он будет полезен, если возникает необходимость извлечь нужные данные из любого списка или файла, или очистить его от ненужных элементов.
  • Вполне возможно применение Penguin для очистки отпарсенного контента от дублей и любого мусора, что бывает необходимо при подготовке текстов под доргены.
  • Основной особенностью Penguin является возможность свободно открывать большие текстовые файлы, которые не может открыть ни один текстовый редактор. Это особенно актуально при работе с базами ключевых слов больших размеров, так как Вы можете визуально оценивать, как качество исходной базы, так и качество конечных выборок, что позволяет делать исключительно чистые выборки.

Penguin абсолютно бесплатен и может использоваться без каких либо ограничений. В дополнение он имеет расширенную верию, которая имеет дополнительный функционал, который будет расширяться с новыми обновлениями. Так же Вы можете заказывать совершенно бесплатно любые дополнения функционала под себя. Стоимость расширенной версии составляет всего 10$. При покупке расширенной версии Вы так же получаете дополнительные бонусы, на момент публикации поста – это скидка в 50% на покупку X-Parser Light.

Интерфейс программы Penguin 3.0:

Программа состоит всего из одной формы, скриншот которой Вы можете увидеть ниже. Все элементы имеют всплывающие подсказки, особо важные элементы формы имеют подробное описание их возможностей. Назначение каждой кнопки Вы увидите, просто наведя на них указатель мыши. Интерфейс прост и интуитивно понятен, так что думаю проблем с Пингвином у Вас не должно возникнуть.



Краткий видеообзор:




Penguin – бесплатная программа для подбора ключевых слов + база на 200млн. кейвордов


Penguin – это бесплатная программа, служащая для обработки текстовых файлов больших размеров (до терабайта). Под обработкой подразумевается возможность осуществления выборок по ряду условий, фильтрация этих выборок от любого мусора, сортировка, перемешивание, удаление явных и неявных дублей строк, поиск дубликатов строк, осуществление поиска, замены и т.п.

Penguin позволяет свободно открывать текстовые файлы любых размеров и просматривать их содержимое, что позволяет удобно и быстро настраивать параметры фильтров для качественной очистки содержимого файлов или выборок от всех нежелательных элементов.

Области применения Penguin:
  • Основной, но далеко не единственной, областью применения Penguin является подбор ключевых слов из баз, хранящихся в больших текстовых файлах, подобных Базе Пастухова, которые можно найти в свободном доступе в сети.
  • Так же он будет полезен, если возникает необходимость извлечь нужные данные из любого списка или файла, или очистить его от ненужных элементов.
  • Вполне возможно применение Penguin для очистки отпарсенного контента от дублей и любого мусора, что бывает необходимо при подготовке текстов под доргены.
  • Основной особенностью Penguin является возможность свободно открывать большие текстовые файлы, которые не может открыть ни один текстовый редактор. Это особенно актуально при работе с базами ключевых слов больших размеров, так как Вы можете визуально оценивать, как качество исходной базы, так и качество конечных выборок, что позволяет делать исключительно чистые выборки.
Penguin абсолютно бесплатен и может использоваться без каких либо ограничений. В дополнение он имеет расширенную верию, которая имеет дополнительный функционал, который будет расширяться с новыми обновлениями. Так же Вы можете заказывать совершенно бесплатно любые дополнения функционала под себя. Стоимость расширенной версии составляет всего 10$. При покупке расширенной версии Вы так же получаете дополнительные бонусы, на момент публикации поста – это скидка в 50% на покупку X-Parser Light.

Интерфейс программы Penguin 3.0:

Программа состоит всего из одной формы, скриншот которой Вы можете увидеть ниже. Все элементы имеют всплывающие подсказки, особо важные элементы формы имеют подробное описание их возможностей. Назначение каждой кнопки Вы увидите, просто наведя на них указатель мыши. Интерфейс прост и интуитивно понятен, так что думаю проблем с Пингвином у Вас не должно возникнуть.



Краткий видеообзор:



Какие задачи может решать Penguin:
  1. Открывать и просматривать контент больших текстовых файлов (1-2000Gb).
  2. Производить выборки по ряду условий из текстовых файлов любых размеров со скоростью порядка 1 гигабайта в минуту.
  3. Производить фильтрацию строк или кейвордов по включениям. Т.е. задав в качестве включения слово "Скачать" Вы получите все строки, которые содержат данное слово. Возможно задавать несколько включений одновременно, можно использовать регулярные выражения.
  4. Производить фильтрацию строк или кейвордов по исключениям. Т.е. задав в качестве включения слово "Бесплатно" Вы получите все строки, которые не содержат данное слово. Возможно задавать несколько включений одновременно, можно использовать регулярные выражения.
  5. Производить фильтрацию фильтрации строк или кейвордов по дублям слов (в расширенной версии).
  6. Фильтровать строки по длине.
  7. Фильтровать строки по количество слов.
  8. Удалять явные дубли.
  9. Удалять неявные дубли (в расширенной версии).
  10. Находить дубли. Актуально, если нужно найти пересечения в нескольких списках любых строк или кейвордов (в расширенной версии).
  11. Производить поиск нужных элементов каждой строки с помощью регулярных выражений. Например можно с легкостью из списка с данными клиентов извлечь список телефонов, задав 1 условие.
  12. Производить поиск-замену, как с регулярными выражениями, так и без, в текстовых файлах неограниченных размеров.
  13. Производить обработку одновременно нескольких файлов.
  14. Производить выборку по разным включениям, сохраняя результаты в разные файлы, получая отдельные выборки по каждому условию за 1 проход (в расширенной версии).
  15. Сохранять все настройки для повторного выполнения однотипных обработок.
  16. Благодаря визуализации контента позволяет удобно и быстро настраивать фильтры посредством сочетаний клавиш и контекстного меню. Например выделив слово в открытом файле и нажав Ctrl+W слово будет добавлено во включения, Ctrl+Q – в исключения. Все сочетания клавиш дублируют возможности контекстного меню, которое можно вызвать, кликнув на выделении правой кнопкой мыши.
Ссылки:


Ссылка: Скачать

Ссылка: Скачать базу ключевых слов на 200 миллионов кейвордов, 10Gb (torrent)

Ссылка: Официальный сайт
 
Сверху