Semalt изработва URLitor - много готин уеб инструмент за изстъргване и извличане на данни

URLitor е нов, но ефективен уеб инструмент за изстъргване и извличане на данни. За да използвате URLitor, просто трябва да добавите списък с всички URL адреси, чието съдържание искате да изстържете онлайн в предоставения шаблон. След това трябва да посочите HTML елемента, който искате да извлечете от уеб страниците и да кликнете върху бутона за изпращане. Това е толкова лесно като това. С този инструмент вече не е необходимо да правите копие или паста от браузъра.

xPath е език, който се използва за търсене на информация в XML файлове. Той използва определени изрази, за да избира набори от възли или възли в XML файлове. Изразите, които XPath разбира са доста сходни с тези, които се използват с нормални компютърни файлове или документи.

Въпреки че XPath се използва с няколко езика за програмиране, този инструмент е създаден за потребители, които нямат познания по програмиране. Така че не е необходимо да сте програмист, за да се възползвате от него. С този инструмент можете да извличате данни от няколко HTML и XML страници.

За простота на използване, няколко често използвани XPath изрази са предварително дефинирани в падащо меню, така че потребителите ще трябва само да изберат някой от тях в зависимост от целта си. Въпреки това, опитни потребители на XPath имат право да използват персонализираните си изрази, когато пожелаят.

Инструментът е проектиран с капацитет от 100 URL адреса в една сесия за изстъргване и отнема максимум 10 израза наведнъж. С други думи, той може да изстърже данни от максимум 100 URL адреса наведнъж.

Някои важни персонализирани изрази на XPath, които могат да бъдат модифицирани или добавени, са описани точно по-долу:

1. // div [2] - Този израз избира втория div йерархично;

2. // link [@ rel = 'canonical'] / @ href - Този израз избира местоположението (ref) на маркера, който се използва за задаване на атрибута rel, равен на canonical;

3. / html / head / meta [@ name = 'description'] / @ content - Този израз се използва за избор на съдържание;

4. // * [@ class = 'class-name'] - Можете да използвате този израз, за да изберете всички елементи с 'class-name' като CSS клас;

5. // h2 | // заглавие - Този израз може да се използва за избор на първия H2 и заглавието на страницата;

6. // * [име () = 'h1' или име () = 'заглавие']) - Този израз работи точно като този по-горе. Изразът, представен по-горе, обаче е по-добър, тъй като е по-кратък;

7. // * [съдържа (@class, 'thumb')] - Този израз избира всеки елемент, който има CSS клас и също съдържа 'thumb' за извличане;

8. // родител :: * [text () = 'Добре дошли'] - Този израз избира родителя на всеки елемент, който има текст 'Добре дошли';

Този инструмент е бета версия и все още може да работи с някои грешки. Въпреки това, той все още е чудесен инструмент за потребители с малко или никакви познания по програмиране, тъй като всички често използвани изрази са предварително дефинирани в меню, както беше споменато по-рано.