Author Topic: Поиск внутренних ссылок на сайте  (Read 3879 times)

0 Members and 1 Guest are viewing this topic.

garr24

  • Зашел в гости
  • *
  • Posts: 15
  • Помогу с написанием скрипта за скромную оплату
    • View Profile
Поиск внутренних ссылок на сайте
« on: November 12, 2014, 11:27:33 AM »
Привет. Есть такая задачка:
1.Открыть любой сайт(это я знаю как сделать ;D)
2.Найти все внутренние ссылки(переходы по сайту) , исключить повторяющиеся и которые начинаются с вк.ком и тд.(все соц сети)  :o
3.Записать все переходы в текстовый файл в случайном порядке (каждая ссылка на отдельной строке)
3.1 ИЛИ перейти по 3-4 случайным переходам внутри сайта

Суть задумки:
1.открыть сайт(сайт случайный и в каком месте сайта будут переходы хз)
2.сделать в нем 3-4 случайных перехода внутри сайта

Есть какие варианты или готовые решения?
Хотел искать ссылки в коде станицы, но там все напичкано "" с которыми КМ не дружит.

Vint

  • Супермодератор
  • Герой форума
  • *
  • Posts: 3935
  • Лечу куда хочу. cman 4.13.014x32, 4.14.003 W10
    • View Profile
Re: Поиск внутренних ссылок на сайте
« Reply #1 on: November 12, 2014, 02:56:03 PM »
Нужно решать задачи подходящими инструментами. Делать всё описанное кликером - это чесать правой ногой левое ухо.
Всё гораздо проще делается любыми другими средствами. Парсить код страницы напрямую используя регулярные выражения.


Луций

  • Активный участник
  • ***
  • Posts: 248
  • чат в телеге: https://t.me/klickermannchat
    • View Profile
    • Пишу скрипты на заказ:
Re: Поиск внутренних ссылок на сайте
« Reply #2 on: November 13, 2014, 01:58:50 AM »
как вариант - сохранять код страницы в текстовый файл и искать там по аштитипи с записью их в файл и последующим переходом по этим адресам

не уверен что будет работать везде

security

  • Освоившийся
  • **
  • Posts: 68
    • View Profile
Re: Поиск внутренних ссылок на сайте
« Reply #3 on: June 28, 2015, 09:11:37 AM »
Код на пхп. Прошу прощения за ап некротемы, просто код сделал, а заметил что теме больше 120 дней только потом.

Code: (php) [Select]
<?php

$url 
"http://yandex.ru";
$output = array();
$content file_get_contents($url);

if(
preg_match_all('/<a\s[^>]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>/siU'$content$matchesPREG_SET_ORDER))
{
foreach($matches as $match)
{
if(!empty($match[2])) $output[] = $match[2];
}
}

$output array_unique($output);

echo 
"<xmp>";
print_r($output);
echo 
"</xmp>";

?>