Грабит и исчезают галлерки

Постим сюда все найденые ошибки
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Грабит и исчезают галлерки

Post by Semen_ssr »

Новый сервак, новый инстал, 1 домен, история в кратце:
Грабит, к примеру загружено 50 галер(пиксы), в активе увидел 27, через 3-5 минут остается 9-14
Грабим опять тот же источник +9-10 галлер и так по кругу пока не запомнит эти 50
Есть другой серв, там разворачивал дамп - грабит без проблем тысячами.

Your Build 202107191203 (Current build: 202107191203 ) PHP version 7.4.11 Mysql Version: 10.4.14-MariaDB - тот что грабит
Your Build 202107191203 (Current build: 202107191203 ) PHP version 7.4.3 Mysql Version: 10.3.29-MariaDB-0ubuntu0.20.04.1 - тот что делает нервы

Кусочек лога:
2021-07-19 10:07:21: Downloading img https://example.com/169d.jpg to ../tmp/17592/tmp//277403.jpg, ref https://www.gallery.com/galleries/bla-bla/ (139.9373550415, 8.9883804321289E-5)
2021-07-19 10:07:21: Curl error: getaddrinfo() thread failed to start
(139.93766403198, 0.00031018257141113)
2021-07-19 10:07:21: unset ref (139.93777298927, 0.00010395050048828)
2021-07-19 10:07:21: Curl error: getaddrinfo() thread failed to start
(139.93802404404, 0.00025105476379395)
2021-07-19 10:07:21: Source Size: 0 (139.93811821938, 8.893013
Но оооо Великий и Могучий сказал мне:
инет говорит что может быть ограничение на кол-во открытых конектов на серваке
Что делали:
1. Сравнил все вкладки и настройки где работает
2. Разворачивал дамп на случай если не увидел настроек которые включены
3. Хостер поднял "некоторые параметры php" (просто цитирую)
4. Кинул кроны просто в crontab -e без всяких файлов и sleep
5. В логе граббера хостер нашёл ошибки днс-резолвинга, 2021-07-19 12:52:14: Curl error: Could not resolve host: example.com заменил системный днс, там был прописан по дефолту днс-сервер датацентра, видимо он режет если быстро много обращений. Поднял локальный днс
6. Отключил с перепугу cloudflare с проксированием трафика
7. Еще раз грабил на новом и старом и в сетингах обратил внимание на
новый который - пропускает галлеры
Gallery Grabber Threads, count
ie how gallery grabber instances should we launch
default is 3
more instances = more processed galleries per minute = more load on server
Current average speed: 104 galleries per minute

старый - делает все как надо
Gallery Grabber Threads, count
ie how gallery grabber instances should we launch
default is 3
more instances = more processed galleries per minute = more load on server
Current average speed: 2 galleries per minute
8. Тут вернулись к тому что основная ошибка в том что curl не может скачать галеры
2021-07-19 14:46:49: Curl error: getaddrinfo() thread failed to start
(168.53213500977, 5.5074691772461E-5)
2021-07-19 14:46:49: Source Size: 0 (168.53215789795, 2.1934509277344E-5)
2021-07-19 14:46:49: Can not download https://example.com/7ae8.jpg (Not 200 answer (0) ) (168.53217387199, 1.4781951904297E-5)
2021-07-19 14:46:49: Looks like this is a custom gallery, trying to download source from a saved gallery (168.53219199181, 1.6927719116211E-5)
2021-07-19 14:46:49: Custom gallery not an array, skipping (168.53221201897, 1.9073486328125E-5)
2021-07-19 14:46:49: Can not make thumb for this item, skipping ... (168.53222799301, 1.5974044799805E-5)
Хостер думал что дело может быть в днс, но не помогло.
Какого-то лимита исходящих коннектов на сервере нет.
9. Отключили IPV6
10. Сменил домен, скрипт, формат WEBp в JPG, сменил дамп импорта.

help me(

Более подробно кину телегу
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Re: Грабит и исчезают галлерки

Post by Semen_ssr »

Еще вот че на Home, первый раз такое предупреждение вижу: There's 12042 files in /home/user/www/example.com/scj/tmp/, please, check it manually
admin
Site Admin
Posts: 37202
Joined: Wed Sep 10, 2008 11:43 am

Re: Грабит и исчезают галлерки

Post by admin »

вообще инет весь говорит что вопрос в днс
например

https://stackoverflow.com/questions/627 ... g-informat

на другом серваке все ок с этими галерами?
Don't forget to run script update
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Re: Грабит и исчезают галлерки

Post by Semen_ssr »

Да, все отлично, передал еще раз админу
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Re: Грабит и исчезают галлерки

Post by Semen_ssr »

проверили еще раз все настройки,
также поменял днс на гугловские
8.8.8.8
8.8.4.4

Из консоли днс работает нормально, домены всегда резолвятся.
Также попробывал из консоли вручную curl-ом на те URL, которые в логе граббера не открываются, тоже всё ок, но конечно из консоли сложно симулировать работу граббера.

Что можно попробовать сделать дальше ?
admin
Site Admin
Posts: 37202
Joined: Wed Sep 10, 2008 11:43 am

Re: Грабит и исчезают галлерки

Post by admin »

что б сразу прояснить вопрос

curl - это системная либа

галеры скачивает (!) не смарт а сервак, примерно как пхп скрипт говорит серваку "возьми curl и скачай такой-то урл" - сервак качает и передает в пхп скрипт

так вот в процессе запроса curl (сервак) возвращает ошибку которую смарт и пишет

тест с другим серваком показывает что вопрос где-то в серваке

если ввести в гугле Curl error: getaddrinfo() thread failed to start то будет кучка примеров которые, что и логично, никак не касаются смарта, потому что, как я уже выше сказал, это часть сервака а не какого-то скрипта конкретного

мне кажется надо админу почитать что было в каждому из тех случаев и уже оттуда думать что делать, я лично с таким в администрировании не сталкивался поэтому сказать как конкретно надо делать к сожалению не могу
Don't forget to run script update
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Re: Грабит и исчезают галлерки

Post by Semen_ssr »

Спасибо передал, отпишусь как разрешится вопрос
admin
Site Admin
Posts: 37202
Joined: Wed Sep 10, 2008 11:43 am

Re: Грабит и исчезают галлерки

Post by admin »

ok
Don't forget to run script update
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Re: Грабит и исчезают галлерки

Post by Semen_ssr »

There's 38191 files in /home/user/www/example.com/scj/tmp/, please, check it manually

А есть какие то комментарии по этому поводу ?
Semen_ssr
Posts: 803
Joined: Sun Apr 25, 2010 7:59 pm

Re: Грабит и исчезают галлерки

Post by Semen_ssr »

По поводу самой ошибки, переробывали много раз с разными днс, даже прописывал хост, с которого граббинг в /etc/hosts, т.е. по сути днс-резолвинга в этом случае вообще не должно быть,
но всё равно через некоторое кол-во галер в скрипте он перестаёт работать, где-то через минуты 3-3.5, и соответсвенно все галеры дальше пропускаются.

2021-07-20 09:28:02: processed_galleries = 1, memory = 5.2 Mb limit 1024M (0.00041604042053223, 0.00041985511779785)
2021-07-20 09:28:02: Processing https://join.ddfnetwork.com/gallery/car ... 1619.0.0.0 (416) (0.0019989013671875, 0.0015790462493896)
2021-07-20 09:28:02: Loading gallery https://join.ddfnetwork.com/gallery/car ... 1619.0.0.0 (0.0027658939361572, 0.00076508522033691)

....

2021-07-20 09:31:38: Curl error: Could not resolve host: hwnds.ddfstatic.com (216.69840407372, 0.0023000240325928)
2021-07-20 09:31:38: Curl error: getaddrinfo() thread failed to start
(216.69997692108, 5.6982040405273E-5)
2021-07-20 09:31:38: Can not download https://hwnds.ddfstatic.com/ddfcash/con ... lm/001.jpg (Not 200 answer (0) ) (216.70000100136, 2.1934509277344E-5)

При этом из консоли проблему воспроизвести не удаётся, вот например запускаю в цикле 100 раз скриптом коннект curl -I hwnds.ddfstatic.com, и домен всегда отвечает, ниразу нет ошибки DNS

# for i in {1..100}; do curl -I hwnds.ddfstatic.com ;done | grep "HTTP/1.1 200 OK" | wc -l
100

Вопрос от хостера:
Можете еще уточнить у разрабов, curl в граббере используется через расширение php-curl, или там именно бинарник /usr/bin/curl через exec() вызывается?
переставляем пых с PHP version 7.4.3 на PHP version 7.4.11 где все работает, может тут какая то бага
Post Reply