User Tools

Site Tools

Translations of this page:

ru:import_sets

Import Sets

Разные спонсоры предоставляют урлы в разных форматах: RSS (причем многие используют не описанные стандартом поля), XML, дампы. И если RSS можно был добавлять прописав их в группах, то XML и дампы можно был добавлять только руками. Это неудобно для автоматического наполнения контентом. Теперь для этого существуют импорт сеты. Обратите внимание, что РСС в группах и спонсорах остались только для того, что бы оттуда можно было скопировать данные.

Преимущество импорт сетов в том, что можно автоматически, через указынный промещуток времени, импортировать галеры практически из любого источника, при этом выполняя с ними любые действия как при ручном импорте, например создать кастом гали, досбавить в несколько категорий,опредлить создание дополнительных тумб и тп.

Как это работает: Rotation - Import Sets, жмем “Add New” - открывается форма Import с единственным исключением - вверху форма для ввода урла. Надо ввести URL дампа или rss, время переграба (24 = каждые 24 часа) и разделитель. Разделитель актуален для дампов, и обычно это символ “|”. Жмем Test - скрипт пытается опредлить поля в контента предлагаемом урле. Для неопределнных полей надо или Skip или самостоятельно выбрать что в этом поле. Наже выбираем параметры импорта как в привычной форме импорта. Жмем Save. Все.

Hints

  • В РСС часто тумба идет не как прямой урл до тумбы, а как таг <img src=….>. Для этого поля надо выбирать не Thumb, а Parse Thumb.
  • Delimiter - это разделение полей, в дампах это обычно | , в RSS обычно item, но бывает еще video. Разобраться с этим несложно: надо открыть урл в браузере и посомтреть в код страницы, 99% вы сразу догадаетесь что писать.

Обратите внимание, что существует 2 типа import set: add и deletion. Соответственно урлы найденные в типе add - добавляются в базу, deletion - удаляются из базы.

Большие импортсеты

Смотрю один сайт и вижу, что rot.php работает как-то дольше, чем должен. Заглядываю в лог, а там типа

  • 2011-11-28 13:19 ImportSet….: Added: , Dupes: 10000
  • 2011-11-28 13:20 ImportSet….: Added: , Dupes: 20000
  • 2011-11-28 13:21 ImportSet….: Added: , Dupes: 30000

и так далее, те в импортсетах много РСС\дампов, где выдает не последние 10-50-100 урлов, а списки с десятками тысяч урлов и все это стоит на проверку каждый час.

Думаю, что смысл ошибки понятен, она не критичная, но тк скрипту надо каждую минуту делать по 30к запросов к базе проверяя есть ли в ней урлы из этого списка, то ресурсов серваку это не прибавляет.

В апедйте 49 было добавлено ограничение на размер импортсета для защиты пользователей от самих себя :)

Import Sets Type Deletion и Hamster (как пример, но актуально и для других)

В принципе это относится не только к Хамстеру, но поскольку вопрос возник именно на его примере - описываю проблему на его примере.

Вводная: Хамстер дает ембеды, вы решили сделать на эмбедах сайт. Дабы было постоянное автоматическое пополнение сиджа настроили Import Set и добавили туда дамп Хамстера

http://partners.xhamster.com/2export.php?ch=!&cnt=4&tmb=4&tcnt=10&tl=on&ord=1&url=off&em=1&ttl=on&chs=on&sz=on&dlm=|
который выдает в формате #EMBED|#THUMB|#TITLE|#CHANNEL|#DURATION|

Как бы этого достаточно, все работает и все хорошо.

Вопрос возникнет позже - когда надо будет добавить автоматическое удаление галер удаленных на хамстере. хамстер выдает список урлов удаленных видео, но в нашем то импорт сете урла нет (#EMBED|#THUMB|#TITLE|#CHANNEL|#DURATION|) и потому Смарт не сможет на автомате удалять удаленные видео (сорри за тавтологию но смысл надеюсь ясен).

Что делать: урл дампа хамстера надо поменять так, что б там появился урл гали, примерно так

http://partners.xhamster.com/2export.php?ch=!&cnt=4&tmb=4&tcnt=10&tl=on&ord=1&url=on&em=1&ttl=on&chs=on&sz=on&dlm=|
тогда дамп будет выдавать урл гали #EMBED|#THUMB|#URL|#TITLE|#CHANNEL|#DURATION|
те добавлено #URL

Смарт будет добавлять гали в базу с пометкой source url = … и соответственно сможет автоматически удалять у себя в базе удаленные видео хамстера.

PS Это так же актуально если вы проверяете доступность галер с помощью Gallery Checker.

Будет не лишним сделать небольшое отступление: еще до импортсетов появился Tube Import, который может автоматически добавлять видео с тубов к вам. Однако тубы периодически удаляют контент и соответственно у вас на сайте оказывались ссылки на удаленое видео или , если видео было добавлено как ембед, переставало работать. Дабы избежать такой ситуации появился Gallery Checker, который по кейвордам проверяд не удалено ли видео. Если кратко, то у Gallery Checker есть список вида domain- keyword, например xhamster.com - video was deleted и чекер проходит по всем видео и проверяет, что на страницах такого слова нет и значит видео все еще работает.

Однако с ростом баз стало ясно, что если в базе 500к урлов, то появляется некоторая проблема с проверкой такого кол-ва урлов, и как раз к этому моменту у продвинутых тубов начали появляться deletion rss - те рсс со списками удаленных урлов, и соответственно можно было не проверять все урлы с помощью Gallery Checker, а сразу точечно удалять нужные урлы - для этого у импорт сета появился тип deletion.

Те и для Gallery Checker и для импорт сет deletion type - надо знать исходный урл. Если у туба\спонсора есть deletion rss - предпочтительнее юзать его. Если нет - Gallery Checker.

Import Sets - personal name

Для удобства пользования у каждого импортсета появилось опциональное имя. Можно его не вводить и список импортсетов будет выглядеть как раньше, а можно дать каждому импорсету персональное имя.

ru/import_sets.txt · Last modified: 2014/01/29 18:19 (external edit)