URL адрес

От Уикипедия, свободната енциклопедия
Отидете на навигация Отидете на търсене

Uniform Resource Locator (от англ. Uniform the Resource Locator, съкратете URL адреса [. ˌ j u ː ɑ ː r an e l ]) - система от унифицирани електронни ресурси или единен определящ местоположение на ресурс ( файл ) [1] .

Използва се като стандарт за запис на връзки към обекти в Интернет ( хипертекстови връзки в "World Wide Web" www ).

Съкращението "URL" се използва за обозначаване на имейл адреса в съответствие с GOST R 7.0.5-2008.

История

URL е изобретен от Тим ​​Бернерс-Лий през 1990 г. в стените на Европейския съвет за ядрени изследвания ( фр. Conseil Européen pour la Recherche Nucléaire, ЦЕРН ) в Женева , Швейцария . URL адресът се превърна в основна иновация в Интернет. Първоначално URL адресът е имал за цел да посочи местоположението на ресурсите (най -често файловете) в световната мрежа . В наши дни URL адресите се използват за препращане към адресите на почти всички ресурси в Интернет. Стандартът за URL е заложен в RFC 3986 . В днешно време URL адресите се продават като част от по -обща система за идентификация на URI ресурси, като самият термин URL постепенно отстъпва на по -широкия термин URI . Стандартът за URL адреси се управлява от IETF и неговите филиали.

През 2009 г. Тим Бернерс-Ли предположи, че двойната наклонена черта // в началото на URL адрес е излишна след уточняване на мрежов протокол [2] [3] .

URL структура

URL адресът е проектиран като система за посочване на местоположението на ресурсите в мрежата възможно най -естествено. Локаторът трябва да бъде лесно разширяем и да използва само ограничен набор от ASCII знаци (например URL никога не използва интервал ). В тази връзка възникна следната традиционна форма на URL нотация:

<схема>:[//[<логин>[:<пароль>]@]<хост>[:<порт>]][/<URL‐путь>][?<параметры>][#<якорь>]

В този запис:

схема
схема за достъп до ресурса; в повечето случаи имаме предвид мрежовия протокол
Влизам
потребителското име, използвано за достъп до ресурса
парола
парола на посочения потребител
домакин
напълно квалифицирано име на домейн на хоста в DNS системата или IP адрес на хоста под формата на четири групи десетични числа, разделени с точки; числата са цели числа в диапазона от 0 до 255.
пристанище
хостпорт за връзка
URL адрес
изясняване на информацията за местоположението на ресурса; зависи от протокола.
настроики
низ за заявка с параметри, предадени на сървъра ( използвайки метода GET ). Започва с герой ? , разделител на параметри - знак & . Пример ?параметр_1=значение_1&параметр_2=значение_2&параметр3=значение_3
котва
идентификатор на котва (английски) предшестван от # . Котвата може да бъде заглавието в документа или атрибута id (английски) на елемент. Използвайки такава връзка, браузърът ще отвори страницата и ще премести прозореца към посочения елемент. Например връзка към този раздел на статията: https://ru.wikipedia.org/wiki/URL#Структура_URL .

URL схеми (протоколи)

Общоприетите URL схеми (протоколи) включват:

  • ftp - FTP протокол за прехвърляне на файлове
  • http - HTTP протокол за прехвърляне на хипертекст
  • rtmp е патентован протокол за съобщения в реално време, използван главно за стрийминг на видео и аудио от уеб камери през интернет.
  • rtsp е протокол за стрийминг в реално време.
  • https е специална реализация на HTTP протокола, който използва криптиране (обикновено SSL или TLS )
  • gopher - Gopher протокол
  • mailto - имейл адрес
  • новини - Usenet новини
  • nntp - Usenet новини през NNTP
  • irc - IRC протокол
  • smb - SMB / CIFS протокол
  • prospero - Услуга за справочници на Prospero
  • telnet - връзка към интерактивна Telnet сесия
  • wais - системна база данни WAIS
  • xmpp - XMPP протокол (част от Jabber )
  • файл - името на локалния файл
  • данни - директни данни ( Данни: URL )
  • тел - обаждане до посочения телефонен номер

Екзотични схеми на URL адреси:

URL схеми в браузъри:

URL кодиране

Стандартът URL използва US- ASCII набор от символи . Това има сериозен недостатък, тъй като са разрешени само латински букви, цифри и няколко препинателни знака. Всички други знаци трябва да бъдат прекодирани. Така например, на кирилица букви, букви с диакритични знаци , лигатури , йероглифи трябва да се рекодират. Кодирането за транскодиране е описано в RFC 3986 и се нарича URL-кодиране, кодиране с URL адрес или процентно кодиране .

Пример за кодиране може да се види в рускоезичната Уикипедия , която използва руския език в URL адреса. Например ред като:

 https://ru.wikipedia.org/wiki/Wikipedia

кодиран като:

 https://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F

Изпълнение

Преобразуването се осъществява на два етапа: първо, всеки кириличен знак се кодира в UTF-8 в последователност от два байта, а след това всеки байт от тази последователност се записва в шестнадесетична нотация , предшествана от знак за процент (%):

 B → D0 и 92 →% D0% 92
и → D0 и B8 →% D0% B8
k → D0 и BA →% D0% BA
и → D0 и B8 →% D0% B8 и т.н.
Запазени знаци [5]
! * ' ( ) ; : @ & = + $ , / ? # [ ]
Нерезервни знаци [5]
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
a b c d e f g h i j k l m n o p q r s t u v w x y z
0 1 2 3 4 5 6 7 8 9 - _ . ~

Всички други знаци в URI са кодирани.

Запазените знаци се кодират, както следва:

! " # [6] $ % & [6] ' * + , [6] : [6] ; [6] < = [6] > ? [6] [ ] ^ ` { | } <пространство>
% 21 % 22 % 23 % 24 % 25 % 26 % 27 % 2А % 2В % 2C % 3А % 3В % 3C % 3D % 3E % 3F % 5В % 5 Д % 5Е % 60 % 7В % 7C % 7D % 20 [7]

Кодирането на параметри в Internet Explorer и стария Firefox е малко по -различно [8] .

В някои случаи URL адресът се формира с помощта на кодиране Base58 [9] .

IRI стандарт

Тъй като буквите на всички азбуки, с изключение на основната латинска азбука , претърпяват такава трансформация, URL адресът с думите на по -голямата част от езиците може да стане нечетлив за човек.

Всичко това е в противоречие с принципа на интернационализма , провъзгласен от всички водещи организации в Интернет , включително W3C и ISOC . Този проблем е призован да реши стандарт IRI ( англ. Internacionalized the Resource the Identifier) - международни идентификатори на ресурси, които не биха представлявали проблем да се използват символи на Unicode и които следователно не нарушават правата на други езици . Трудно е да се каже предварително дали IRIs някога ще заменят толкова широко използвани URL адреси (и URI като цяло).

Ограничение на дължината

Формално дължината на URL адреса не е ограничена, но браузърите имат ограничения за дължината на URL адреса. Не се препоръчва използването на URL адреси, по -дълги от 2048 знака, тъй като Microsoft Internet Explorer има това ограничение [10] .

Инициатива PURL

Друг основен недостатък на URL адресите е липсата на гъвкавост. Ресурсите в световната мрежа и интернет се движат, но URL връзките остават, сочещи към липсващи ресурси. Това е особено болезнено за цифровите библиотеки, каталози и енциклопедии. За решаване на този проблем са предложени постоянни локатори PURL ( англ. Persistent Uniform the Resource Locator). По същество това са едни и същи URL адреси, но те не сочат към конкретно местоположение на ресурса, а към запис в базата данни PURL, където от своя страна конкретният URL адрес на ресурса вече е записан. При достъп до PURL сървърът намира необходимия запис в тази база данни и пренасочва заявката към определено местоположение на ресурс. Ако адресът на ресурса се промени, няма нужда да коригирате всички безброй връзки към него - просто трябва да промените записа в базата данни. В момента тази идея не е стандартизирана и не е широко приета.

Вижте също

Бележки (редактиране)

  1. URL (Uniform Resource Locator) - Унифициран локатор на ресурси. Адресът на информационния ресурс (файл) в Интернет - Събиране на съкращения от областта на компютърните технологии и програмиране . 2006 г.
  2. Двойната наклонена черта в интернет адресите се появи поради бързането на създателя й . РИА Новости (2009-10-14 19:05). Посетен на 11 юли 2010 г. Архивиран на 25 август 2011 г.
  3. Създателят на Интернет съжалява за двойната черта 3DNews Daily Digital Digest.14 октомври 2009 г.
  4. URL адресът на Chrome . Дата на лечение: 9 декември 2014 г.
  5. 1 2 RFC 3986 Раздел 2.2
  6. 1 2 3 4 5 6 7 Символът е разрешен, но когато е посочен в обикновен текст, има специално синтаксично значение
  7. MediaWiki избягва кодирането на интервали като% 20, вместо това се заменя с подчертаване „_“. Много търсачки заменят интервала със символа "+".
  8. HTTP, RFC 3986 и браузъри
  9. Услуги на Flickr
  10. Максималната дължина на URL адреса в Internet Explorer е 2083 знака . microsoft.com.

Връзки