Текстові дані

Текстові дані (також Текстовий формат) — спосіб кодування даних в обчислювальній системі у вигляді послідовності друкованих символів. В MIME закодованим таким чином даними відповідає тип text/plain.

Часто текстові дані розуміються в більш вузькому сенсі — як текст на будь-яких мовах (формальних або природних), який може бути прочитаний та зрозумілий людиною.

Текстовому формату протиставляються «двійкові дані», інформація в яких закодована довільним чином, не розраховані на сприйняття людиною.

Для більшої частини комп'ютерного обладнання та програм неважливо, чи є дані текстовими. Однак багато мережевих протоколів розраховані на роботу лише з текстовими даними і не можуть обробляти довільну послідовність байтів. Також, деякі програми обробляють текстові та двійкові дані по-різному, а деякі призначені для обробки саме текстових даних. Програми для створення та редагування текстових даних називаються текстовими редакторами.

Структура

Текстовими даними зазвичай називаються послідовності з підмножини знаків, що включають лише друковані знаки (літери, цифри, знаки пунктуації) та деякі керуючі знаки (прогалини, табуляції, переклади рядка). Існують методи (наприклад, UUENCODE), що дозволяють закодувати в текстовому форматі довільні дані будь-якого формату.

Вимога до можливості розуміння вмісту людиною вносить додаткову надмірність в уявлення даних. Наприклад, число 123, для кодування якого достатньо одного 8-бітного байта, в текстовому вигляді кодується декількома цифровими символами — так, в десятковій системі числення для цього потрібно три знака («123»), в двійковій — сім знаків («1111011»), в шістнадцятковій — два («7B»).

Розбиття на рядки

Текстові дані можуть розділятися на рядки. На деяких платформах (переважно, в операційних системах сімейства UNIX) розбиття на рядки кодується одним керуючим знаком з кодом 10 в таблиці ASCII (найменування — Line Feed, LF), на інших (наприклад, в MS-DOS та Microsoft Windows) — парою керуючих знаків з кодами 13 та 10 (Carriage Return і Line Feed, CR/LF). В Mac OS (але не Mac OS X) розбиття кодується одним знаком з кодом 13.

Таке розбиття керуючим знаком або знаками пояснюється роботою друкарських машинок, через які здійснювалося введення в деяких перших комп'ютерах — позиція введення там вказувалася становищем валика з папером, і для повороту валика та переходу до наступного рядка вимагалося натискання однієї або двох клавіш або важелів.

Також, знаки розбивки рядків використовувалися для управління механічними принтерами (ними могли виступати ті ж друкарські машинки, використовувані і для введення) — знак LF викликав прокрутку рулону з папером, а знак CR викликав повернення друкованої каретки (там, де вони були) на початок рядка. Звідси й назва знаків — англ. Line Feed (переклад рядка) та англ. Carriage Return (повернення каретки).

На деяких платформах розбивка на рядки робилася інакше — текст представлявся у вигляді послідовності записів фіксованої довжини, для чого більш короткі рядки доповнювалися потрібною кількістю пробілів. Це відповідало поданню даних на перфокартах, які слугували засобом введення та навіть зберігання даних.

Кодування

Перед початком 1960-х, комп'ютери переважно використовувалися для подрібнення чисел, а не для тексту; пам'ять була дуже дорогою. Комп'ютери часто резервували лише 6 бітів для кожного символу, вміщаючи лише 64 символи — присвоєння кодів для A-Z, a-z, і 0-9 залишає лише 2 коди: далеко не достатньо для нормального використання. Більшість комп'ютерів вирішили не підтримувати малі літери.

Фред Брукс з IBM дуже схилявся до 8-бітних байтів, оскільки коли-небудь люди захочуть обробити текст; він мав рацію. Хоча IBM використовували EBCDIC, більшість текстів відтоді кодувалися в форматі ASCII, використовуючи значення від 0 до 31 для (недрукованих) контрольних символів та значення від 32 до 127 для графічних символів, таких як букви, цифри та розділові знаки. Більшість машин зберігаються символи в 8 бітах рідше, аніж 7, не звертаючи уваги на зайвий біт або використовуючи його як контрольний біт.

Майже повсюдне поширення ASCII дало великий плюс і пішло на користь, але все одно було не в змозі вирішити міжнародні та лінгвістичні проблеми. Знак долара («$») не був таким корисним в Англії, і акцентовані символи, використовувані в іспанських, французьких, німецьких, і багатьох інших мовах були повністю недоступні в ASCII (не кажучи вже про символи, які використовувалися в грецький, російський, і більшість східні мови). Багато людей, компаній, країн визначають зайві символи за необхідні — часто перепризначаючи керуючі символи, або використовуючи значення в діапазоні від 128 до 255. Використання значення понад 128 конфліктів за допомогою 8-го біту як суми, але використання контрольної суми поступово вимерли.

Ці додаткові символи були закодовані по-різному в різних країнах, що робить тексти неможливими для декодування без з'ясування авторських правил. Наприклад, браузер може відображати A замість `, якщо він намагався інтерпретувати один набір символів як інший. Міжнародна організація зі стандартизації (ISO) зрештою розробила декілька кодових сторінок при ISO 8859 для розміщення на різних мовах. Перший з них (ISO 8859-1) також відомий як «Latin-1», і покриває потреби більшості європейських мов (не всіх), що використовують символи на латинській основі (не було достатньо місця, щоб охопити їх усі). Згодом ISO 2022 розробив забезпечення для «перемикання» між різними наборами символів в середині файлу. Багато інших організацій розробили варіації на них, і впродовж багатьох років для Windows і Macintosh комп'ютери використовуються несумісні варіації.

Ситуація з кодуванням текстів ставала дедалі важчою, призводячи до зусиль ISO і Unicode Consortium розробити єдине уніфіковане кодування, яке б було спроможне покрити всі відомі (або, принаймні все останнім часом відомо) мови. Через якийсь час конфлікту, ці зусилля були об'єднані. Unicode останнім часом дозволяє 1,114,112 кодових значень, і привласнює коди охоплюючи майже всі сучасні системи текстописання, багато немовних символів, таких як графічні позначки принтера, математичні символів, і т. д..

Текст вважається текстовими даними незалежно від його кодування. Щоб правильно зрозуміти або обробити його, одержувач повинен знати (або бути в змозі з'ясувати,), яке кодування було використане. Користувачеві не потрібні знання про комп'ютерну архітектуру, яка була використана чи про бінарні структури, що визначаються будь-якою програмою, яка створює дані.

Текстові дані (визначення Unicode)

  • «Текстові дані являють собою основний, змінний зміст тексту.»
  • «Текстові дані становлять собою лиш символьний контент, а не його зовнішній вигляд.»
  • «Можуть бути відображені безліччю способів та вимагають процес рендеринга, щоб зробити видимим зокрема зовнішній вигляд.»
  • "Натомість, розрізнені процеси візуалізації просто потрібні, щоб зробити текст читабельним відповідно до передбаченого читання. "
  • «Цей критерій розбірливості обмежує коло можливих появ.»
  • «Відносини між зовнішністю та змістом текстових даних можна резюмувати таким чином: текстові дані повинен містити достатньо інформації, щоб дозволити тексту бути поданим розбірливо, і більше нічого»
  • «Стандарт Unicode кодує текстові дані.»
  • «Різниця між текстовими даними та іншими формами даних полягає в тому, що в тому ж потоці даних є функція вищого рівня, яка не зазначена в стандартному Unicode.».

Використання

Текстовий файл, показаний командою cat у вікні xterm

Мета використання текстових даних сьогодні, перш за все, незалежність від програм, які вимагають їх власного спеціального кодування або форматування, і від комп'ютерних проблем архітектури, таких як порядок байтів, і т. д. Файли текстових даних можна відкрити, читати та редагувати з безлічі загальних текстових редакторів та утилитів. Наприклад, Блокнот (Windows), редагування (DOS), Emacs, VI, Gedit або nano (Unix, Linux), SimpleText (Mac OS), або TextEdit (Mac OS X). Переглянути текстові файли можна також вбудованими командами (type в DOS і Windows) і утилітами (cat в Unix).

Багато інших комп'ютерних програми здатні також обробляти або створювати дані текстового типу. Наприклад, безліч команд в DOS, Windows, Mac OS і Unix і йому споріднених; а також веббраузери (численні браузери, такі як Lynx і Line Mode Browser продукують лише текстові дані для відображення).

Текстові дані майже універсальні в програмуванні; файл вихідного коду, що містить інструкції в мові програмування, переважно завжди являєю собою файл текстових даних. Текстові дані також широко використовується для конфігурації файлів, які зчитуються для збережених налаштувань при запуску програми, і для багатьох e-mail.

Текстовий формат часто використовуються для представлення даних, які самі не є чисто текстовими. У цьому разі інші формати даних «надбудовуються» над простим текстом, для чого їх керуючі конструкції виражаються за допомогою друкованих слів і розділових знаків. Це забезпечує зручність роботи з даними на двох рівнях — наприклад, дані HTML і XML можна переглядати та редагувати за показом форматування в режимі WYSIWYG, а можна їх відкрити в звичайному текстовому редакторі і мати доступ до всіх тонкощів мови розмітки. При зберіганні даних в «довічним» вигляді (як це робиться, наприклад, в Microsoft Word ранніх версій) з ними нерідко не можна працювати в інших програмах (через недоступність інформації про структуру формату) або навіть в різних версіях однієї і тієї ж програми.

У більшості мов програмування передбачається використання текстового формату для вихідного коду програм. Крім іншого, це дозволяє застосовувати до вихідних кодів різноманітні утиліти для перетворень, оформлення, пошуку, статистики, аналізу і т. д.

В файлах конфігурації багатьох програм застосовується текстовий формат, навіть якщо там представлені числа та виконавчі перемикачі (так/ні). Це дещо ускладнює програми через необхідність перетворення текстових даних у внутрішній формат і навпаки, але з'являється можливість правити конфігурацію вручну, без використання коштів налаштування самої програми.

Споріднені терміни

Термін відкритий текст (англ. plaintext; виглядає дуже схоже на термін англ. plain text, використовуваний для позначення текстових даних) широко застосовується в криптографії та означає будь-які незашифровані дані, в тому числі і не текстові. Термін «чистий текст» (англ. cleartext) також застосовується в криптографії та означає незашифровані дані, до того ж зрозумілі людині та незахищені від «підслуховування» при передачі.

Див. також

Read other articles:

Nurdles en una playa del suroeste de Francia, 2011 La contaminación por pellets de plástico es un tipo de contaminación marina causada por desechos originados a partir de las partículas que son utilizadas en la fabricación de objetos plásticos a gran escala. Estos pellets de plástico de preproducción, —comúnmente llamados nurdles—, y los objetos plásticos de uso común se elaboran mediante procesos diferentes. Los objetos plásticos se fabrican mediante un proceso de fundición ...

「宮川大輔 (サッカー選手)」とは別人です。 宮川(みやがわ) 大輔(だいすけ) 特許庁平成30年1月25日_Vol.36_2・3月号「とっきょ」(2018年)本名 宮川 大輔ニックネーム お祭り男生年月日 (1972-09-16) 1972年9月16日(51歳)出身地 日本・滋賀県大津市血液型 B型身長 172 cm言語 日本語方言 関西弁・滋賀弁・大阪弁最終学歴 京都西高等学校(現・京都外大西高等学校)出身 NSC...

Physiographical region in South Asia This article is about the physiographical region of Eurasia. For the geographical subregion of Asia, see South Asia. The subcontinent redirects here. For general usage of the term, see Continent § Subcontinents. Indian subcontinent Hindu Kush Iranian Plateau Makran Arabian Sea Karakoram Tibetan Plateau Himalaya Brahmaputra Indo-Burma      Range Bay of Bengal Topographic map of the subcontinent and surrounding regions Geo...

Dr.Tiruvengimalai Sesha Sundara RajanPortrait from the Haripura Congress Souvenir, 1938Minister of Food and Public Health (Madras Presidency, later Madras state)In office1946–1951PremierTanguturi Prakasam,O. P. Ramaswamy ReddiyarMinister of Public Health and Religious Endowments (Madras Presidency)In office14 July 1937 – 9 October 1939PremierC. RajagopalachariGovernorJohn Erskine, Lord ErskineMember of the Imperial Legislative CouncilIn office1934–1936Governor GeneralFreeman Fr...

Midnight CowboySutradara John Schlesinger Produser Jerome Hellman Ditulis olehJames Leo Herlihy (novel)Waldo Salt (skenario)PemeranJon VoightDustin HoffmanPenata musikJeffrey Comanor,Floyd HuddlestonWarren Zevon (lagu),John BarrySinematograferAdam HolenderPenyuntingHugh A. RobertsonDistributorUnited ArtistsTanggal rilis25 Mei 1969Durasi113Negara Amerika Serikat Bahasa Inggris Anggaran$3,6 jutaIMDbInformasi di IMDb Untuk novel yang menjadi dasar film ini, lihat Midnight Cowboy (novel). M...

Grab von Herbert Sandberg und Lilo Grahn auf dem Dorotheenstädtischen Friedhof in Berlin. Herbert Sandberg (* 18. April 1908 in Posen; † 18. März 1991 in Berlin) war ein deutscher Grafiker und Karikaturist. Er wurde vor allem durch Karikaturen in der von ihm geleiteten Zeitschrift Ulenspiegel, seine Brecht-Skizzen und seine Kolumne Der freche Zeichenstift in der Zeitschrift Das Magazin bekannt. Inhaltsverzeichnis 1 Leben 2 Herbert Sandberg in der Formalismusdebatte 3 Werke (Auswahl) 4 Aus...

Asesinato de Abby Choi Coordenadas 22°28′26″N 114°13′48″E / 22.474017, 114.229989Blanco(s) Abby ChoiFecha 21 de febrero de 2023Tipo de ataque AsesinatoMuertos 1Motivación Delito Pasional[editar datos en Wikidata] El asesinato de Abby Choi fue un homicidio suscitado el 21 de febrero de 2023, tres días después de que fuese reportada como desaparecida la socialite, influencer y modelo de Hong Kong de 28 años. Su cuerpo decapitado se encontró en Tai Po, un...

Women's football tournament at the 2023 Pan American Games International sporting eventFootball – Women's tournament at the 2023 Pan American GamesVenueEstadio Sausalito (Viña del Mar) Estadio Elías Figueroa Brander (Valparaíso)Dates22 October – 3 November 2023Medalists  Mexico  Chile  United States U19«2019 2027» Football at the2023 Pan American GamesTournamentmenwomenSquadsmenwomenvte The Women's football tournament at the 2023 Pan American Games was h...

American toxicologist Harold Hodge, Toxicologist Harold Carpenter Hodge (1904–1990) was a well-known toxicologist who published close to 300 papers and five books. He was the first president of the Society of Toxicology in 1960. He received a BS from Illinois Wesleyan University and a PhD in 1930 from the State University of Iowa, publishing his first paper in 1927. He received a number of honors and awards during his career.[1] In 1931 he went to the School of Medicine and Dentistr...

Part of the LGBT rights seriesLegal status ofsame-sex unions Marriage Andorra Argentina Australia Austria Belgium Brazil Canada Chile Colombia Costa Rica Cuba Denmark Ecuador Estonia* Finland France Germany Iceland Ireland Luxembourg Malta Mexico Nepal Netherlands1 New Zealand2 Norway Portugal Slovenia South Africa Spain Sweden Switzerland Taiwan United Kingdom3 United States4 Uruguay Civil unions andregistered partnerships Bolivia Croatia Cyprus Czech Republic Greece Hungary Italy Latvia Lie...

Australian rules footballer, coach and media personality Australian rules footballer Danny Frawley Frawley during a pre-season match in 2017Personal informationFull name Daniel Patrick FrawleyNickname(s) SpudDate of birth (1963-09-08)8 September 1963Place of birth Ballarat, VictoriaDate of death 9 September 2019(2019-09-09) (aged 56)Place of death Millbrook, VictoriaOriginal team(s) Bungaree (CHFL)Debut Round 4, 1984, St Kilda vs. Hawthorn, at Princes ParkHeight 191 cm (6&...

The Navhind Times27 March 2018 front page of The Navhind TimesTypeDaily newspaperFormatBroadsheetOwner(s)DempoPublisherDempoFounded18 February 1963; 60 years ago (1963-02-18)Political alignmentCenter-leftLanguageEnglishHeadquartersPanaji, GoaCirculation56,000[1] (as of 2011)Websitewww.navhindtimes.in The Navhind Times is an English language newspaper in Goa.[2] Founded in 1963 and based in Panaji, the capital of Goa,[3] it is the largest selling n...

Subway station in Philadelphia, Pennsylvania This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: 19th Street station SEPTA – news · newspapers · books · scholar · JSTOR (May 2020) (Learn how and when to remove this template message) 19th StreetA Route 11 trolley arrives at 19th Street station in December...

Pour les articles homonymes, voir Guibert. Jacques Antoine Hippolyte (ou François-Apolline) de GuibertPortrait gravé par G. EngelmannFonctionFauteuil 30 de l'Académie française1785-1790Antoine Léonard ThomasJean-Jacques-Régis de CambacérèsBiographieNaissance 12 novembre 1743MontaubanDécès 5 mai 1790 (à 46 ans)ParisNom de naissance Jacques-Antoine-Hippolyte de GuibertPseudonyme L' Auteur de l'Essai général de tactiqueNationalité françaiseActivité officier général, essayi...

Fictional teleportation device This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) The topic of this article may not meet Wikipedia's general notability guideline. Please help to demonstrate the notability of the topic by citing reliable secondary sources that are independent of the topic and provide significant coverage of it beyond a mere trivial mention. If notability cannot be shown, the ...

Durga PujaNama resmidurg pujaNama lainAkalbodhan, Vijaya Dashami, Dashain, and DussehraDirayakan olehOrang HinduJenisHinduMulainavratriTanggalScript error: The function "getRawValue" does not exist.Tahun 2023date missing (please add)Terkait denganDussehra Durgapuja - The Festival of Bengalies Durga Puja (diucapkan [ˈd̪ʊɾga 'puja], bahasa Bengali: দুর্গাপূজা, bahasa Assam: দুৰ্গা পূজা, bahasa Oriya: ଦୁର୍ଗା ପ...

A major contributor to this article appears to have a close connection with its subject. It may require cleanup to comply with Wikipedia's content policies, particularly neutral point of view. Please discuss further on the talk page. (September 2015) (Learn how and when to remove this template message) Stelarc and Ploeger (right) in 2011 Dr Daniël Dani Ploeger is a new media and performance artist. Life Ploeger was born in the Netherlands and is currently living and working in the United Kin...

Turkish footballer Deniz Personal informationFull name Deniz AslanDate of birth (1989-02-09) 9 February 1989 (age 34)Place of birth ZaandamPosition(s) DefenderSenior career*Years Team Apps (Gls)2010–2011 Helmond Sport 9 (1)2011–2012 Bursaspor 0 (0)2012–2013 Antalyaspor 0 (0)2013 → Tavşanlı Linyitspor (loan) 12 (1)2013–2014 Elazığspor 16 (0)2014–2015 Boluspor 29 (0)2015–2016 Karşıyaka 2 (0)2016 Kartalspor 12 (1)2016–2017 FC Emmen 18 (0) *Club domestic league appearan...

Japanese actress and gravure idol This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Manami Hashimoto – news · newspapers · books · scholar · JSTOR (September 2018) (Learn how and when to remove th...

Motions induced on bodies within a fluid flow due to vortices in the fluid Numerical simulation of vortex-induced vibrations due to the flow around a circular cylinder.[1] In fluid dynamics, vortex-induced vibrations (VIV) are motions induced on bodies interacting with an external fluid flow, produced by, or the motion producing, periodic irregularities on this flow. A classic example is the VIV of an underwater cylinder. How this happens can be seen by putting a cylinder into the wat...