Något om WWW och HTML
Denna sida sammanfattar och kompletterar det som sades om WWW och HTML på
föreläsningen 991129.
WWW = HTML + URL
Ursprunget till WWW (World Wide Web) kan sägas vara kombinationen av
två uppfinningar:
  - HTML, HyperText Markup Language
  
- Ett enkelt sätt att tillverka hypertextdokument.
  
- URL, Universal Resource Locator
  
- Ett enhetligt sätt att ge adresser till dokument på en
      godtycklig dator i världen.
Vad är HTML
HTML står alltså för HyperText Markup Language, vilket på svenska blir
ungefär beskrivningsspråk för hypertext.
Vad är hypertext?
Alla vet väl vad vanlig text är. Hypertext är vanlig text plus
möjligheten att enkelt följa hänvisningar (korsreferenser), dvs
länkar.
Idén om hypertext som sådan är ganska gammal. Den uppfanns av en
amerikansk regeringstjänsteman någon gång på 60-talet (om jag inte
minns fel). Programmet HyperCard på Macintosh anväde sig av
hypertextidén långt innan WWW fanns.
HTML utformades på CERN i början av 90-talet och det var då hypertext
kombinerades med idén om URL:er. Detta blev början till WWW.
Vad är en URL
Adresser till webbsidor anges med URLer. En typisk URL kan se ut så här:
http://www.etek.chalmers.se/~hallgren/Eda/
En URL har följande uppbyggnad:
  - Protokol (httpi exemplet)
- Detta anger vilket kommunikationprotokol som ska användas för
      att hämta dokumentet. Andra tillåtna protokol är:
      
	- ftp
	
- gopher
	
- news
	
- file
	
- telnet
	
- mailto
      
 
- Datornamn (www.etek.chalmers.sei exemplet)
- Detta anger vilken dator dokumentet ska hämtas från. Det föregås
      av //. Ibland utelämnas datornamnet, t ex då
      man refererar till ett nyhetsmeddelande eller en nyhetsgrupp,
      eftersom dessa normalt hämtas från den lokala nyhets-servern.
- Portnummer (syns inte i exemplet)
  
- Efter datornamnet kan man ange ett portnummer. De olika
      protokolen är kopplade till en standardport, men om man av någon
      anledning vill använda en annan port kan man ange denna. Det
      normala portnumret för httpär 80, men i UNIX får
      vanliga användare inte använda portnummer under 1024, så om en
      vanlig användare vill starta en egen webbserver kan han
      t ex ta 8888. Adressen skulle kunna blihttp://dogbert.cs.chalmers.se:8888.
- Filnamn (/~hallgren/Eda/i exemplet)
- Detta anger vilket dokument på datorn som ska hämtas. Detta
      skickas till webbservern som det är och det vanliga är att
      webbservern tolkar det som ett filnamn, och skickar tillbaka
      innehållet i filen, men det kan betyda något annat.
      
      Andra saker som kan förekomma i filnamnsdelen är
       
	- ?något
- Detta skickas när man fyllt i en textruta, t ex för
	    ange vad man vill söka efter i en söktjänst
	
- #något
- Detta anger en plats inuti ett HTML-dokument. Delen efter
	    #skickas inte till webbservern, utan
	    webbläsaren hämtar hela dokumentet och hoppar sedan
	    automatiskt fram till den angivna delen.
 
HTML-dokuments uppbyggnad
Se även
HTML 3.2 Rerefence eller
HTML 4.0 Reference
för en mer komplett beskrivning.
Ett HTML-dokument har följande uppbyggnad:
<HTML>
  <HEAD>
    <TITLE>dokumentets titel</TITLE>
    ...
  </HEAD>
  <BODY>
    <H1>första rubriken</H1>
    ...
  </BODY>
</HTML>
I HEAD-delen ges viss information om dokumentet, bland annat
dokumentets titel (som brukar visas som fönstertitel i webbläsarna)
Element
Ett dokument byggs upp av element. Element har
  - En startmarkering, t ex <HTML>
- Ett innehåll, som består av text och även kan innehålla element
  
- En slutmarkering, t ex </HTML>
När det gäller vissa element kan startmarkeringen och/eller
slutmarkeringen utelämnas. T ex kan HTML-elementets start- och
slutmarkerring alltid utelämnas, eftersom ett HTML-dokument alltid
består av ett enda HTML-element. Även HEAD- och BODY-elementens start-
och slutmarkeringar kan utelämnas. Ovanstående dokumentskelett kan
alltså förkortas till
    <TITLE>dokumentets titel</TITLE>
    ...
    <H1>första rubriken</H1>
    ...
Det är ändå underförstått att det finns en HEAD-del och en BODY-del.
Vissa element har inget innehåll. Då är startmarkeringen obligatorisk,
och slutmarkeringen måste utelämnas. Exempel på sådana element är HR,
BR och IMG (se nedan).
Elementens namn kan skrivas med stora eller små bokstäver.
Element för "styckeutformningar"
Radbrytningar i HTML-filen har ingen betydelse för hur HTML-dokumentet
ser ut. Om man har ett eller flera mellanslag mellan orden spelar
heller ingen roll. För att börja på nytt stycke använder man
P-elementet eller något av de andra i listan nedan.
  - Rubriker: H1 H2 H3 H4 H5 H6. Både Start och slutmarkering måste
      vara med.
  
- Listor: UL (ordered list, numrerad lista), OL (unordererd list,
      punktlista). Dessa ska enbart innehålla LI-element (list item):
      
      
      <UL>
        <LI>...
        <LI>...
        ...
      </UL>
      
 LI-elementets slutmarkering kan utelämnas (eftersom det måste
      sluta alldeles innan nästa börjar, eller listan är slut).
- Listor: DL (description list), för ordlistor av olika slag. Kan
      innehålla DT-element (description term) och DD-element
      (description definition).
      
      
      <DL>
        <DT>ord1
        <DD>förklaring1
        <DT>ord2
        <DD>förklaring2
        ...
      </DL>
      
 
- Vanliga text: P. Slutmarkeringen kan utelämnas. Startmarkeringen
      kan utelämnas ibland, t ex för ett texttycke som börjar
      direkt efter en rubrik, men inte för ett textstycke som kommer
      direkt efter ett annat vanligt textstycke.
  
- BLOCKQUOTE: för längre citat. Ger indragen text.
  
- HR: ger ett horisontellt skiljestreck
  
- ADDRESS: markerar att stycket är en adress
Element för "teckenutformningar"
Logiska markeringar (beskriver betydelse):
  - EM: emphasis, betonat ord (visas vanligen kursivt)
  
- STRONG: strong emphasis, starkt betonat ord (visas vanligen i
      fetstil)
  
- DFN (definition), CODE (programkod eller liknande), KBD (tangent
      på tangentbordet), VAR (variabel), CITE (titel på citerat verk)
Fysiska markeringar (ger ett bestämt utseende) (rekommenderas inte):
  - TT (teletype), I (italic), B (bold), U (underline), BIG (större),
      SMALL (mindre), SUB (nedsänkt), SUP (upphöjt), FONT (byt
      färg/typsnitt)
Speciella element
  - A: skapar länkar.
      
      <A HREF="url">länktext</A>
 
- IMG: skapar bilder. IMG-element har inget innehåll och ingen
      slutmarkering.
      
      <IMG SRC="url" ALT="ersättningstext">
 Ersättningstexten används av webbläsare som inte visar bilder.
- APPLET: skapar appletter...
  
- BR: manuell radbrytning.
      
      på en rad<BR>på nästa rad
 
Att tänka på när man gör webbsidor
En viktig sak att tänka på när man skriver något är: vem ska läsa det?
När det gäller webbsidor kan man fråga sig följande om läsarna:
  - Vilka presentationsformer vill de ha?
  
- 
      
	- Det man får i en typisk webbläsare, med bilder och allt?
	
- Enbart text (på en textterminal, med programmet lynx)?
	
- Bildskrift eller talsyntes?
	
- Utskrift på papper?
      
 
- Hur modern webbläsare använder de? Vilka finesser kan man
      använda?
      
	- Vilka bildformat? GIF? JPEG? PNG?
	
- Kan man använda tabeller?
	
- Kan man använda frames?
	
- Kan man använda applets?
	
- Kan man använda style sheets?
      
 
- Hur stor bildskärm har användaren? Hur många färger har de?
  
- Utforma dokumentet så att användaren själv kan välja hur stort
      fönster han vill ha. Ändra inte typsnitt/textstorlek för normal
      text. Undvik överambitiös design.
  
- Hur snabb internetanslutning har de?
  
- 
      
	- Hur lång tid får det ta att hämta en sida?
	
- Hur stora bilder/applets kan man ha?
      
 
Datoranvädning E1
Thomas Hallgren,
hallgren@etek.chalmers.se
Links
Last modified: Sun Dec  5 19:34:15 CET 1999