Hallo

Welkom, Gast. Alsjeblieft inloggen of registreren.

Recent

22 gasten, 0 leden

Welkom, Gast. Alsjeblieft inloggen of registreren.

2 juni 2024, 09:24:31

Login met gebruikersnaam, wachtwoord en sessielengte

Nieuws

Welkom op het vernieuwde NL Computer Forum!

Auteur Topic: NOINDEX  (gelezen 7589 keer)

0 leden en 1 gast bekijken dit topic.

Offline NLCOMP

  • Forumheld
  • *****
  • Berichten: 14.666
    • NL Computer Forum
NOINDEX
« Gepost op: 9 november 2009, 22:31:56 »
Bericht 1 van 6

NL Computer Forum ~ Homepages & Web
 Van:Don Esteban (NLHelp)Datum:08-03-2005
 Aan:AllenMsgID:2097.1
 Onderwerp:NOINDEXForum:ws-nlcomputer
Hoi sysops,
In de eeuwige strijd om de gunst van de zoekmachinerobot af te dwingen heeft iets me weer aan het twijfelen gebracht:

3de week februari werden al mijn webpaginas uit Google gemikt behalve de index-voordeur en de index-zijdeur. Ik heb getracht de zaak links en rechts wat robotvriendelijker te maken maar de metatags zijn allemaal blijven staan. Die werden vroeger als goed bevonden dus waarom nu niet, denken we dan.
De voordeur is een index.htm met metatags, beschrijving, keywords en een frameset om de 3 framepaginas bij elkaar te houden. Als de spider verder gaat treft hij dus in het begin 3 framepaginas aan met nogmaals de metatags, beschrijving en keywords maar aan de metatags is toegevoegd:
<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="FOLLOW">

NOINDEX werd destijds door iemand van jullie aangeraden, mede omdat via de frameset in index.htm al verwezen wordt naar de 3 framepaginas. Voor de rest heeft iedere verdere pagina ook een indexpagina die de 2 navigatiepaginas met de desbetreffende pagina samenvoegt.

FOLLOW verzoekt de spider om verder te gaan zoeken en ik ben bang dat HIER NU IETS MISGAAT:
De Googlebot is 5 maart j.l. namelijk weer langs geweest en heeft alleen de startpagina geindexeerd. Ik zie ook aan de beschrijving dat de robot is geweest want die beschrijving staat er pas vanaf 3 a 4 maart.

Don Esteban Homepage. In Dutch, English and Spanish. Roadrunning ...
[size=-1]Website in 3 languages, roadrunning as lifestyle, Ampuriabrava Spain, Mexico,
streaming audio and video, bowlingweatherforcast, beautiful photos and many ...
donesteban.net/hpde/ - 3k - In cache - Gelijkwaardige pagina's[/size]

Kijk in de cache en zie dat ie leeg is.

Je kan ook via een zijdeur binnen:

Don Esteban Homepage. In Dutch, English and Spanish.
[size=-1]Website in 3 languages, roadrunning as lifestyle, Avon Sport Overdag, Spaans
leren, Ampuriabrava, Audio music, weatherforcast and many more items!
donesteban.net/ - 3k - In cache - Gelijkwaardige pagina's[/size]

Deze verwijst dus naar de root van de websitespace. Hier staat een doorluspagina die wél in de cache staat maar net zoals de description dateert van 12 januari.

Ik vermoed dus dat de spider na de indexpagina ergens tegenaan loopt waardoor hij niet meer verder kan (of wilt) en waardoor de rest van de paginas niet meer geindexeerd worden.
Kijk ik bij Alta Vista, Lycos of Yahoo werkt alles nog perfect. Echter daar is de spider al een poos niet meer geweest want daar staan de oude descriptions nog. Mogelijk dat als daar de robot is geweest ook alles eruit gemikt wordt??

<zucht>Iemand nog eens zin om zich er in te verdiepen? Ik word er een beetje moedeloos van. </zucht>
Don Esteban (Sysop NL Help)
Don Esteban Homepage



[/size][/color]


Bericht 2 van 6

NL Computer Forum ~ Homepages & Web
 Van:Michel Uphoff (Sysop)Datum:08-03-2005
 Aan:Don Esteban (NLHelp)MsgID:2097.2
 Onderwerp:NOINDEXForum:ws-nlcomputer
Hoi Don,
>> <META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="FOLLOW"> <<

Ik zou bij gebruik daarvan allereerst maken:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
De robots krijgen hiermee opdracht de pagina NIET te indexeren en WEL de links op de pagina te analyseren. Lees eens door op: http://www.google.com/remove.html en op http://www.robotstxt.org/wc/exclusion.html#meta
Ik neem aan, dat er pagina's zijn, die je per sé niet geïndexeerd wilt hebben. Dan zet je de noindex tag alleen op die pagina.

Michel Uphoff (Sysop)
Homepagina


Bericht 3 van 6

NL Computer Forum ~ Homepages & Web
 Van:Stefan de Best (Sysop)Datum:08-03-2005
 Aan:Don Esteban (NLHelp)MsgID:2097.3
 Onderwerp:NOINDEXForum:ws-nlcomputer
Hoi Don,
Ik vind het moeilijk te zeggen waar het precies aan ligt want zo op het eerste gezicht zou je zeggen dat er niets mis is met de code (en ik denk ook dat er niets met de code aan de hand is).
Misschien hebben ze toch hun beleid (lees: spider) wat bijgesteld waardoor paginas waarin frames worden gedeclareerd niet meer worden gecached (http://donesteban.net/hpde) terwijl de doorluspagina op http://donesteban.net/ (zonder framedeclaraties) wél wordt gecached.
Dat zou kunnen verklaren waarom mijn Smileys op http://home.quicknet.nl/qn/prive/sdebest wél wordt gecached (de startpagina heeft geen framedeclaraties), terwijl mijn zwemsite op http://home.quicknet.nl/qn/prive/sdebest/nostalgicswimming/Index.html niet is gecached! De startpagina van deze zwemsite bevat wél weer framedeclaraties...

Stefan

    Overzicht van 150 oude en minder bekende zwemslagen
    http://tinyurl.com/yuojv[/]


Gewijzigd 8/03/2005 15:19 ET CET door Stefan de Best (Sysop)


Bericht 4 van 6

NL Computer Forum ~ Homepages & Web
 Van:Don Esteban (NLHelp)Datum:09-03-2005
 Aan:Stefan de Best (Sysop)MsgID:2097.4
 Onderwerp:NOINDEXForum:ws-nlcomputer
Hoi Stefan,

Ik heb je inmiddels al vannales geschreven en weer gedeleted;-) want in het gevecht met spiders, crawlers enz. doet zich ieder half uur sleutelende wel weer iets nieuws voor. Mijn laatste ontdekking was de volgende:
Ik heb de hoofd-index.htm eens laten controleren door een spidersimulator. Te weten:
http://www.searchengineworld.com/cgi-bin/sim_spider.cgi

Ik ontdekte daar het volgende:

Link
spider this link keyword analyze this link   http://donesteban.net/homepage.htm
 Dit klopt niet want daar ontbreekt de submap /hpde/ aan. Na controle zag ik in de index.htm staan:

<noframes>
  <body>
<p>Don Esteban Homepage. In 3 talen - in 3 languages - en 3 idiomas. Spain, Ampuriabrava, roadrunning, Spaans leren, weather, fun and many more items.</p>
<p><a href="homepage.htm">Contents</a>
</p>
</body>
  </noframes>

Dat staat dus in de index die staat in de submap  http://donesteban.net/hpde
Ik heb <a href="homepage.htm">Contents[/url] nu veranderd in Contents en als ik nu de spider op bezoek laat komen staat er:


Link
spider this link keyword analyze this link   http://donesteban.net/hpde/homepage.htm[/]
[][/]
[][/][][/]
Kortom, ZO behoort het te zijn.
Als ik nu verder denk, lijkt me het zeer waarschijnlijk dat de spider (Google noemt het crawler, las ik) bij de Link de weg kwijt raakt.  Hij gaat tenslotte pagina 'homepage.htm' in de root van http://donesteban.net zoeken en daar staat hij helemaal niet.

Hoe deze fout tot stand kwam is me een raadsel maar met veel editeren en uploaden ligt een fout in een klein hoekje.

Draai eventueel jouw framesite ook eens door bovengenoemde spider en kijk of bij Link de juiste URL staat.



Gewijzigd 9/03/2005 9:46 ET CET door Don Esteban (sysop NLHelp)


Bericht 5 van 6

NL Computer Forum ~ Homepages & Web
 Van:Stefan de Best (Sysop)Datum:09-03-2005
 Aan:Don Esteban (NLHelp)MsgID:2097.5
 Onderwerp:NOINDEXForum:ws-nlcomputer
Hoi Don,
Kun je nu al zien of je pagina nu wél gecached is?
Spider Simulator:
Bedankt voor de tip. Ik heb mijn zwemsite laten spideren met als resultaat:
Link
spider this linkkeyword analyze this link   http://www.netscape.com/
spider this linkkeyword analyze this link   http://www.microsoft.com/
spider this linkkeyword analyze this link   http://www.netscape.com/
spider this linkkeyword analyze this link   http://www.microsoft.com/
Deze links staan in de <NOFRAMES>-sectie van Index.html.
Nu even mijn Smileys website die dus wél gecached is...
ziet er beter uit:
Link
spider this linkkeyword analyze this link   http://www.digits.com/
spider this linkkeyword analyze this link   http://checkstat.nl/cgi-bin/show.cgi?smileycount
spider this linkkeyword analyze this link   http://home.quicknet.nl/qn/prive/sdebest/NoFrames/StartNoFr
ame.html
spider this linkkeyword analyze this link   http://home.quicknet.nl/qn/prive/sdebest/Nieuwe.html
spider this linkkeyword analyze this link   http://home.quicknet.nl/qn/prive/sdebest/Index1.html
spider this linkkeyword analyze this link   http://home.quicknet.nl/qn/prive/sdebest/Index1.html
spider this linkkeyword analyze this link   http://GuestWorld.Tripod.Lycos.com/
spider this linkkeyword analyze this link   http://www.digits.com/
spider this linkkeyword analyze this link   http://home.quicknet.nl/qn/prive/sdebest/NC4/Copyright.html
Deze website heeft ook nog een ROBOTS.TXT-bestandje met als inhoud:
#
# /ROBOTS.txt for http://ourworld.compuserve.com/homepages/sdebest
# Thursday 30th January 2003  What a Robot may and may not.
#
User-agent: *
Disallow: /IE4
Disallow: /NC4
Disallow: /NoFrames
Disallow: /Shared
Disallow: /Testmap
Disallow: /nostalgicswimming
Disallow: /ZoekSmileys


Stefan

    Overzicht van 150 oude en minder bekende zwemslagen
    http://tinyurl.com/yuojv[/]



Bericht 6 van 6

NL Computer Forum ~ Homepages & Web
 Van:Don Esteban (NLHelp)Datum:09-03-2005
 Aan:Stefan de Best (Sysop)MsgID:2097.6
 Onderwerp:NOINDEXForum:ws-nlcomputer
Hoi Stefan,
Fijn als je even bij me aan de lijn wilt blijven want ondanks dat ik door de bomen een heeel klein beetje het bos begin te zien ontdek ik dat dat bos enorm groot is;-)

Ik verduidelijk even een paar dingen:
1. Ik had dus altijd een URL http://donesteban.net die je naar een doorluspagina genaamd index.htm leidde. Zeg maar de deurmat die de bezoeker na 5 seconden verderleidt naar de index.htm die in http://donesteban.net/hpde staat en waar de frameset in staat.
2. Beide URL's zijn bij de diverse zoekmachines jaren geleden aangemeld en ook als zodanig geaccepteerd. Die 'deurmat' was mede om meer vermeldingen in de zoekmachines te krijgen maar ik lees dat ze daar niet meer zo van gediend zijn.
3. Als je naar de Google cache van http://donesteban.net kijkt, zie je dat het laatste bezoek op 12 januari was en dat die doorluspagina als voorbeeld in de cache staat. Hier is v.a. 12 jan. bij Google niets meer veranderd. (bij mij sinds vandaag wel waarover dadelijk meer)
4. De cache onder http://donesteban.net/hpde heeft bij Google altijd met afbeelding van de startpagina gestaan maar sinds een poos dus niet meer. Ook niet nadat de Googlebot nog is komen indexeren op 24 febr. en 5 maart.
5. De spider simulator ontdekte dus een verkeerd URL tussen <noframes> en </noframes> wat ik inmiddels verbeterd heb. Ik vraag me dan af waarom het vroeger wel goed ging want via een oude backup weet ik inmiddels dat het altijd 'fout' heeft gestaan.
6. Ik heb vandaag de doorlus-htm eruit gemikt en in de root van http://donesteban.net staat nu ook de index.htm met de frameset. Dus klikken op http://donesteban.net en je bent binnen. Tevens heb ik voor alle zekerheid de 3 paginas waaruit de frameset bestaat allemaal vermeld in volledig URL incl. http:// enz.

Nu even jouw antwoord en wat je liet zien:
>>Kun je nu al zien of je pagina nu wél gecached is? <<
Hoebedoelu? Google loopt de deur plat maar cachet niks. Supervreemd maar op tijd van twee dagen is de beschrijving bij de vermelding http://donesteban.net/hpde al 2 keer veranderd. Eerst de door mij vernieuwde tekst. Vanmorgen stond er een oude tekst die men uit een van de vele indexframepaginas had gehaald en nu staat die vernieuwde tekst er weer.  Maar verder kijken dan de index.. homaar.

Als ik de spider simulator loslaat op http://donesteban.net  toont men de link:
http://donesteban.net/hpde/homepage.htm

Doe ik dit met de drie afzonderlijke paginas die getoond worden door de frameset, krijg ik alle paginas van de hele website te zien. Een lange lijst dus die ik nu maar niet toon;-).

MAAR NU MIJN VRAAG: die spider wandelt door de index.htm en ziet de frameset met de 3 pagina's (nu met volledige URL-vermelding) die het totaal vormen en waar alle links onder zitten. Echter de spider simulator vertelt dat de spider alleen heeft gezien: http://donesteban.net/hpde/homepage.htm  En dat leest hij in:
<a href="http://donesteban.net/hpde/homepage.htm>Contents</a' target=_blank]http://donesteban.net/hpde/homepage.htm">Contents</a[/url]>
Dus de lijn die vlak boven </noframes> staat. Is de rest wel zichtbaar voor hem en zo ja door welk gat kruipt hij dan om verder te zoeken???

Don Esteban (Sysop NL Help)
[/color]
[/font]Don Esteban Homepage



[/size][/color]