Semalt: Журналисттер үчүн текстти скраптоо боюнча беш арыз

Журналист байма-бай маалыматтарды чогултат, жазат жана жайылтат. Ал негизинен жалпы маселелерге, саясий маселелерге же табигый кырсыктарга көңүл бурат. Көпчүлүк журналисттер көңүл ачуу дүйнөсүндөгү жаңылыктарды чагылдырышат, ал эми башкалары оюндар жана спорт жөнүндө кеп кылышат. Журналист бир эле учурда бир нече текст кыртышын аткарууга аргасыз болот; ал маалыматтарды гана эмес, анын тактыгын жана мыйзамдуулугун да камсыз кылат. Кээде журналисттер коркунучка дуушар болушат жана окурмандардын санын көбөйтүү үчүн жаңылык макалаларын жазышат. Эгерде сиз журналист болууну кааласаңыз жана программалоонун негизги жөндөмдөрүнө ээ эмес болсоңуз, анда жумушуңузду аягына чыгаруу үчүн төмөнкү тиркемелерди колдонсоңуз болот.
1. Кыргыч:
Скрепер текст жана сүрөт тартуу кызматтарынын эң мыкты жана пайдалуу кызматтарынын бири. Бул колдонууга оңой жана колдонуучуга ыңгайлуу интерфейс менен келет. Scraper менен журналисттер бир эле учурда бир нече веб-баракчаларды бута алышат жана толугу менен же жарым-жартылай сайттардан маалыматтарды чыгарып алышат. Scraper машинаны үйрөнүү технологиясы менен белгилүү жана CNN, BBC жана башка ушул сыяктуу веб-сайттардан жөнөкөй тексттерди чыгарат. Андан кийин бул дайындарды Google Docs, CSV же JSON файлдарына экспорттой аласыз. Тексттердин сапатын баалоо үчүн XPath колдонулат.
2. Outubit Hub:
Outwit Hub журналисттер үчүн да, башка программисттер үчүн да ылайыктуу. Бул колдонмодон пайда алуу үчүн Python, C ++ же Ruby үйрөнүүнүн кажети жок. Бул негизинен Firefox кеңейтүүсү жана текст файлдарын, PDF, HTML документтерин жана сүрөттөрдү сиз үчүн кыркып салат. Outwit Hub так натыйжаларды берет жана ар кандай веб-сайттарды ыңгайлуу түрдө индекстөө үчүн колдонсо болот.
3. Scraperwiki:

Википедия баракчаларынан, онлайн журналдардан, жаңылыктар веб-сайттарынан жана электрондук соода сайттарынан маалыматтарды алуу үчүн Scraperwiki колдонсоңуз болот. Бул браузерге негизделген колдонмо, заматта катасыз натыйжаларды берет. Эгер сизде коддоо боюнча билим жок болсо, анда Scraperwiki сиз үчүн туура келет. Бул кызматтын жардамы менен журналисттер сайтты толугу менен кырып, бир нече секунданын ичинде маалыматтарды катуу дисктерге жүктөп алышат. Scraperwiki'дин классикалык версиясы колдонмо иштеп чыгуучулар, фрилансерлер жана веб-мастерлер үчүн ылайыктуу.
4. Import.io:
Import.io Интернеттеги тексттерди кыркуу боюнча эң мыкты жана пайдалуу кызматтардын бири. Бул журналисттерге тренддеги темаларды издеп табууга, маалыматтарды так чыгарып алууга жана бир нече мүнөттүн ичинде өз жаңылык сайттарында жарыялоого жардам берет. Import.io менен сиз тексттин жана JPG файлдарынын баарын кырып салсаңыз болот. Орнотулуп, активдештирилгенден кийин, бул шайман бир эле учурда эки миңге чейин текст кыртышын ишке ашырат. Берилген URL'дерден мазмун алып келүү абдан жакшы иш жана эч кандай көйгөйсүз эле маалыматтарды талдоого мүмкүнчүлүк берет.
5. Кимоно лабораториялары:
Import.io сыяктуу эле, Kimono Labs көптөгөн сайттарды бутага алат. Бул интернетте толук көлөмдөгү текст кыргыч жана желе текшергич катары иштейт. Маалымат алуу үчүн каалаган URL'ди айтып коюу керек, ал эми Kimono Labs бир нече мүнөттөн кийин каалаган натыйжаларын алат. Машина үйрөтүү технологиясы менен белгилүү жана журналисттер үчүн ылайыктуу темаларды табуу үчүн интернеттен издешет. Сүрөттү жана текст файлдарын Google Документтерге сактап же аларды түздөн-түз компьютериңизге жүктөп алсаңыз болот.